pdftohtml ist schon okay, allerdings solltest du auch sed oder awk beherrschen, damit du die HTML-Ausgabe zurechtbiegen kannst an deine Bedürfnisse. Ich hatte z.B. eine PDF-Datei bei der ich <br><br> zu <p> verwandeln musste und alleinstehende <br> zu Leerzeichen, damit die Formatierung halbwegs stimmt. Calibre benutzt ja auch pdftohtml, war damit aber überfordert und ich mache sowas schneller selber mit sed, als bei Calibre durch die Konfigurationsoptionen durchzusteigen.
|