View Single Post
Old 02-24-2010, 06:23 AM   #15
stg
Junior Member
stg began at the beginning.
 
Posts: 1
Karma: 10
Join Date: Feb 2010
Location: Germany, Berlin
Device: android, G1
Ich habe jetzt mal pdftotext so gehackt, dass es bei meinem PDF-Dateien auch bei zweispaltigen Text saubere Ergebnisse liefert und fast keine manuelle Nacharbeit nötig ist .
  1. Poppler laden: http://poppler.freedesktop.org/poppler-0.12.4.tar.gz
  2. auspacken: tar -txvf poppler-0.12.4.tar.gz
  3. und patchen mit der Datei im Anhang: cd poppler-0.12.4; zcat <pathto>/poppler-0.12.4-format.diff.gz | patch -p1
  4. INSTALL lesen und übersetzen

Umbrüche werden nun vor jeder Einrückung, nach jedem Block und nach jeder neuen Seite erzeugt. Es gibt nun eine Option -noblkbrk, die die Umbrüche nach neuen Blocks abschaltet. Das Sortieren der Blöcke erfolgt nun von links nach rechts und etwas entspannter.

Ein Aufruf von
Code:
pdftotext  -noblkbrk   <pdffile>
erzeugt Text mit Seitenumbrüchen.

Wenn man keine Seitenumbrüche haben will, sollte man Kopf und Fußzeilen abscheiden:
Code:
pdftotext -x 60 -y 80 -W 475 -H 682 -noblkbrk  -nopgbrk <pdffile>
. Die Werte für den Rand sind aber nur Beispiele und an das Format anzupassen.

Ich kann damit aus meinen PDF's gut lesbaren Text für FBReader erzeugen, aber es ist sicher nicht für alle Fälle brauchbar.
Attached Files
File Type: gz poppler-0.12.4-format.diff.gz (2.3 KB, 204 views)
stg is offline   Reply With Quote