Quote:
Originally Posted by RumpelStielz
Die Fehler in der Struktur enstehen durch Fehler im erzeugenden Programm bzw. der verwendeten Bibliothek.,nicht durch den Inhalt. Das hat mit OCR erst mal rein gar nichts zu tun. PDF ist kein triviales Format und durch bloßen Augenschein kann man keine fundierten Aussagen treffen. Man muß das Dokument analysieren. Entschuldigung, aber das ist die unfreundliche Wahrheit.
Und bitte nicht Dokumentstruktur (PDF) und Layout (Seite) durcheinanderbringen.
|
Übrigens, die komplette Datei kann auf der Seite
http://www.archive.org/details/spiritualwives00dixorich herunter geladen werden. Es ist unter "View the book" gleich die erste PDF-Datei. Auf vielen Seien steht "Univ Calif - Digitized by Microsoft". Offensichtlich wurde sie im Rahmen des später eingestellen Buchprojekts von Microsoft, das als Konkurrenz zur Google Buchsuche gedacht war, eingescannt. Dieses Projekt wurde eingestellt, die schon eingescannten Bücher sind aber noch vorhanden.