Quote:
Originally Posted by RumpelStielz
Die Fehler in der Struktur enstehen durch Fehler im erzeugenden Programm bzw. der verwendeten Bibliothek.,nicht durch den Inhalt. Das hat mit OCR erst mal rein gar nichts zu tun. PDF ist kein triviales Format und durch bloßen Augenschein kann man keine fundierten Aussagen treffen. Man muß das Dokument analysieren. Entschuldigung, aber das ist die unfreundliche Wahrheit.
Und bitte nicht Dokumentstruktur (PDF) und Layout (Seite) durcheinanderbringen.
|
Schon einmal darüber nachgedacht, dass die OCR, die in diesem Falle ja das "erzeugende Programm" ist, den Fehler verursachen könnte? Glaub mir einfach, dass dieses Problem durch die OCR entstehen kann, denn ich weiß wovon ich rede, auch wenn du das bezweifelst.
Und ja, ich kenne den Unterschied zwischen structure und layout, bzw. auch den Zusammenhang im Falle von Dateitypen die Dokumente beinhalten/beschreiben.