Quote:
Originally Posted by Staderho
Kompliment und Gratulation!
...
Eine Frage und eventuell Bitte: Bei o.g. Konstellation stört mich sehr, daß man nicht alle Seiten eines pdf-Dokuments in "einem Rutsch" erkennen lasssen kann, sondern immer seitenweise vorgehen muß. Kann das Textaurare?
Das Beste für 2010 und nochmals: Kompliment an der Programmierer.
|
Vielen Dank für die Vorschußlorbeeren und auch alle Gute für 2010.
So langsam löse ich hier eine ganz schön große Erwartungshaltung an das Programm aus.

Ich habe irgendwie Programmiererregel Nr. 1 vergessen: Immer die Erwartungshaltung niedrig halten.
Ja, das Abarbeiten eines ganzen PDF's in "einem Rutsch" wird es geben. Das war schon in den Sketches ganz am Anfang des Threads als etwas ungeschickt benannte Option "sofort starten" vorgesehen. Diese Option wird es bereits in der ersten Version als "Geamtes Dokument vorverarbeiten" geben. Dazu kann man dann auch später noch die Tesseract-Einstellungen für das gesamte Dokument ändern und den Prozess nochmal anstoßen, falls man sieht, dass die Initalbearbeitung nicht so gut gelaufen ist wie erwartet. Zusätzlich gestattet Textaurare wie freeOCR auch das "OCRen" einzelner Seiten, weil man da auch nochmal für eine Seite andere Tesseract-Trainingsdaten auswählen kann. Manchmal hat man ja mehrsprachige Dokumente und da ist es gut, wenn man die Einstellungen (Trainingsdaten & Wörterbuch) pro Seite vornehmen kann.