View Single Post
Old 01-07-2010, 04:04 AM   #33
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Quote:
Originally Posted by Staderho View Post
Kompliment und Gratulation!
...
Eine Frage und eventuell Bitte: Bei o.g. Konstellation stört mich sehr, daß man nicht alle Seiten eines pdf-Dokuments in "einem Rutsch" erkennen lasssen kann, sondern immer seitenweise vorgehen muß. Kann das Textaurare?

Das Beste für 2010 und nochmals: Kompliment an der Programmierer.
Vielen Dank für die Vorschußlorbeeren und auch alle Gute für 2010.

So langsam löse ich hier eine ganz schön große Erwartungshaltung an das Programm aus. Ich habe irgendwie Programmiererregel Nr. 1 vergessen: Immer die Erwartungshaltung niedrig halten.

Ja, das Abarbeiten eines ganzen PDF's in "einem Rutsch" wird es geben. Das war schon in den Sketches ganz am Anfang des Threads als etwas ungeschickt benannte Option "sofort starten" vorgesehen. Diese Option wird es bereits in der ersten Version als "Geamtes Dokument vorverarbeiten" geben. Dazu kann man dann auch später noch die Tesseract-Einstellungen für das gesamte Dokument ändern und den Prozess nochmal anstoßen, falls man sieht, dass die Initalbearbeitung nicht so gut gelaufen ist wie erwartet. Zusätzlich gestattet Textaurare wie freeOCR auch das "OCRen" einzelner Seiten, weil man da auch nochmal für eine Seite andere Tesseract-Trainingsdaten auswählen kann. Manchmal hat man ja mehrsprachige Dokumente und da ist es gut, wenn man die Einstellungen (Trainingsdaten & Wörterbuch) pro Seite vornehmen kann.

Last edited by netseeker; 01-07-2010 at 06:12 AM.
netseeker is offline   Reply With Quote