View Single Post
Old 12-11-2015, 02:57 AM   #3
gawl
Enthusiast
gawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic something
 
gawl's Avatar
 
Posts: 27
Karma: 18672
Join Date: Mar 2013
Device: Pocketbook Touch
Generell stimme ich foxis Beitrag voll zu, hier vielleicht noch ein paar unsortierte eigene Erfahrungen:
* Je größer die Scan-Auflösung, desto besser die Texterkennung, insofern kann die Auflösung nie groß genug genug sein. Allerdings wachsen Dateigröße und Bearbeitungszeit irgendwann über alle sinnvolle Maße. Deswegen beschränke ich mich meistens auf 600dpi, außer bei Texten mit unverschämt kleiner Schriftgröße.
* Ich kann in meinem Scanprogramm für Graustufen-Scans den zu verwendenden Farbkanal einstellen. Falls so etwas bei Dir auch geht, dann solltest Du auch einmal mit den Einstellungen herumprobieren, weil "Problemzonen" (vergilbtes Papier, braune Flecken, etc.) damit zum Teil erfreulich stark reduziert werden.
* Ich nutze Tesseract auf der Linux-Kommandozeile.
* Ich habe Tesseract vor geraumer Zeit noch einmal selbst von Grund auf für eine Mainzer Fraktur trainiert. Ich hatte nämlich den Eindruck, daß das zu Tesseract gehörende Standardmuster für Fraktur einen viel zu großen Zeichenvorrat unterstützt, was nur auf den ersten Blick gut erscheint, denn gerade bei Fraktur gibt es eine ganze Reihe sehr ähnlicher Zeichen, und wenn ich vermeiden kann, daß immer wieder bestimmte Buchstaben fälschlich als irgendein exotisches Sonderzeichen erkannt werden, indem ich von vorneherein Tesseract nur auf Buchstaben, Ziffern und gängige Satzzeichen trainiere, dann spart mich das Zeit beim Nachkorrigieren ;-)
gawl is offline   Reply With Quote