MobileRead Forums - View Single Post - Grafische Oberfläche für tesseract OCR

netseeker · 12-23-2009, 03:22 PM

Quote:

Originally Posted by Josch91

Wow, das sieht ja super aus.

Danke!

Allerdings konzentriere ich mich derzeit im Wesentlichen noch darauf, dass es funktioniert. An der UI können wir dann später noch feilen, wenn wir entsprechende Testrückmeldungen haben.

Quote:

Originally Posted by Josch91

Hast Du denn überhaupt Einfluss auf die OCR-Ergebnisse? Du programmierst doch nur die grafische Oberfläche, oder?

Begrenzt habe ich Einfluss. Das funktioniert über drei Möglichkeiten:

Ordentliche, passende Trainingsdaten für Fraktur verwenden. Die für Tesseract bereits verfügbaren Trainingsdaten für Fraktur könnten noch verbessert werden bzw. werden wir wahrscheinlich unterschiedliche Trainingsdaten für unterschiedliche Fraktur-Schriftfamilien aufbereiten müssen um das Ergebnis so gut wie irgend möglich zu machen.
Tesseract nimmt als Eingabe immer Bilder, diese Bilder kann man natürlich bzgl. Auflösung, Kontrast, Linienstärke etc. speziell für ein gutes OCR vorbereiten.
Zum Schluß können wir dann noch Nachbearbeitungen des OCR-Ergebnisses vornehmen und einige OCR-Fehler automatisch unter Zuhilfenahme ordentlicher Wörterbücher bereinigen.