Quote:
Originally Posted by Josch91
Wow, das sieht ja super aus. 
|
Danke!

Allerdings konzentriere ich mich derzeit im Wesentlichen noch darauf, dass es funktioniert. An der UI können wir dann später noch feilen, wenn wir entsprechende Testrückmeldungen haben.
Quote:
Originally Posted by Josch91
Hast Du denn überhaupt Einfluss auf die OCR-Ergebnisse? Du programmierst doch nur die grafische Oberfläche, oder?
|
Begrenzt habe ich Einfluss. Das funktioniert über drei Möglichkeiten:
- Ordentliche, passende Trainingsdaten für Fraktur verwenden. Die für Tesseract bereits verfügbaren Trainingsdaten für Fraktur könnten noch verbessert werden bzw. werden wir wahrscheinlich unterschiedliche Trainingsdaten für unterschiedliche Fraktur-Schriftfamilien aufbereiten müssen um das Ergebnis so gut wie irgend möglich zu machen.
- Tesseract nimmt als Eingabe immer Bilder, diese Bilder kann man natürlich bzgl. Auflösung, Kontrast, Linienstärke etc. speziell für ein gutes OCR vorbereiten.
- Zum Schluß können wir dann noch Nachbearbeitungen des OCR-Ergebnisses vornehmen und einige OCR-Fehler automatisch unter Zuhilfenahme ordentlicher Wörterbücher bereinigen.