View Single Post
Old 12-23-2009, 04:22 PM   #20
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Quote:
Originally Posted by Josch91 View Post
Wow, das sieht ja super aus.
Danke! Allerdings konzentriere ich mich derzeit im Wesentlichen noch darauf, dass es funktioniert. An der UI können wir dann später noch feilen, wenn wir entsprechende Testrückmeldungen haben.

Quote:
Originally Posted by Josch91 View Post
Hast Du denn überhaupt Einfluss auf die OCR-Ergebnisse? Du programmierst doch nur die grafische Oberfläche, oder?
Begrenzt habe ich Einfluss. Das funktioniert über drei Möglichkeiten:
  1. Ordentliche, passende Trainingsdaten für Fraktur verwenden. Die für Tesseract bereits verfügbaren Trainingsdaten für Fraktur könnten noch verbessert werden bzw. werden wir wahrscheinlich unterschiedliche Trainingsdaten für unterschiedliche Fraktur-Schriftfamilien aufbereiten müssen um das Ergebnis so gut wie irgend möglich zu machen.
  2. Tesseract nimmt als Eingabe immer Bilder, diese Bilder kann man natürlich bzgl. Auflösung, Kontrast, Linienstärke etc. speziell für ein gutes OCR vorbereiten.
  3. Zum Schluß können wir dann noch Nachbearbeitungen des OCR-Ergebnisses vornehmen und einige OCR-Fehler automatisch unter Zuhilfenahme ordentlicher Wörterbücher bereinigen.
netseeker is offline   Reply With Quote