View Single Post
Old 01-18-2010, 12:08 PM   #36
Martino
Junior Member
Martino began at the beginning.
 
Posts: 3
Karma: 10
Join Date: Jan 2010
Device: Motorola A780
Smile

Da Sie das Projekt in Java realisieren: Ist Ihnen VietOCR bekannt?

Ich habe VietOCR schon einmal in Verbindung mit dem Tesseract Modul 'deu-f' benutzt und gute bis sehr Ergebnisse erzielt. Das Programm kann übrigens auch PDF Dateien importieren.

Besonders gefallen hatte mir bei VietOCR die Funktion, zu erkennenden Text zu markieren. Das ist besonders hilfreich bei Dokumenten, wo Frakturtext Illustrationen umfliesst. Tesseract versucht sonst 'mit Gewalt' die Illustrationen als Buchstaben zu interpretieren...

Da ich meine Java Kenntnisse leider *sehr* mangelhaft sind: Könnte man in so eine Anwendung auch (zusätzlich) eine Funktion für 'verteilte Bearbeitung' einbauen? Gerade bei sehr großen Dokumenten (>700 Seiten) ist der Zeitaufwand für die komplette Bearbeitung durch einen Einzelnen leider doch sehr groß. Ich würde mir wünschen, daß z.B. das gescannte PDF-Dokument, aufgeteilt in einzelne Seiten, auf einem Internetserver liegt. Wer Zeit und Lust hat, könnte dann eine einzelne Seite bearbeiten und das Ergebnis auf den Server laden. Da dann mehrere interessierte Leute gleichzeitig an einem Dokument arbeiten könnten, wäre die Umwandlung möglicherweise schneller zu erledigen...
Martino is offline   Reply With Quote