Quote:
Originally Posted by Martino
Da Sie das Projekt in Java realisieren: Ist Ihnen VietOCR bekannt?
Ich habe VietOCR schon einmal in Verbindung mit dem Tesseract Modul 'deu-f' benutzt und gute bis sehr Ergebnisse erzielt. Das Programm kann übrigens auch PDF Dateien importieren.
Besonders gefallen hatte mir bei VietOCR die Funktion, zu erkennenden Text zu markieren. Das ist besonders hilfreich bei Dokumenten, wo Frakturtext Illustrationen umfliesst. Tesseract versucht sonst 'mit Gewalt' die Illustrationen als Buchstaben zu interpretieren...
|
Ja, VietOCR ist mir bekannt. Ich habe es auch schon benutzt (auch mit den deu-f Trainingsdaten) war aber nicht sonderlich zufrieden damit. Insbesondere das PDF-OCR bereitete bei mir immer mal wieder Probleme und die Möglichkeiten zur Fehlerkorrektur sind noch nicht allzu komfortabel. Trotzdem ist es derzeit noch die beste grafische Oberfläche für Tesseract.
Layout-Analyse zum automatischen Erkennen von Illustrationen und Absätzen habe ich vorgesehen. Dies wird allerdings erst in einer späteren Version kommen, wenn der Rest soweit gut funktioniert. Eine manuelle Auswahl wie in VietOCR will ich vorerst nicht umsetzen. Wenn sich natürlich noch ein paar weitere Leute dafür aussprechen, dann würde ich mir das nochmall überlegen...
Quote:
Originally Posted by Martino
Könnte man in so eine Anwendung auch (zusätzlich) eine Funktion für 'verteilte Bearbeitung' einbauen? Gerade bei sehr großen Dokumenten (>700 Seiten) ist der Zeitaufwand für die komplette Bearbeitung durch einen Einzelnen leider doch sehr groß. Ich würde mir wünschen, daß z.B. das gescannte PDF-Dokument, aufgeteilt in einzelne Seiten, auf einem Internetserver liegt. Wer Zeit und Lust hat, könnte dann eine einzelne Seite bearbeiten und das Ergebnis auf den Server laden. Da dann mehrere interessierte Leute gleichzeitig an einem Dokument arbeiten könnten, wäre die Umwandlung möglicherweise schneller zu erledigen...
|
Das ist vorstellbar. Nicht in der ersten Version aber später. Allerdings muss so ein OCR-Projekt natürlich erstmal initial auf dem Server erzeugt werden, dazu muss das Programm die entsprechenden Möglichkeiten bieten. Dann sollte es zum einen im einfachsten Fall ohne spezielle Software auf dem Server funktionieren aber auch (Fall 2) mit einem Revisionmanagement kommunizieren können (CVS, SVN, GIT, ...) damit eine Versionsverfolgung möglich ist. Das muss ich mir erstmal noch in Ruhe durch den Kopf gehen lassen.