Wie in einem anderen thread bereits angekündigt, möchte ich auf dem MobileRead Dev Hub ein neues Projekt rund um
Tesseract (
in Wikipedia,
Projektseite) starten.
Tesseract ist ein kostenfreies OpenSource OCR, welches zwar vergleichsweise gute Erkennungsraten aufweist, multilingual ist und - für eBook-Macher besonders wichtig - auch Fraktur unterstützt aber:
- keine Layout-Analyse unterstützt
- lediglich TIFF als Eingabeformat kennt
- lediglich Plain-Text als Ausgabeformat unterstützt
- keine grafische Oberfläche und somit auch keine Unterstützung zur Korrektur mitbringt
Es existieren zwar für
Tesseract bereits einige grafische Oberflächen, allerdings kam bisher keine davon meinen Vorstellungen auch nur halbwegs nahe.
Ich würde mir eine Oberfläche wünschen, welche:
- auf vielen unterschiedlichen Architekturen und Betriebssystemen läuft
- die unterschiedlichsten Bildformate und auch PDF als Eingabe unterstützt
- zumindest rudimentär eine Layout-Analyse kann und somit auch bspw. Bilder und Tabellen wieder in die Ausgabe bringt und den erkannten Text halbwegs in der visuellen Originalformatierung und -Anordnung hält sowie auch mehrspaltige Vorlagen unterstützt
- ein Korrekturfenster (links/oben Original, rechts/unten erkannter Text) anbietet, in dem man direkt editieren und begrenzt nachformatieren kann
- typische OCR-Fehler automatisch kennzeichnet oder sogar korrigiert
- Spellchecker und Dictionaries anbindet, mit welchen eine erste Prüfung und Korrektur mit automatischer Unterstützung durchgeführt werden kann
- zumindest (X)HTML und/oder RTF als Ausgabeformat kennt
Wenn es euerseits zu diesem Thema Ideen, Anregungen und Wünsche gibt, würde ich dies gern wissen um weitere wichtige/notwendige Dinge von Anfang an einplanen zu können.