MobileRead Forums - View Single Post - Grafische Oberfläche für tesseract OCR

netseeker · 12-13-2009, 02:39 PM

Wie in einem anderen thread bereits angekündigt, möchte ich auf dem MobileRead Dev Hub ein neues Projekt rund um Tesseract (in Wikipedia, Projektseite) starten. Tesseract ist ein kostenfreies OpenSource OCR, welches zwar vergleichsweise gute Erkennungsraten aufweist, multilingual ist und - für eBook-Macher besonders wichtig - auch Fraktur unterstützt aber:

keine Layout-Analyse unterstützt
lediglich TIFF als Eingabeformat kennt
lediglich Plain-Text als Ausgabeformat unterstützt
keine grafische Oberfläche und somit auch keine Unterstützung zur Korrektur mitbringt

Es existieren zwar für Tesseract bereits einige grafische Oberflächen, allerdings kam bisher keine davon meinen Vorstellungen auch nur halbwegs nahe.

Ich würde mir eine Oberfläche wünschen, welche:

auf vielen unterschiedlichen Architekturen und Betriebssystemen läuft
die unterschiedlichsten Bildformate und auch PDF als Eingabe unterstützt
zumindest rudimentär eine Layout-Analyse kann und somit auch bspw. Bilder und Tabellen wieder in die Ausgabe bringt und den erkannten Text halbwegs in der visuellen Originalformatierung und -Anordnung hält sowie auch mehrspaltige Vorlagen unterstützt
ein Korrekturfenster (links/oben Original, rechts/unten erkannter Text) anbietet, in dem man direkt editieren und begrenzt nachformatieren kann
typische OCR-Fehler automatisch kennzeichnet oder sogar korrigiert
Spellchecker und Dictionaries anbindet, mit welchen eine erste Prüfung und Korrektur mit automatischer Unterstützung durchgeführt werden kann
zumindest (X)HTML und/oder RTF als Ausgabeformat kennt

Wenn es euerseits zu diesem Thema Ideen, Anregungen und Wünsche gibt, würde ich dies gern wissen um weitere wichtige/notwendige Dinge von Anfang an einplanen zu können.

12-13-2009, 02:39 PM	#1
netseeker sleepless reader Posts: 4,763 Karma: 615547 Join Date: Jan 2008 Location: Germany, near Stuttgart Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3	Grafische Oberfläche für tesseract OCR - Anforderungen bitte Wie in einem anderen thread bereits angekündigt, möchte ich auf dem MobileRead Dev Hub ein neues Projekt rund um Tesseract (in Wikipedia, Projektseite) starten. Tesseract ist ein kostenfreies OpenSource OCR, welches zwar vergleichsweise gute Erkennungsraten aufweist, multilingual ist und - für eBook-Macher besonders wichtig - auch Fraktur unterstützt aber: keine Layout-Analyse unterstützt lediglich TIFF als Eingabeformat kennt lediglich Plain-Text als Ausgabeformat unterstützt keine grafische Oberfläche und somit auch keine Unterstützung zur Korrektur mitbringt Es existieren zwar für Tesseract bereits einige grafische Oberflächen, allerdings kam bisher keine davon meinen Vorstellungen auch nur halbwegs nahe. Ich würde mir eine Oberfläche wünschen, welche: auf vielen unterschiedlichen Architekturen und Betriebssystemen läuft die unterschiedlichsten Bildformate und auch PDF als Eingabe unterstützt zumindest rudimentär eine Layout-Analyse kann und somit auch bspw. Bilder und Tabellen wieder in die Ausgabe bringt und den erkannten Text halbwegs in der visuellen Originalformatierung und -Anordnung hält sowie auch mehrspaltige Vorlagen unterstützt ein Korrekturfenster (links/oben Original, rechts/unten erkannter Text) anbietet, in dem man direkt editieren und begrenzt nachformatieren kann typische OCR-Fehler automatisch kennzeichnet oder sogar korrigiert Spellchecker und Dictionaries anbindet, mit welchen eine erste Prüfung und Korrektur mit automatischer Unterstützung durchgeführt werden kann zumindest (X)HTML und/oder RTF als Ausgabeformat kennt Wenn es euerseits zu diesem Thema Ideen, Anregungen und Wünsche gibt, würde ich dies gern wissen um weitere wichtige/notwendige Dinge von Anfang an einplanen zu können. Last edited by netseeker; 12-13-2009 at 02:53 PM.