View Single Post
Old 12-13-2009, 01:39 PM   #1
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Lightbulb Grafische Oberfläche für tesseract OCR - Anforderungen bitte

Wie in einem anderen thread bereits angekündigt, möchte ich auf dem MobileRead Dev Hub ein neues Projekt rund um Tesseract (in Wikipedia, Projektseite) starten. Tesseract ist ein kostenfreies OpenSource OCR, welches zwar vergleichsweise gute Erkennungsraten aufweist, multilingual ist und - für eBook-Macher besonders wichtig - auch Fraktur unterstützt aber:
  • keine Layout-Analyse unterstützt
  • lediglich TIFF als Eingabeformat kennt
  • lediglich Plain-Text als Ausgabeformat unterstützt
  • keine grafische Oberfläche und somit auch keine Unterstützung zur Korrektur mitbringt

Es existieren zwar für Tesseract bereits einige grafische Oberflächen, allerdings kam bisher keine davon meinen Vorstellungen auch nur halbwegs nahe.

Ich würde mir eine Oberfläche wünschen, welche:
  • auf vielen unterschiedlichen Architekturen und Betriebssystemen läuft
  • die unterschiedlichsten Bildformate und auch PDF als Eingabe unterstützt
  • zumindest rudimentär eine Layout-Analyse kann und somit auch bspw. Bilder und Tabellen wieder in die Ausgabe bringt und den erkannten Text halbwegs in der visuellen Originalformatierung und -Anordnung hält sowie auch mehrspaltige Vorlagen unterstützt
  • ein Korrekturfenster (links/oben Original, rechts/unten erkannter Text) anbietet, in dem man direkt editieren und begrenzt nachformatieren kann
  • typische OCR-Fehler automatisch kennzeichnet oder sogar korrigiert
  • Spellchecker und Dictionaries anbindet, mit welchen eine erste Prüfung und Korrektur mit automatischer Unterstützung durchgeführt werden kann
  • zumindest (X)HTML und/oder RTF als Ausgabeformat kennt

Wenn es euerseits zu diesem Thema Ideen, Anregungen und Wünsche gibt, würde ich dies gern wissen um weitere wichtige/notwendige Dinge von Anfang an einplanen zu können.

Last edited by netseeker; 12-13-2009 at 01:53 PM.
netseeker is offline   Reply With Quote