View Single Post
Old 12-04-2009, 11:45 AM   #192
mtravellerh
book creator
mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.mtravellerh ought to be getting tired of karma fortunes by now.
 
mtravellerh's Avatar
 
Posts: 9,635
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: PB360°
Ich schlag mal als Material die Digitalscans der Ablit vor. Auch die Karl-May-Gesellschaft hat fraktales massenweise. Bis zur Erschöpfung Material zum Ueben gibt es bei Wikisource D.

Quote:
Originally Posted by netseeker View Post

Bezüglich OCR:
Ich muss ganz ehrlich sagen, dass ich am liebsten auf ein freies OCR setzen würde, selbst wenn die Qualität dann evtl. nicht mit den teils hochpreisigen kommerziellen Programmen mithalten könnte. Das käme dem freien Charakter dieses Projekts imho am nächsten. Auf der anderen Seite könnten wir natürlich auch versuchen bei Abby & Co auf die Tränendrüse zu drücken um eine Lizenz für dieses Projekt gesponsert zu bekommen. Naja, erstmal abwarten, was für Ergebnisse Marc noch präsentieren kann oder ob ihn die Geduld mit den "tollen" OCR-Produkten irgendwann verlässt.

Demnächst wird es allerdings ohnehin im MobileRead Dev Hub ein Projekt für Tesseract geben. Ich hatte unabhängig von diesem Projekt hier vor einen "GUI-Wrapper" um Tesseract zu bauen, welcher
  • PDF's oder fertig eingescannte Bilder (in anderen Formaten als unkomprimiertes Graustufen-TIF) an Tesseract verfüttern kann
  • automatisch die passendste Bounding-Box sowie die passendste Auflösung der Bildaten für Tesseract berechnet
  • die grafische Auswahl der zu verwendenden Trainingsdaten (deutsch, deutsch fraktur, englisch usw.) pro OCR-Lauf ermöglicht
  • die Ergebnis-Ausgaben automatisch in eine Datei zusammenführt
  • optional typische OCR-Fehler korrigiert
  • optional eine Korrektur via Spellchecker durchführt
  • und schlußendlich aus dem Ergebnis eine Vorlage zum Korrekturlesen und Weiterverarbeiten erzeugt

Ob wir dann tatsächlich Tesseract hier in die engere Auswahl holen wollen, sei allerdings mal dahingestellt. Das Tesseract-Projekt sollte ursprünglich haupttsächlich dazu dienen den Uploadern bisher schwer verarbeitbare Quellen auf Basis freier Software zu erschließen...
Nimmst Du eine universelle Sprache für das GUI (beispielsweise Java oder Python), damit wir anderen Pinguine auch teilhaben können?

Last edited by mtravellerh; 12-04-2009 at 11:48 AM.
mtravellerh is offline   Reply With Quote