View Single Post
Old 12-04-2009, 12:42 PM   #191
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Hallo Leute, schön zu sehen, dass hier das Feuer - wenn auch nicht zuletzt durch meine lange Abwesenheit ziemlich auf Sparflamme - noch brennt.

2009 neigt sich dem Ende entgegen und ich glaube nicht, dass wir neben den Vorbereitungen wie die Auswahl eines OCR-Systems sowie der Wiederaufnahme der "Verhandlungen" um schwer bekömmliche Quellen dieses Jahr noch viel erreichen können.

Bezüglich OCR:
Ich muss ganz ehrlich sagen, dass ich am liebsten auf ein freies OCR setzen würde, selbst wenn die Qualität dann evtl. nicht mit den teils hochpreisigen kommerziellen Programmen mithalten könnte. Das käme dem freien Charakter dieses Projekts imho am nächsten. Auf der anderen Seite könnten wir natürlich auch versuchen bei Abby & Co auf die Tränendrüse zu drücken um eine Lizenz für dieses Projekt gesponsert zu bekommen. Naja, erstmal abwarten, was für Ergebnisse Marc noch präsentieren kann oder ob ihn die Geduld mit den "tollen" OCR-Produkten irgendwann verlässt.

Demnächst wird es allerdings ohnehin im MobileRead Dev Hub ein Projekt für Tesseract geben. Ich hatte unabhängig von diesem Projekt hier vor einen "GUI-Wrapper" um Tesseract zu bauen, welcher
  • PDF's oder fertig eingescannte Bilder (in anderen Formaten als unkomprimiertes Graustufen-TIF) an Tesseract verfüttern kann
  • automatisch die passendste Bounding-Box sowie die passendste Auflösung der Bildaten für Tesseract berechnet
  • die grafische Auswahl der zu verwendenden Trainingsdaten (deutsch, deutsch fraktur, englisch usw.) pro OCR-Lauf ermöglicht
  • die Ergebnis-Ausgaben automatisch in eine Datei zusammenführt
  • optional typische OCR-Fehler korrigiert
  • optional eine Korrektur via Spellchecker durchführt
  • und schlußendlich aus dem Ergebnis eine Vorlage zum Korrekturlesen und Weiterverarbeiten erzeugt

Ob wir dann tatsächlich Tesseract hier in die engere Auswahl holen wollen, sei allerdings mal dahingestellt. Das Tesseract-Projekt sollte ursprünglich haupttsächlich dazu dienen den Uploadern bisher schwer verarbeitbare Quellen auf Basis freier Software zu erschließen...
netseeker is offline   Reply With Quote