MobileRead Forums - View Single Post - Der Luftpirat und sein lenkbares Luftschiff und andere alte Serien

netseeker · 12-04-2009, 12:42 PM

Hallo Leute, schön zu sehen, dass hier das Feuer - wenn auch nicht zuletzt durch meine lange Abwesenheit ziemlich auf Sparflamme - noch brennt.

2009 neigt sich dem Ende entgegen und ich glaube nicht, dass wir neben den Vorbereitungen wie die Auswahl eines OCR-Systems sowie der Wiederaufnahme der "Verhandlungen" um schwer bekömmliche Quellen dieses Jahr noch viel erreichen können.

Bezüglich OCR:
Ich muss ganz ehrlich sagen, dass ich am liebsten auf ein freies OCR setzen würde, selbst wenn die Qualität dann evtl. nicht mit den teils hochpreisigen kommerziellen Programmen mithalten könnte. Das käme dem freien Charakter dieses Projekts imho am nächsten. Auf der anderen Seite könnten wir natürlich auch versuchen bei Abby & Co auf die Tränendrüse zu drücken um eine Lizenz für dieses Projekt gesponsert zu bekommen. Naja, erstmal abwarten, was für Ergebnisse Marc noch präsentieren kann oder ob ihn die Geduld mit den "tollen" OCR-Produkten irgendwann verlässt.

Demnächst wird es allerdings ohnehin im MobileRead Dev Hub ein Projekt für Tesseract geben. Ich hatte unabhängig von diesem Projekt hier vor einen "GUI-Wrapper" um Tesseract zu bauen, welcher

PDF's oder fertig eingescannte Bilder (in anderen Formaten als unkomprimiertes Graustufen-TIF) an Tesseract verfüttern kann
automatisch die passendste Bounding-Box sowie die passendste Auflösung der Bildaten für Tesseract berechnet
die grafische Auswahl der zu verwendenden Trainingsdaten (deutsch, deutsch fraktur, englisch usw.) pro OCR-Lauf ermöglicht
die Ergebnis-Ausgaben automatisch in eine Datei zusammenführt
optional typische OCR-Fehler korrigiert
optional eine Korrektur via Spellchecker durchführt
und schlußendlich aus dem Ergebnis eine Vorlage zum Korrekturlesen und Weiterverarbeiten erzeugt

Ob wir dann tatsächlich Tesseract hier in die engere Auswahl holen wollen, sei allerdings mal dahingestellt.

Das Tesseract-Projekt sollte ursprünglich haupttsächlich dazu dienen den Uploadern bisher schwer verarbeitbare Quellen auf Basis freier Software zu erschließen...

12-04-2009, 12:42 PM	#191
netseeker sleepless reader Posts: 4,763 Karma: 615547 Join Date: Jan 2008 Location: Germany, near Stuttgart Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3	Hallo Leute, schön zu sehen, dass hier das Feuer - wenn auch nicht zuletzt durch meine lange Abwesenheit ziemlich auf Sparflamme - noch brennt. 2009 neigt sich dem Ende entgegen und ich glaube nicht, dass wir neben den Vorbereitungen wie die Auswahl eines OCR-Systems sowie der Wiederaufnahme der "Verhandlungen" um schwer bekömmliche Quellen dieses Jahr noch viel erreichen können. Bezüglich OCR: Ich muss ganz ehrlich sagen, dass ich am liebsten auf ein freies OCR setzen würde, selbst wenn die Qualität dann evtl. nicht mit den teils hochpreisigen kommerziellen Programmen mithalten könnte. Das käme dem freien Charakter dieses Projekts imho am nächsten. Auf der anderen Seite könnten wir natürlich auch versuchen bei Abby & Co auf die Tränendrüse zu drücken um eine Lizenz für dieses Projekt gesponsert zu bekommen. Naja, erstmal abwarten, was für Ergebnisse Marc noch präsentieren kann oder ob ihn die Geduld mit den "tollen" OCR-Produkten irgendwann verlässt. Demnächst wird es allerdings ohnehin im MobileRead Dev Hub ein Projekt für Tesseract geben. Ich hatte unabhängig von diesem Projekt hier vor einen "GUI-Wrapper" um Tesseract zu bauen, welcher PDF's oder fertig eingescannte Bilder (in anderen Formaten als unkomprimiertes Graustufen-TIF) an Tesseract verfüttern kann automatisch die passendste Bounding-Box sowie die passendste Auflösung der Bildaten für Tesseract berechnet die grafische Auswahl der zu verwendenden Trainingsdaten (deutsch, deutsch fraktur, englisch usw.) pro OCR-Lauf ermöglicht die Ergebnis-Ausgaben automatisch in eine Datei zusammenführt optional typische OCR-Fehler korrigiert optional eine Korrektur via Spellchecker durchführt und schlußendlich aus dem Ergebnis eine Vorlage zum Korrekturlesen und Weiterverarbeiten erzeugt Ob wir dann tatsächlich Tesseract hier in die engere Auswahl holen wollen, sei allerdings mal dahingestellt. Das Tesseract-Projekt sollte ursprünglich haupttsächlich dazu dienen den Uploadern bisher schwer verarbeitbare Quellen auf Basis freier Software zu erschließen...