MobileRead Forums - View Single Post - Grafische Oberfläche für tesseract OCR

netseeker · 01-05-2010, 02:43 PM

Here we go. Aktueller Status sowie ein paar neue Screenshots...

Prinzipiell funktioniert das meiste. Der Editor arbeitet auf RTF-Basis (Richt Text Format), was eine Weiterverarbeitung im Editor eurer Wahl ermöglichen sollte. Außerdem wird RTF seitens der notwendigen Editorkits von Java besser unterstützt als HTML oder XHTML. Im Detail fehlen jetzt noch:

Finden und Ersetzen (mache ich momentan) mit Unterstützung für Reguläre Ausdrücke
Spellcheck und Wörterbuchanbindung (hab ich schon angetestet, wird hoffentlich morgen fertig)
Automatisches Ersetzen von häufigen OCR-Fehlern unter Einbeziehung von anpassbaren Benutzervorgaben. (hier bin ich mir noch nicht ganz schlüssig wie das im Detail aussehen wird)
Die erweiterbare Liste von Sonderzeichen
Export der Einzelseiten nach HTML und TXT
Export aller Seiten in ein Dokument (RTF, HTML, TXT)
Kleinere Details wie Menüs mit Funktionen befüllen, Export/Import des kompletten Projekts nach bzw. von ZIP-Archiv, Prüfung auf Mehrfachstart usw.)
Einrichtungsassistent und Einstellungsdialog (Pfade zu Tesseract, externem Editor sowie externem Bildbearbeitungsprogramm; Standardexportformat; Standardwörterbuch; Standard-Tesseract-Sprache)
Installer

Die "Kleineren Details", den HTML-Export sowie die Unterstützung für reguläre Ausdrücke lasse ich für die erste Runde evtl. noch weg. Installer mache ich ohnehin erst ganz zum Schluß, wenn die ersten Tests erfolgreich waren. Die anderen Funktionen schaffe ich hoffentlich in den nächsten Tagen. Morgen ist ja glücklicherweise hier Feiertag.

01-05-2010, 02:43 PM	#25
netseeker sleepless reader Posts: 4,763 Karma: 615547 Join Date: Jan 2008 Location: Germany, near Stuttgart Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3	Here we go. Aktueller Status sowie ein paar neue Screenshots... Prinzipiell funktioniert das meiste. Der Editor arbeitet auf RTF-Basis (Richt Text Format), was eine Weiterverarbeitung im Editor eurer Wahl ermöglichen sollte. Außerdem wird RTF seitens der notwendigen Editorkits von Java besser unterstützt als HTML oder XHTML. Im Detail fehlen jetzt noch: Finden und Ersetzen (mache ich momentan) mit Unterstützung für Reguläre Ausdrücke Spellcheck und Wörterbuchanbindung (hab ich schon angetestet, wird hoffentlich morgen fertig) Automatisches Ersetzen von häufigen OCR-Fehlern unter Einbeziehung von anpassbaren Benutzervorgaben. (hier bin ich mir noch nicht ganz schlüssig wie das im Detail aussehen wird) Die erweiterbare Liste von Sonderzeichen Export der Einzelseiten nach HTML und TXT Export aller Seiten in ein Dokument (RTF, HTML, TXT) Kleinere Details wie Menüs mit Funktionen befüllen, Export/Import des kompletten Projekts nach bzw. von ZIP-Archiv, Prüfung auf Mehrfachstart usw.) Einrichtungsassistent und Einstellungsdialog (Pfade zu Tesseract, externem Editor sowie externem Bildbearbeitungsprogramm; Standardexportformat; Standardwörterbuch; Standard-Tesseract-Sprache) Installer Die "Kleineren Details", den HTML-Export sowie die Unterstützung für reguläre Ausdrücke lasse ich für die erste Runde evtl. noch weg. Installer mache ich ohnehin erst ganz zum Schluß, wenn die ersten Tests erfolgreich waren. Die anderen Funktionen schaffe ich hoffentlich in den nächsten Tagen. Morgen ist ja glücklicherweise hier Feiertag. Attached Thumbnails Last edited by netseeker; 01-05-2010 at 02:46 PM.