Grafische Oberfläche für tesseract OCR - Anforderungen bitte - Page 3

Josch91 · 01-06-2010, 09:36 AM

Ich bin wirklich beeindruckt. Sieht wieder super aus.

Staderho · 01-07-2010, 03:47 AM

Kompliment und Gratulation!

Vorweg: Ich bin ein Programmier-Dau und nur Anwender aber ich freue mich auf Textaurare, da ich beruflich viel mit tesseract und freeocr deutsche Fraktur [Texte des frühen 18. Jahrhunderts] erkenne und bearbeite. Mit dieser Methode komme ich soweit gut hin.

Eine Frage und eventuell Bitte: Bei o.g. Konstellation stört mich sehr, daß man nicht alle Seiten eines pdf-Dokuments in "einem Rutsch" erkennen lasssen kann, sondern immer seitenweise vorgehen muß. Kann das Textaurare?

Das Beste für 2010 und nochmals: Kompliment an der Programmierer.

Stephan.

netseeker · 01-07-2010, 04:04 AM

Quote:

Originally Posted by Staderho

Kompliment und Gratulation!
...
Eine Frage und eventuell Bitte: Bei o.g. Konstellation stört mich sehr, daß man nicht alle Seiten eines pdf-Dokuments in "einem Rutsch" erkennen lasssen kann, sondern immer seitenweise vorgehen muß. Kann das Textaurare?

Das Beste für 2010 und nochmals: Kompliment an der Programmierer.

Vielen Dank für die Vorschußlorbeeren und auch alle Gute für 2010.

So langsam löse ich hier eine ganz schön große Erwartungshaltung an das Programm aus.

Ich habe irgendwie Programmiererregel Nr. 1 vergessen: Immer die Erwartungshaltung niedrig halten.

Ja, das Abarbeiten eines ganzen PDF's in "einem Rutsch" wird es geben. Das war schon in den Sketches ganz am Anfang des Threads als etwas ungeschickt benannte Option "sofort starten" vorgesehen. Diese Option wird es bereits in der ersten Version als "Geamtes Dokument vorverarbeiten" geben. Dazu kann man dann auch später noch die Tesseract-Einstellungen für das gesamte Dokument ändern und den Prozess nochmal anstoßen, falls man sieht, dass die Initalbearbeitung nicht so gut gelaufen ist wie erwartet. Zusätzlich gestattet Textaurare wie freeOCR auch das "OCRen" einzelner Seiten, weil man da auch nochmal für eine Seite andere Tesseract-Trainingsdaten auswählen kann. Manchmal hat man ja mehrsprachige Dokumente und da ist es gut, wenn man die Einstellungen (Trainingsdaten & Wörterbuch) pro Seite vornehmen kann.

Duglum · 01-07-2010, 05:49 AM

Hi,

ich habe mal aus meinem System die Dateien rausgesucht, die wie aspell-Dictionaries aussehen. Wenn es die falschen sind, sag mit bitte, welche du brauchst, dann lad ich die noch eben hoch.

http://rapidshare.de/files/48955998/aspell.tar.bz2.html

Gruß,
Duglum

netseeker · 01-07-2010, 06:44 AM

Quote:

Originally Posted by Duglum

Hi,

ich habe mal aus meinem System die Dateien rausgesucht, die wie aspell-Dictionaries aussehen. Wenn es die falschen sind, sag mit bitte, welche du brauchst, dann lad ich die noch eben hoch.

http://rapidshare.de/files/48955998/aspell.tar.bz2.html

Gruß,
Duglum

Vielen Dank, das passt soweit. Dafür gibts Karma!
Ich will einen Vergleich zwischen den verschiedenen Spellcheckern machen und einer benötigt die Aspell-Dictionaries.

Wahrscheinlich wird es darauf hinauslaufen, Wortlisten + Aspell Phonetik-Steuerdateien für die jeweilige Sprache zu verwenden. Dann kann der Benutzer problemfrei eigene Wortlisten einspielen. Mal sehen, ob das so gut funktioniert wie ich es mir vorstelle.

Martino · 01-18-2010, 12:08 PM

Da Sie das Projekt in Java realisieren: Ist Ihnen VietOCR bekannt?

Ich habe VietOCR schon einmal in Verbindung mit dem Tesseract Modul 'deu-f' benutzt und gute bis sehr Ergebnisse erzielt. Das Programm kann übrigens auch PDF Dateien importieren.

Besonders gefallen hatte mir bei VietOCR die Funktion, zu erkennenden Text zu markieren. Das ist besonders hilfreich bei Dokumenten, wo Frakturtext Illustrationen umfliesst. Tesseract versucht sonst 'mit Gewalt' die Illustrationen als Buchstaben zu interpretieren...

Da ich meine Java Kenntnisse leider *sehr* mangelhaft sind: Könnte man in so eine Anwendung auch (zusätzlich) eine Funktion für 'verteilte Bearbeitung' einbauen? Gerade bei sehr großen Dokumenten (>700 Seiten) ist der Zeitaufwand für die komplette Bearbeitung durch einen Einzelnen leider doch sehr groß. Ich würde mir wünschen, daß z.B. das gescannte PDF-Dokument, aufgeteilt in einzelne Seiten, auf einem Internetserver liegt. Wer Zeit und Lust hat, könnte dann eine einzelne Seite bearbeiten und das Ergebnis auf den Server laden. Da dann mehrere interessierte Leute gleichzeitig an einem Dokument arbeiten könnten, wäre die Umwandlung möglicherweise schneller zu erledigen...

netseeker · 01-18-2010, 01:24 PM

Quote:

Originally Posted by Martino

Da Sie das Projekt in Java realisieren: Ist Ihnen VietOCR bekannt?

Ich habe VietOCR schon einmal in Verbindung mit dem Tesseract Modul 'deu-f' benutzt und gute bis sehr Ergebnisse erzielt. Das Programm kann übrigens auch PDF Dateien importieren.

Besonders gefallen hatte mir bei VietOCR die Funktion, zu erkennenden Text zu markieren. Das ist besonders hilfreich bei Dokumenten, wo Frakturtext Illustrationen umfliesst. Tesseract versucht sonst 'mit Gewalt' die Illustrationen als Buchstaben zu interpretieren...

Ja, VietOCR ist mir bekannt. Ich habe es auch schon benutzt (auch mit den deu-f Trainingsdaten) war aber nicht sonderlich zufrieden damit. Insbesondere das PDF-OCR bereitete bei mir immer mal wieder Probleme und die Möglichkeiten zur Fehlerkorrektur sind noch nicht allzu komfortabel. Trotzdem ist es derzeit noch die beste grafische Oberfläche für Tesseract.

Layout-Analyse zum automatischen Erkennen von Illustrationen und Absätzen habe ich vorgesehen. Dies wird allerdings erst in einer späteren Version kommen, wenn der Rest soweit gut funktioniert. Eine manuelle Auswahl wie in VietOCR will ich vorerst nicht umsetzen. Wenn sich natürlich noch ein paar weitere Leute dafür aussprechen, dann würde ich mir das nochmall überlegen...

Quote:

Originally Posted by Martino

Könnte man in so eine Anwendung auch (zusätzlich) eine Funktion für 'verteilte Bearbeitung' einbauen? Gerade bei sehr großen Dokumenten (>700 Seiten) ist der Zeitaufwand für die komplette Bearbeitung durch einen Einzelnen leider doch sehr groß. Ich würde mir wünschen, daß z.B. das gescannte PDF-Dokument, aufgeteilt in einzelne Seiten, auf einem Internetserver liegt. Wer Zeit und Lust hat, könnte dann eine einzelne Seite bearbeiten und das Ergebnis auf den Server laden. Da dann mehrere interessierte Leute gleichzeitig an einem Dokument arbeiten könnten, wäre die Umwandlung möglicherweise schneller zu erledigen...

Das ist vorstellbar. Nicht in der ersten Version aber später. Allerdings muss so ein OCR-Projekt natürlich erstmal initial auf dem Server erzeugt werden, dazu muss das Programm die entsprechenden Möglichkeiten bieten. Dann sollte es zum einen im einfachsten Fall ohne spezielle Software auf dem Server funktionieren aber auch (Fall 2) mit einem Revisionmanagement kommunizieren können (CVS, SVN, GIT, ...) damit eine Versionsverfolgung möglich ist. Das muss ich mir erstmal noch in Ruhe durch den Kopf gehen lassen.

Martino · 01-19-2010, 06:51 AM

Quote:

Originally Posted by netseeker

Das ist vorstellbar. Nicht in der ersten Version aber später. Allerdings muss so ein OCR-Projekt natürlich erstmal initial auf dem Server erzeugt werden, dazu muss das Programm die entsprechenden Möglichkeiten bieten. Dann sollte es zum einen im einfachsten Fall ohne spezielle Software auf dem Server funktionieren aber auch (Fall 2) mit einem Revisionmanagement kommunizieren können (CVS, SVN, GIT, ...) damit eine Versionsverfolgung möglich ist. Das muss ich mir erstmal noch in Ruhe durch den Kopf gehen lassen.

Natürlich bin ich nicht davon ausgegangen, daß Sie eine solch komplexe Funktion schnell noch 'zwischen Tür und Angel' in eine der ersten Versionen Ihres Programms einbauen...

Eine andere Frage wäre außerdem, ob überhaupt Bedarf an solch einer Funktion besteht, d.h. ob noch andere Leute außer mir an solch einem (freiwilligen) 'verteilten Arbeiten' an Dokumenten interessiert wären?

Ich persönlich habe leider meist zu wenig Zeit, ein komplettes Buch in ein EBook Format umzuwandeln. Ich würde aber gerne, soweit es meine Zeit zulässt, anderen Leuten bei einer solchen Arbeit helfen. Ich habe schon ein ganz schlechtes Gewissen, daß ich die von anderen Leuten freundlicherweise der Allgemeinheit zur Verfügung gestellten EBooks nur konsumiere, ohne etwas selbst beitragen zu können...

Staderho · 02-01-2010, 06:53 PM

hallo netseeker,

ich hoffe es geht gut und es geht voran. ;-)

eben ist mir im praktischen umgang mit fraktur-OCR noch aufgefallen, daß ich häufig das schnappschuss-werkzeug im adobe reader verwende um nur einen ausschnitt zu kopieren und ggf. dann text-erkennen lasse. Nur muß man diesen Ausschnitt erst umständlich in ein bildbearbeitungsprogramm einfügen und abspeichern...sehr umständlich.

Vielleicht kann Textaurare es ja, daß man direkt aus der Zwischenablage etwas einfügen kann...

Das Beste, Stephan.

rmx · 10-09-2010, 04:48 AM

*schieb*

Was ist eigentlich aus Textaurare geworden? Hab über die Suchfunktion leider keine weiteren Infos gefunden...

01-07-2010, 03:47 AM	#32
Staderho Junior Member Posts: 2 Karma: 10 Join Date: Jan 2010 Device: none	Kompliment Kompliment und Gratulation! Vorweg: Ich bin ein Programmier-Dau und nur Anwender aber ich freue mich auf Textaurare, da ich beruflich viel mit tesseract und freeocr deutsche Fraktur [Texte des frühen 18. Jahrhunderts] erkenne und bearbeite. Mit dieser Methode komme ich soweit gut hin. Eine Frage und eventuell Bitte: Bei o.g. Konstellation stört mich sehr, daß man nicht alle Seiten eines pdf-Dokuments in "einem Rutsch" erkennen lasssen kann, sondern immer seitenweise vorgehen muß. Kann das Textaurare? Das Beste für 2010 und nochmals: Kompliment an der Programmierer. Stephan.

02-01-2010, 06:53 PM	#39
Staderho Junior Member Posts: 2 Karma: 10 Join Date: Jan 2010 Device: none	noch eine idee aus der praktischen arbeit hallo netseeker, ich hoffe es geht gut und es geht voran. ;-) eben ist mir im praktischen umgang mit fraktur-OCR noch aufgefallen, daß ich häufig das schnappschuss-werkzeug im adobe reader verwende um nur einen ausschnitt zu kopieren und ggf. dann text-erkennen lasse. Nur muß man diesen Ausschnitt erst umständlich in ein bildbearbeitungsprogramm einfügen und abspeichern...sehr umständlich. Vielleicht kann Textaurare es ja, daß man direkt aus der Zwischenablage etwas einfügen kann... Das Beste, Stephan.

Similar Threads
Thread	Thread Starter	Forum	Replies	Last Post
Lesetipp für den Notfall - Handbuch Filesharing - Leitfaden für Eltern	beachwanderer	Lounge	2	02-24-2010 02:51 AM
Nook Kleiner Tip für alle, die einen M-Edge cove für den Nook möchten	mos	Andere Lesegeräte	0	01-30-2010 03:52 AM
Kleiner?! Nein, größer bitte!	Marc_liest	Andere Lesegeräte	5	05-02-2009 03:30 PM
Bitte um Kritik	sp4rks	E-Books	8	03-23-2009 04:48 AM
OCR-Software für altdeutsche Schrift	mtravellerh	Software	9	02-19-2009 02:29 PM

01-06-2010, 09:36 AM	#31
Josch91 Reader Posts: 818 Karma: 3522 Join Date: Apr 2009 Location: Germany Device: Kindle 4, iPad	Ich bin wirklich beeindruckt. Sieht wieder super aus.

01-07-2010, 05:49 AM	#34
Duglum Enthusiast Posts: 41 Karma: 282 Join Date: Jun 2009 Device: Sony PRS-505	Hi, ich habe mal aus meinem System die Dateien rausgesucht, die wie aspell-Dictionaries aussehen. Wenn es die falschen sind, sag mit bitte, welche du brauchst, dann lad ich die noch eben hoch. http://rapidshare.de/files/48955998/aspell.tar.bz2.html Gruß, Duglum

01-18-2010, 12:08 PM	#36
Martino Junior Member Posts: 3 Karma: 10 Join Date: Jan 2010 Device: Motorola A780	Da Sie das Projekt in Java realisieren: Ist Ihnen VietOCR bekannt? Ich habe VietOCR schon einmal in Verbindung mit dem Tesseract Modul 'deu-f' benutzt und gute bis sehr Ergebnisse erzielt. Das Programm kann übrigens auch PDF Dateien importieren. Besonders gefallen hatte mir bei VietOCR die Funktion, zu erkennenden Text zu markieren. Das ist besonders hilfreich bei Dokumenten, wo Frakturtext Illustrationen umfliesst. Tesseract versucht sonst 'mit Gewalt' die Illustrationen als Buchstaben zu interpretieren... Da ich meine Java Kenntnisse leider sehr mangelhaft sind: Könnte man in so eine Anwendung auch (zusätzlich) eine Funktion für 'verteilte Bearbeitung' einbauen? Gerade bei sehr großen Dokumenten (>700 Seiten) ist der Zeitaufwand für die komplette Bearbeitung durch einen Einzelnen leider doch sehr groß. Ich würde mir wünschen, daß z.B. das gescannte PDF-Dokument, aufgeteilt in einzelne Seiten, auf einem Internetserver liegt. Wer Zeit und Lust hat, könnte dann eine einzelne Seite bearbeiten und das Ergebnis auf den Server laden. Da dann mehrere interessierte Leute gleichzeitig an einem Dokument arbeiten könnten, wäre die Umwandlung möglicherweise schneller zu erledigen...

10-09-2010, 04:48 AM	#40
rmx Junior Member Posts: 8 Karma: 10 Join Date: Oct 2009 Location: Hessen, Germany Device: Pocketbook 360° (MM), iPhone (Stanza)	schieb Was ist eigentlich aus Textaurare geworden? Hab über die Suchfunktion leider keine weiteren Infos gefunden...

Advert

Advert