View Single Post
Old 12-29-2015, 05:38 AM   #9
gawl
Enthusiast
gawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic somethinggawl has a certain pleonastic something
 
gawl's Avatar
 
Posts: 27
Karma: 18672
Join Date: Mar 2013
Device: Pocketbook Touch
deu-schwab -- Meine eigenen Tesseract-Trainingserfahrungen

Ich habe mir einmal kurz angesehen, was ich damals (September 2013) so verunstaltet habe...
Ich zweifle immer noch, ob jemand anderer da etwas verstehen kann, möchte mich jetzt aber keineswegs drücken ;-)
Ich ging damals nach folgender Anleitung vor: https://code.google.com/p/tesseract-...ningTesseract3
Außerdem war mein Ziel, eine Schwabacher zu trainieren, daher benannte die entstehende Tessdata-Datei "deu-schwab" (siehe Attachment).
Da mein eigentliches Hobby (im Gegensatz zu manch anderem Mobileread-Enthusiasten) darin bestand, Ebooks in Frakturschriften zu bauen, habe ich die "deu-schwab" so angelegt, daß das "lange s" der Fraktur erhalten bleiben solle (Unicode U+17F) und *nicht* einfach durch Rund-s ersetzt werden solle. Das könnt ihr im eigentlichen Trainings-Ordner trainings_und_wortliste/tesseract_training in den Dateien de.schwabacher.exp[01].box sehen
Ich hatte tatsächlich nur Zeit für 2 Trainings-PNG ("0" und "1"), das ist eigentlich arg knapp, aber für mehr reichte die Zeit nicht, und zu meiner positiven Überraschung wurde das Endergebnis durchaus brauchbar.
Gemäß dem Rat der Wiki-Seite waren diese beiden PNG übrigens *nicht* Original-Scans aus einem Buch, denn dann bestünde die Gefahr, daß Tesseract sich die Scanfehler (wellige Zeilen, unterschiedlich große Buchstaben, etc.) als "Soll" mit aneignet. Stattdessen habe ich die Seiten in Inkscape (www.inkscape.org) unter Verwendung einer Schwabacher Schriftart in geeigneter Schriftgröße (vergleichbar mit den Scans) selbst getippt und anschließend nach PNG exportiert.
Selbstverständlich hatte ich die zu Tesseract schon mitgelieferte "de-frak" ausgepackt und als Startdateien verwendet, deswegen liegt dieser Unterordner auch mit dabei, einige der zahlreichen Dateien habe ich nämlich einfach unverändert übernommen.
Den größten Aufwand habe ich mir damals noch mit dem "Wörterbuch" gemacht. Dasjenige, das Bestandteil der "de-frak" ist, empfand ich als ungeeignet (zum Teil eigenartige Wörter und keine "Lang-s"), daher habe ich versucht, aus meinen bis dato selbst erstellten Fraktur-Ebooks alle Wörter zu extrahieren und zu sammeln und nach Häufigkeit zu sortieren. Daher finden sich viele Zwischenstufen im Unterordner trainings_und_wortliste/Wortlisten_fuer_word-dawg_und_word-txt. Hier müßtest Ihr Euch natürlich selbst überlegen, inwiefern Ihr Euch Arbeit machen wollt, ich hatte damals den Eindruck, daß das Wörterbuch durchaus großen Einfluß hat auf die Sicherheit, mit der Wörter erkannt werden, und habe deswegen mehr Zeit darin investiert als in die eigentliche graphische Erkennung über die PNG...
Attached Files
File Type: zip deu-schwab.zip (7.41 MB, 777 views)
gawl is offline   Reply With Quote