View Single Post
Old 05-02-2013, 01:41 PM   #470
mmat1
Berti
mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.mmat1 ought to be getting tired of karma fortunes by now.
 
mmat1's Avatar
 
Posts: 1,196
Karma: 4985964
Join Date: Jan 2012
Location: Zischebattem
Device: Acer Lumiread
Tessaract OCR (Fraktur)

Aufgrund vielfacher Nachfrage ein kurzer Bericht zu Tessaract und OCR (Fraktur natürlich ).

Der Stolze wurde auf diese Weise verarbeitet (der zweite Band bleibt euch nicht erspart , der ist grad in Arbeit ...). Bei Gedichten fällt die negative Eigenschaft, das jede Zeile der Vorlage in einem separaten Absatz erscheint nicht ins Gewicht, im Gegenteil, das ist sogar gut so.

1. Die Vorbereitung:
Die Vorlage war ein PDF, der PDF Xchange-Viewer (Freeware-Version) war hier sehr hilfreich, die zu ocerrnen Seiten in ein mehrseitiges Tiff zu exportieren. Das Exportmenü ist wirklich sehr komfortabel, die wichtigste Einstellung ist die Pixeldichte (300 Dpi).

Ich hab die Kompression "LZW" aktiviert, das erzeugt beim ocerren eine Fehlermeldung die aber ignoriert werden kann. Ohne eingeschaltete Kompression ist der OCR-Lauf ohne Fehlermeldung, dafür die Anforderung an Speicherplatz 80-100 mal größer.

Die rund 350 Seiten des Buchs wurden in vier Pakete aufgeteilt (= 4 mehrseitige Tiff-Dateien, mit ca. ja 80 Seiten). Ob das wirklich erforderlich ist weiss ich nicht, ein bis zu 100-seitiges tiff ist jedenfalls kein Problem.

2. Der OCR-Lauf
Tessaract ausgepackt (bitte dran denken dass Sprachpakete separat erworben werden müssen) und nach Anleitung installiert. Der Einsatz erfolgt Out of the box, ohne weiteres gefummel mit folgender Batchdatei, die im gleichen Verzeichnis wie Tesseract.exe abgelegt wird:

Code:
set name=<NameDerTiff-DateiOhneErweiterung>
set verzeichnis=<VerzeichnisInDemDieTiffDateiSteht>

tesseract "%verzeichnis%\%name%.tif" "%verzeichnis%\%name%" -l deu-frak

pause
3. Das wars eigentlich schon
Die von tesseract erzeugte Textdatei wird einfach per Copy und Paste nach Sigil übernommen.

Die Erkennungsgenauigkeit lag gefühlt irgendwo zwischen 80 und 90% bei mundartlichen Passagen, bei Hochdeutsch deutlich darüber. Ein oder Zwei Seiten (von 350) wurden schnöde unterschlagen und mussten separat nochmal in 2. Lesung verarbeitet werden.

Insgesamt: Nicht rekordverdächtig, aber ich kann damit leben.

Last edited by mmat1; 05-02-2013 at 01:44 PM.
mmat1 is offline   Reply With Quote