MobileRead Forums - View Single Post

kbaerwald · 05-20-2011, 09:00 AM

Ich habe die pdf Datei (Meister Dietrich) genommen, Seiten grob beschnitten und in tif gewandelt. Danach Behandlung mit tesseract und *.txt in meister_dietrich.txt zusammengeführt. Es sieht nicht so "schön" aus wie bei meinem selbst gescannten Material: schätze die fehlerrate bei etwa 15-20% je nach Vorlage. Aber es ist über weite Strecken durchaus lesbar.

Ich sehe folgende Probleme:

schräge Seitenlage beim Scan -> kann man korrigieren
unebene und gewölbte Scanvorlage: ist beim Auflegen eines geöffneten Buchs auf die Glasplatte des Scanners zu beoachten -> ich habe einen Buchscanner, der dies weitgehend verhindert. Es gibt wohl OCR Programme, die das korrigieren.
zahlreiche Verunreinigungen -> wüsste nicht, wie das zu korrigieren ist (vielleicht gibt es so etwas wie die Staub- und Kratzerentfernung bei gescannten Fotos?). Man kann das schön sehen auf Seite 2, die praktisch leer ist - da baut sich tesseract etwas zusammen.
zu "fettes" Schriftbild verändert sozusagen die Gestalt der Fonts und erschwert damit OCR -> kann man m.E. nur während der Scanphase in den Griff bekommen

Ich habe die Textdatei zwecks Korrekturlesen angehängt - viel Spaß.

Klaus

[edit] Pdf Datei wurde bereinigt und präzise geschnitten (Vermeidung von Störstellen), teilweise wurden Seiten gerade gerückt. Es gibt nun die imho deutlich besser interpretierte Version 2 im Anhang.