Ich habe die pdf Datei (Meister Dietrich) genommen, Seiten grob beschnitten und in tif gewandelt. Danach Behandlung mit tesseract und *.txt in
meister_dietrich.txt zusammengeführt. Es sieht nicht so "schön" aus wie bei meinem selbst gescannten Material: schätze die fehlerrate bei etwa 15-20% je nach Vorlage. Aber es ist über weite Strecken durchaus lesbar.
Ich sehe folgende Probleme:
- schräge Seitenlage beim Scan -> kann man korrigieren
- unebene und gewölbte Scanvorlage: ist beim Auflegen eines geöffneten Buchs auf die Glasplatte des Scanners zu beoachten -> ich habe einen Buchscanner, der dies weitgehend verhindert. Es gibt wohl OCR Programme, die das korrigieren.
- zahlreiche Verunreinigungen -> wüsste nicht, wie das zu korrigieren ist (vielleicht gibt es so etwas wie die Staub- und Kratzerentfernung bei gescannten Fotos?). Man kann das schön sehen auf Seite 2, die praktisch leer ist - da baut sich tesseract etwas zusammen.
- zu "fettes" Schriftbild verändert sozusagen die Gestalt der Fonts und erschwert damit OCR -> kann man m.E. nur während der Scanphase in den Griff bekommen
Ich habe die Textdatei zwecks Korrekturlesen angehängt - viel Spaß.
Klaus
[edit] Pdf Datei wurde bereinigt und präzise geschnitten (Vermeidung von Störstellen), teilweise wurden Seiten gerade gerückt. Es gibt nun die imho deutlich besser interpretierte Version 2 im Anhang.