View Single Post
Old 05-20-2011, 09:00 AM   #23
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Ich habe die pdf Datei (Meister Dietrich) genommen, Seiten grob beschnitten und in tif gewandelt. Danach Behandlung mit tesseract und *.txt in meister_dietrich.txt zusammengeführt. Es sieht nicht so "schön" aus wie bei meinem selbst gescannten Material: schätze die fehlerrate bei etwa 15-20% je nach Vorlage. Aber es ist über weite Strecken durchaus lesbar.

Ich sehe folgende Probleme:
  • schräge Seitenlage beim Scan -> kann man korrigieren
  • unebene und gewölbte Scanvorlage: ist beim Auflegen eines geöffneten Buchs auf die Glasplatte des Scanners zu beoachten -> ich habe einen Buchscanner, der dies weitgehend verhindert. Es gibt wohl OCR Programme, die das korrigieren.
  • zahlreiche Verunreinigungen -> wüsste nicht, wie das zu korrigieren ist (vielleicht gibt es so etwas wie die Staub- und Kratzerentfernung bei gescannten Fotos?). Man kann das schön sehen auf Seite 2, die praktisch leer ist - da baut sich tesseract etwas zusammen.
  • zu "fettes" Schriftbild verändert sozusagen die Gestalt der Fonts und erschwert damit OCR -> kann man m.E. nur während der Scanphase in den Griff bekommen

Ich habe die Textdatei zwecks Korrekturlesen angehängt - viel Spaß.

Klaus

[edit] Pdf Datei wurde bereinigt und präzise geschnitten (Vermeidung von Störstellen), teilweise wurden Seiten gerade gerückt. Es gibt nun die imho deutlich besser interpretierte Version 2 im Anhang.
Attached Files
File Type: txt meister_dietrich.txt (129.6 KB, 656 views)
File Type: txt meister-dietrich_v2.txt (121.6 KB, 665 views)

Last edited by kbaerwald; 05-20-2011 at 11:12 AM. Reason: Ergänzung
kbaerwald is offline   Reply With Quote