View Single Post
Old 05-29-2011, 12:33 PM   #32
kbaerwald
BioReader
kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'kbaerwald understands when you whisper 'The dog barks at midnight.'
 
kbaerwald's Avatar
 
Posts: 292
Karma: 42568
Join Date: Apr 2009
Location: Germany
Device: Various
Hallo hokuspokus

Leider sind ja viele Scans aus der Google Library schlecht: insbesondere machen zu fett gescannte Schriften (überbelichet) und zahlreiche Flecken und "Fliegenschiß" solche Scans für OCR unbrauchbar. Wenn dann noch Fraktur-Scans gemacht werden, ist es oft ganz schwer brauchbares Ausgangsmaterial zu bekommen.

Von Polaroid gibt es ein Freeware Programm (PolaDSR=Dust & Scratch Removal), welches von Fotografen eingesetzt wird zur Retusche von Schwarzweißfotos (da funktionieren die modernen IR-basierenden Systeme nicht!).

Wenn man jetzt die einzelnen tifs mit diesem Programm "behandelt" (es muß vorsichtig vorgegangen werden, damit nicht gleich alle Umlaute entfernt werden), so resultiert ein gesäubertes tif, welches dann durch tesseract et al. geschickt werden kann.

Ich habe einmal eine Seite aus dem Todesengel von Karl Wilhelm Salice-Contessa entsprechend vorbehandelt und dann mit tesseract interpretiert. Es sieht am Ende immer noch recht schlimm aus, aber man kann wenigstens einen Sinn erahnen. Bei den OCR Fehlern bzgl. "fetten" Buchstaben hilft das natürlich auch nicht: hier muss neu gescannt werden.

Dem gescannten Material des "Todesengel" kann man leider nur schlechte Noten geben, hier ist es wahrscheinlich sinnvoller, wenn alles abgetippt wird: m.E. ist hier der Gesamtaufwand verglichen mit OCR + DSR pro tif geringer. Überlege dir, ob du dich herantraust, oder wir finden jemanden, der mehr OCR-Arbeit da hineinsteckt.

Beispiele, wie immer, in der Anlage. Auch das etwas fragwürdige Gesamt-Textfile des gescannten "Todesengels" (mit den fehlenden Seiten) als todesengel_gesamt.txt.

Klaus
Attached Thumbnails
Click image for larger version

Name:	todesengel.jpg
Views:	703
Size:	1.01 MB
ID:	72041   Click image for larger version

Name:	todesengel_cor.jpg
Views:	682
Size:	875.6 KB
ID:	72042  
Attached Files
File Type: txt todesengel.txt (1.3 KB, 646 views)
File Type: txt todesengel_cor.txt (1.2 KB, 634 views)
File Type: txt todesengel_gesamt.txt (105.0 KB, 874 views)
kbaerwald is offline   Reply With Quote