MobileRead Forums - View Single Post

kbaerwald · 05-29-2011, 12:33 PM

Hallo hokuspokus

Leider sind ja viele Scans aus der Google Library schlecht: insbesondere machen zu fett gescannte Schriften (überbelichet) und zahlreiche Flecken und "Fliegenschiß" solche Scans für OCR unbrauchbar. Wenn dann noch Fraktur-Scans gemacht werden, ist es oft ganz schwer brauchbares Ausgangsmaterial zu bekommen.

Von Polaroid gibt es ein Freeware Programm (PolaDSR=Dust & Scratch Removal), welches von Fotografen eingesetzt wird zur Retusche von Schwarzweißfotos (da funktionieren die modernen IR-basierenden Systeme nicht!).

Wenn man jetzt die einzelnen tifs mit diesem Programm "behandelt" (es muß vorsichtig vorgegangen werden, damit nicht gleich alle Umlaute entfernt werden), so resultiert ein gesäubertes tif, welches dann durch tesseract et al. geschickt werden kann.

Ich habe einmal eine Seite aus dem Todesengel von Karl Wilhelm Salice-Contessa entsprechend vorbehandelt und dann mit tesseract interpretiert. Es sieht am Ende immer noch recht schlimm aus, aber man kann wenigstens einen Sinn erahnen. Bei den OCR Fehlern bzgl. "fetten" Buchstaben hilft das natürlich auch nicht: hier muss neu gescannt werden.

Dem gescannten Material des "Todesengel" kann man leider nur schlechte Noten geben, hier ist es wahrscheinlich sinnvoller, wenn alles abgetippt wird: m.E. ist hier der Gesamtaufwand verglichen mit OCR + DSR pro tif geringer. Überlege dir, ob du dich herantraust, oder wir finden jemanden, der mehr OCR-Arbeit da hineinsteckt.

Beispiele, wie immer, in der Anlage. Auch das etwas fragwürdige Gesamt-Textfile des gescannten "Todesengels" (mit den fehlenden Seiten

) als todesengel_gesamt.txt.

Klaus