Quote:
Originally Posted by brucewelch
Das Verfahren, welches Frodok und ich anwenden, beruht darauf, dass in GoogleBooks zusätzlich zum gezeigten PDF auch oft eine ePub-Version heruntergeladen werden kann; ist dies nicht der Fall, kann eine OCRte Fassung über die "Plain text"-Darstellung 'gepflückt' werden. Beide sind fehlerhaft, letztere oft krass, und müssen Wort für Wort Korrektur gelesen werden.
Unser Forumspionier für tesseract-OCR bei Fraktur ist übrigens mmat1.
|
Vielen Dank für den Hinweis! So läuft es mit gImageReader auch, und ich weiß, welche Mühe mit der Erstellung eines solchen ebooks verbunden ist. Ich dachte nur, dass es evtl. eine effektivere Methode für OCR (speziell, was Fraktur-Vorlagen angeht) gebe.