View Single Post
Old 06-16-2014, 04:57 AM   #2136
Leonatus
Wizard
Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.
 
Leonatus's Avatar
 
Posts: 1,061
Karma: 11391181
Join Date: Mar 2013
Location: Guben, Brandenburg, Germany
Device: Kobo Clara 2E, Tolino Shine 3
Quote:
Originally Posted by brucewelch View Post
Das Verfahren, welches Frodok und ich anwenden, beruht darauf, dass in GoogleBooks zusätzlich zum gezeigten PDF auch oft eine ePub-Version heruntergeladen werden kann; ist dies nicht der Fall, kann eine OCRte Fassung über die "Plain text"-Darstellung 'gepflückt' werden. Beide sind fehlerhaft, letztere oft krass, und müssen Wort für Wort Korrektur gelesen werden.

Unser Forumspionier für tesseract-OCR bei Fraktur ist übrigens mmat1.
Vielen Dank für den Hinweis! So läuft es mit gImageReader auch, und ich weiß, welche Mühe mit der Erstellung eines solchen ebooks verbunden ist. Ich dachte nur, dass es evtl. eine effektivere Methode für OCR (speziell, was Fraktur-Vorlagen angeht) gebe.
Leonatus is offline   Reply With Quote