Hallo Mitbürger!
Ich werkel z.Zt. am "Der Hund der Baskervilles". Ich liefere nur den Text; ein richtiges ePub macht mmat1 draus.
Alles schön und gut, OCR ist schon etwas trainiert, Wörterbücher stehen halbwegs ABER :-( die Sage der Baskervilles (Kernstück der Geschichte) überfordert die Wörterbücher und würde diese bzw. OCR-Training versauen!
ALSO abgetippt - Nun suche ich 1-2 mitleidige Seelen zum Korrekturlesen. Als Anhang zweispaltige PDF mit Scan und Text 4 Seiten. Korrekturvorschläge bitte als PN (Differenzen bitte angeben)
Danke
PS:
Die PDF habe ich gelöscht - nur sinnlose Downloads.
an mmat1 s.u.; hat wirklich Korrekturgelesen.
Betr. Anfragen zur verwendeten Software:
> "OCR ist schon etwas trainiert, Wörterbücher stehen halbwegs"
schrieb ich, abgeschlossen ist etwas anderes ;-)
> Tesseract oder ein anderes Open Source-Programm
Ja benutze ich; der Witz ist, daß ich an einem Plugin für FreeOCR fummel um mit Wörterbüchern zu kommunizieren - das dauert noch etwas :-(
Nun das Ergebnis dazu:
OCR-Training mußte ich komplett einstellen, weil die Vorgabe ein Witz ist, die Wörterbücher (per UNO an SO/oO/Libre) stehen halbwegs. Scan von Google ist total versaut weil JPEG!