Quote:
Originally Posted by Hokuspokus
Klaus,
wenn Du Dich an Salice-Contessa versuchen willst, ich habe die Erzählungen schon aus den Bänden der gesammelten Schriften herausgelöst, bis jetzt aber nur die beiden erwähnten beschnitten. Ich kann sie Dir gern unbeschnitten (und ohne fehlende Seiten) als pdf, jpg, png oder einem anderen Bildformat irgendwo hochladen. Sag mir einfach, welches Format für Tesseract am besten ist.
Ich würde auch herzlich gern Proofreading für die eine oder andere Geschichte machen.
|
Also, Tesseract-OCR frißt nur tif, ich versuche gerade eine Windows Batch-Datei ans Laufen zu bringen, die alle tif's aus einem dir lädt und dieselbe Menge an Textfiles ausgibt. FreeOCR bietet eine GUI an , die ich aber noch nicht richtig ans Laufen gebracht habe. Da wäre ich flexibler.
Wenn Du also noch die Seiten in tif anbieten könntest, wäre das super. Aber auch pdf ist o.k., da konvertiere ich einfach mit Acrobat in tif.
Klaus