Habe es mit 2 verschiedenen Büchern, welche unterschiedliche Frakturschriftarten benutzen mal getestet und war ganz positiv überrascht. Naja, so positiv wie man bei einem kostenlosen OCR und dann noch mit Frakturschrift halt sein kann.
Zuerst muss man die PDF-Inhalte als tif-Grafiken bekommen, dann kann man Tesseract via
Quote:
tesseract test\nobody05_pic0005.tif testout\05 -l deu-f
|
damit füttern.
Anbei mal die Resultate der ersten zwei Seiten vom Detektiv Nobody 5.
Das Ergebnis der ersten Seite ist aufgrund des Drop-Cap am ersten Absatz natürlich zwangsläufig nicht so gut. Die zweite Seite sieht besser aus.
Keine Ahnung wie sich der Finereader da schlägt - vielleicht kann ja mal jemand einen Vergleich posten...