View Single Post
Old 02-18-2009, 06:42 PM   #5
netseeker
sleepless reader
netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.netseeker ought to be getting tired of karma fortunes by now.
 
netseeker's Avatar
 
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
Habe es mit 2 verschiedenen Büchern, welche unterschiedliche Frakturschriftarten benutzen mal getestet und war ganz positiv überrascht. Naja, so positiv wie man bei einem kostenlosen OCR und dann noch mit Frakturschrift halt sein kann.

Zuerst muss man die PDF-Inhalte als tif-Grafiken bekommen, dann kann man Tesseract via
Quote:
tesseract test\nobody05_pic0005.tif testout\05 -l deu-f
damit füttern.

Anbei mal die Resultate der ersten zwei Seiten vom Detektiv Nobody 5.
Das Ergebnis der ersten Seite ist aufgrund des Drop-Cap am ersten Absatz natürlich zwangsläufig nicht so gut. Die zweite Seite sieht besser aus.

Keine Ahnung wie sich der Finereader da schlägt - vielleicht kann ja mal jemand einen Vergleich posten...
Attached Thumbnails
Click image for larger version

Name:	nobody05_pic0004.png
Views:	1998
Size:	149.8 KB
ID:	23877   Click image for larger version

Name:	nobody05_pic0005.png
Views:	5465
Size:	178.4 KB
ID:	23878  
Attached Files
File Type: txt 04.txt (1.4 KB, 1283 views)
File Type: txt 05.txt (1.8 KB, 980 views)
netseeker is offline   Reply With Quote