MobileRead Forums - View Single Post

Jannu · 02-16-2022, 04:40 PM

Um den thread mal wieder auf einen aktuellen Stand zu bringen.

Die Universitätsbibliothek Mannheim hat einiges an Aufwand in das Training von traineddata Dateien für tesseract Fraktur gesteckt (bis 13000 Stunden CPU-Zeit und 450000 Iterationen für eine traineddata).

Der passende Artikel dazu mit den Links auf die traineddatas findet sich hier:

https://github.com/tesseract-ocr/tes...iki/GT4HistOCR

Ich hab bei Fraktur-Schriften gute Erfahrungen mit folgender traineddata (von 2021) gemacht:

https://ub-backup.bib.uni-mannheim.d...05.traineddata

02-16-2022, 04:40 PM	#11
Jannu Connoisseur Posts: 58 Karma: 718318 Join Date: Jan 2021 Device: Kindle Paperwhite, iPad Air, Fire HD 8 + LineageOS	trainedata Dateien für tesseract Fraktur der UB-Mannheim Um den thread mal wieder auf einen aktuellen Stand zu bringen. Die Universitätsbibliothek Mannheim hat einiges an Aufwand in das Training von traineddata Dateien für tesseract Fraktur gesteckt (bis 13000 Stunden CPU-Zeit und 450000 Iterationen für eine traineddata). Der passende Artikel dazu mit den Links auf die traineddatas findet sich hier: https://github.com/tesseract-ocr/tes...iki/GT4HistOCR Ich hab bei Fraktur-Schriften gute Erfahrungen mit folgender traineddata (von 2021) gemacht: https://ub-backup.bib.uni-mannheim.d...05.traineddata