Um den thread mal wieder auf einen aktuellen Stand zu bringen.
Die Universitätsbibliothek Mannheim hat einiges an Aufwand in das Training von traineddata Dateien für tesseract Fraktur gesteckt (bis 13000 Stunden CPU-Zeit und 450000 Iterationen für eine traineddata).
Der passende Artikel dazu mit den Links auf die traineddatas findet sich hier:
https://github.com/tesseract-ocr/tes...iki/GT4HistOCR
Ich hab bei Fraktur-Schriften gute Erfahrungen mit folgender traineddata (von 2021) gemacht:
https://ub-backup.bib.uni-mannheim.d...05.traineddata