View Single Post
Old 02-12-2014, 01:18 PM   #741
Doitsu
Grand Sorcerer
Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.Doitsu ought to be getting tired of karma fortunes by now.
 
Doitsu's Avatar
 
Posts: 5,741
Karma: 24031403
Join Date: Dec 2010
Device: Kindle PW2
OCR-Text von MDZ-Büchern

Ich bin auf der Suche nach einem Digitalisat auf das Münchener Digitalisierungszentrum (MDZ) gestoßen, das einige Bücher digitalisiert hat, die nicht bei Google Books oder im Internet Archive verfügbar sind.

Außerdem wurden die beim MDZ vorhandenen Bücher in Fraktur-Schrift durch eine Fraktur-OCR erfasst.

Leider bietet das MDZ nicht die Möglichkeit, den angezeigten OCR-Text herunterzuladen. Ich habe mir deshalb ein simples Windows-Skript gebastelt, das die zu einem Buch gehörenden Seiten aufruft und den OCR-Text in eine Textdatei schreibt. Das funktioniert natürlich nur mit Büchern, bei denen man manuell auf der MDZ-Website zwischen Bild- und Textansicht umschalten kann.

Bei Interesse am Skript bitte eine PM mit der URL des herunterzuladenden MDZ-Buchs schicken. (Der Link ist fest kodiert und muss im Skript angepasst werden.)
Doitsu is offline   Reply With Quote