Ich bin auf der Suche nach einem Digitalisat auf das Münchener Digitalisierungszentrum (
MDZ) gestoßen, das einige Bücher digitalisiert hat, die nicht bei Google Books oder im Internet Archive verfügbar sind.
Außerdem wurden die beim MDZ vorhandenen Bücher in Fraktur-Schrift durch eine Fraktur-OCR erfasst.
Leider bietet das MDZ nicht die Möglichkeit, den angezeigten OCR-Text herunterzuladen. Ich habe mir deshalb ein simples Windows-Skript gebastelt, das die zu einem Buch gehörenden Seiten aufruft und den OCR-Text in eine Textdatei schreibt. Das funktioniert natürlich nur mit Büchern, bei denen man manuell auf der MDZ-Website zwischen Bild- und Textansicht umschalten kann.
Bei Interesse am Skript bitte eine PM mit der URL des herunterzuladenden MDZ-Buchs schicken. (Der Link ist fest kodiert und muss im Skript angepasst werden.)