View Single Post
Old 02-25-2018, 10:13 AM   #1643
Leonatus
Wizard
Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.Leonatus ought to be getting tired of karma fortunes by now.
 
Leonatus's Avatar
 
Posts: 1,023
Karma: 10963125
Join Date: Mar 2013
Location: Guben, Brandenburg, Germany
Device: Kobo Clara 2E, Tolino Shine 3
Ebook-Erstellung mit Sprache-zu-Text-Konversion

Das Buch "Gräfin Vera" von Helene von Racowitza habe ich nicht mit den üblichen Methoden des OCR bearbeitet, weil die Qualität der PDF-Vorlage so schlecht war, dass sie dafür überhaupt nicht in Frage kam. Da ich trotzdem gerne wissen wollte, wie die Frau geschrieben hat, derentwegen sich Ferdinand Lassalle duellweise hat erschießen lassen, habe ich den Text mit Mitteln der "Sprache-zu-Text-Konversion" aufbereitet, m. a. W. ich habe ihn diktiert.
Drei Wege habe ich ausprobiert:
- Das Google-Chrome-add-in "Speechnotes",
- Das Word-add-in "Dictate" (auch: "Dictation"),
- Die Windows Spracherkennung.

"Speechnotes" hat auf Anhieb erstaunlich gute Resultate gebracht. Nachteilig ist aber, dass Diktatergebnis aus dem Browser in das Word-Dokument übertragen werden muss, was auf Dauer recht aufwendig ist; außerdem sind nur die allerwesentlichsten Formatierungsbefehle vorhanden.
"Dictate" spricht zwar erstaunlich schnell und unmittelbar im Word-Dokument an, aber die Fehlerhäufigkeit ist doch sehr groß. Angefangen bei der Groß- und Kleinschreibung, die nahezu Glückssache ist, werden viele Wörter sozusagen ins Englische umgedeutet. Der Korrekturaufwand ist entsprechend.
Langfristig am besten waren die Resultate bei der Windows-Spracherkennung, wenngleich man hier am besten das vorgesehene Sprachtraining absolviert. Man kann dann aber direkt ins Word-Dokument diktieren, und manchmal hat die Erkennung geradezu Erstaunliches geleistet. Allerdings standen die in der Referenzliste angegebenen Befehle (angeblich soll man auch Sachen wie "Chevron links" usw. befehlen können) nur in Bezug auf die essentiell notwendigen zur Verfügung.
Generell ist die Methode aber sehr aufwendig; das Buch hat mich ungefähr ein Vierteljahr beschäftigt. Vermieden werden zwar die herkömmlich häufigen OCR-Fehler wie "fein" anstatt "sein" und umgekehrt; gleichzeitig schleichen sich aber Fehler ein, die man als solche kaum erkennt, weil die Wörter "an sich" einen Sinn ergeben und daher von der Rechtschreibkorrektur nicht beanstandet werden.
Hinzu kam, dass der bearbeitete Roman schon in der gedruckten Vorlage wohl das Schlampigste war, was mir je untergekommen ist: Noch nicht einmal die Kapitelzählung war in Ordnung (wofür sich der Verlag sogar entschuldigt), und der Rechtschreibungs- und Satzfehler waren – vom Verlag nicht redigiert – so viele, dass man sich fragt, ob der Verlag überhaupt einen Lektor beschäftigt hatte.
Leonatus is offline   Reply With Quote