MobileRead Forums - View Single Post - Der Luftpirat und sein lenkbares Luftschiff und andere alte Serien

netseeker · 07-12-2009, 04:05 PM

Quote:

Originally Posted by Hajo

Ich möchte z. B. nicht, dass derjenige, der das OCR macht, die einzelnen Absätze mit P-Tags umklammert. Erstens hat er schon genug Arbeit, und zweitens will das vielleicht gar nicht jeder haben. Vielleicht will jemand ein PDF erstellen oder irgendein Format, dass heute noch keiner kennt.

Wer das XHTML aus den OCR-Ergebnissen erstellt, hat doch nichts mit den Tags zu tun. Irgendjemand macht das OCR. Die Ausgabe ist Plain Text. Ein anderer oder aber sogar derjenige, der auch das OCR durchgeführt hat, formatiert den Plain Text in XHTML um. XHTML ist als Ausgangsbasis für PDF genausogut geeignet wie als Ausgangsbasis für ePub, Mobi oder irgend ein anderes Format. Es ist im Gegensatz zu allen Eigenerfindungen ein standardisiertes XML-Format, welches sich erfahrungsgemäß wunderbar für die Weiterverarbeitung eignet. (bspw. via XSLT wie bei Gutenberg DE)

Quote:

Originally Posted by Hajo

Ich möchte blanke Informationen haben: Wo beginnt ein neuer Absatz? Vielleicht nach einer Leerzeile. Wo ist ein Szenenwechsel? Zum Beispiel nach einer Zeile, die nur ein Sternchen beinhaltet. Oder nach einer doppelten Leerzeile. Das ist Konvention, keine Wissenschaft.

Ich kann hier keinen Widerspruch erkennen. Ob Du einen Zeilenumbruch als ASCII 10 oder <br /> kodierst spielt doch für die Erkennung keine Rolle. Es spielt allerdings eine Rolle, ob das Ausgangsformat generell nochmal geparst werden muss oder ob man einfach ein Ausgabestyling drüber legen kann. Welchen Sinn hat es für uns den Ausgangstext exakt nach den 13.5 cm x 22,5 cm bzw. 15 x23 cm der Scanvorlagen zu kennzeichnen? Wie können wir sicher erkennen, ob ein Zeilenumbruch jetzt hart eingebaut war oder nur aufgrund der Formatbeschränkung vorgenommen wurde?

Quote:

Originally Posted by Hajo

Ich weiß noch nicht, ob es etwas bringt, wenn man diese Zeilenumbrüche hat. Vielleicht macht es das nachträgliche Auffinden von Korrekturstellen leichter. Wenn die Absätze sehr lang ist, und jemand sagt "In der Zeile beginnend mit xxx", dann ist das hilfreich. Auf jeden Fall schadet es nicht.

Warum müssen wir Korrekturstellen später wieder auffinden? Das läuft mir jetzt doch ein wenig weit in ein generelles Korrektur- und Proofreadingprojekt. Sollten wir nicht einfach das machen, was für dieses Projekt praktikabel ist?

Quote:

Originally Posted by Hajo

Computer sind für stumpfsinnige Arbeiten ursprünglich mal erfunden worden. Solche kleinen Regeln wie "Ergänze vor jeder Textzeile nach einer Leerzeile ein '<p class="normal">', es sei denn, du bist gerade einem einsamen Sternchen begegnet, dann nimm stattdessen '<p class="first">'. Ist die nächste Zeile leer, hänge an diese ein '</p>' hinten an" sind einem Computer schnell beigebracht, da braucht sich kein Mensch mit abmühen.

Leider funktioniert das nicht so einfach. Ich habe schon genug eBooks gemacht und bin lange genug Programmierer um zu wissen, dass derart einfache Regeln niemals ausreichen damit es im Endprodukt wirklich gut aussieht. Darüber hinaus bräuchte man bereits für die angeprochenen Regeln ein "Programm" bzw. eine Makrofolge, welche das Parsing vornimmt. Wozu das Ganze, wenn man mit XHTML ein leicht zu erstellendes und zu verwendendes Ausgangsformat erstellen könnte?