View Full Version : Wie wird gut ausgeglichener Blocksatz in EPUBS realisiert?


polyfragmentiert
11-17-2009, 05:01 PM
Ahoi-hoi,

bin gerade hier im deutschen Forum auf eine (lange abgeschlossene) Umfrage zum Thema "Block- oder Flattersatz?" gestolpert und frage mich ganz allgemein, wie gut der Blocksatz bei EPUBs und den Geräten eigentlich sein mag? Wenn ich es richtig verstehe, basiert das Format auf XML bzw. die Ausgabe auf XHTML. Zumindest Browser können ohne Hilfsmittel wie Javascript-/PHP-/Python-/...-basierte Bibs nicht automagisch trennen.

Hat jemand technische Info wie das in Readern gelöst wird? Ich bekomme demnext zum Beispiel einen Cybook Opus und mich würde das schon interessieren. Ich hab' mich noch nicht mit der Erstellung von ebooks befasst, mir spukte die Frage halt als Neuling überraschend im Kopf herum. Vielleicht kennt sich ja jemand aus oder kann mich weiter verweisen.

Edit: ich schau' mich natürlich auch selbst nach der Antwort um und checke mal Wikipedia und das Wiki hier ab.

Wie ich sehe, scheint das Thema "Silbentrennung" doch komplizierter zu sein als zunächst gedacht und ist nicht nur auf Geräteseite anzusiedeln.

Yoshi 1080
11-20-2009, 03:52 PM
Browser können auch ohne Hilfsmittel Silben korrekt trennen, wenn man ihnen per shy-Tag (­) sagt, wo sie trennen sollen. ;) Theoretisch wäre es also denkbar, dass bei der Konvertierung ins ePub-Format die Soft-Hyphens einfach direkt in den Quelltext geschrieben werden.

Da die Silbentrennung aber laut einigen Posts unterschiedlich gut/schlecht in den Readern umgesetzt ist, vermute ich eher, dass sie das anhand eines eingebauten Wörterbuchs selbst machen. Offenbar wird für eine gute Silbentrennung eine hohe Rechenleistung gefordert (habs glaube ich sogar hier im Forum gelesen). Sollte das mit dem Wörterbuch stimmen, würde sich aber die Frage stellen, wie das mit fremdsprachigen Texten funktioniert. Vielleicht gibts dafür ja auch einen Algorithmus.

mtravellerh
11-20-2009, 04:17 PM
Das mit den "shy"-Tags klappt so bei Stanza. Bei ADE gibt's meines Wissens nach nur interne Parameter, auf die man nicht direkt eingreifen kann.

polyfragmentiert
11-20-2009, 05:03 PM
(...) vermute ich eher, dass sie das anhand eines eingebauten Wörterbuchs selbst machen. (...)
Das macht Sinn, vermute ich auch.

(...) Sollte das mit dem Wörterbuch stimmen, würde sich aber die Frage stellen, wie das mit fremdsprachigen Texten funktioniert. Vielleicht gibts dafür ja auch einen Algorithmus.
Ich denke, damit die Software weiß, um welche Sprache es sich handelt, muss hier wieder der Ersteller ran. In XHTML, worauf ePub bei der Ausgabe wohl setzt, kann der Ersteller, neben entsprechenden Metatags für das gesamte Dokument, auch Teilstrings per lang-Tag kennzeichnen.

Almandin
11-21-2009, 06:30 AM
Offenbar wird für eine gute Silbentrennung eine hohe Rechenleistung gefordert


Nein, auch auf meinem schon mehrere Jahre alten PDA mit Palm-OS läuft ein Leseprogramm (Weasel-Reader), das eine erstaunlich gute Silbentrennung hat, die man auf verschiedene Sprachen einstellen kann. Der raffinierte Trennalgorithmus, der dort benutzt wird, stammt ursprünglich aus dem Textsatzprogram TeX (entwickelt wurde er schon Anfang der 1980er Jahre von Franklin Mark Liang), man braucht da auch nicht etwa ein komplettes Wörterbuch, sondern es reicht eine relativ kurze Trennmustertabelle, mit der man dann etwa 90% der zulässigen Trennstellen findet, was für einen ausgeglichenen Blocksatz ausreichend ist. Diese Trennmustertabellen sind natürlich sprachabhängig, fürs Deutsche gibt es sogar zwei Trennmuster: alte und neue Rechtschreibung. Auch der FBReader verwendet übrigens diesen Trennalgorithmus.

Eine brauchbare Silbentrennung auf schwachbrüstigen Rechnern gibt es also schon sehr lange, nur interessieren sich offenbar die wenigsten E-Reader-Hersteller dafür, einen ordentlich formatierten Text auf den Bildschirm zu bringen. Sie geben lieber ihr Geld für die Entwicklung von teuren DRM-Lösungen aus. ;)

Ich finde es ziemlich ärgerlich, daß ein Netbook für 250 Euro eine ausgereiftere Textdarstellung hat als ein gleichteures dediziertes Lesegerät: Blocksatz, Silbentrennung, Benutzung verschiedener Fonts, Unicode-Fähigkeit - all dies sollte für E-Ink-Reader eine Selbstverständlichkeit sein, ist es aber leider noch nicht. Mit dem Epub-Addon für den Firefox-Browser wird sogar Sperrsatz korrekt dargestellt, das kann, glaube ich, noch kein einziger E-Ink-Reader.

polyfragmentiert
11-21-2009, 07:51 AM
Hey Almandin,

danke für die Infos!

Ich finde es ziemlich ärgerlich, daß ein Netbook für 250 Euro eine ausgereiftere Textdarstellung hat als ein gleichteures dediziertes Lesegerät: Blocksatz, Silbentrennung, Benutzung verschiedener Fonts, Unicode-Fähigkeit (...)
Da stimme ich Dir voll zu. Gerade auf einem kleinen Display finde ich es auch wichtig, die bestmögliche Textdarstellungen zu erreichen. Das beschränkt sich natürlich nicht nur auf kleine Displays, aber mein Opus hat nunmal gerade 125mm Diagonale.

T_Frain_K
11-21-2009, 10:10 AM
Offenbar wird für eine gute Silbentrennung eine hohe Rechenleistung gefordertIch verstehe nicht, warum hier im Forum immer wieder die Rede ist, dass gewisse Funktionen eines Text-Viewers "hohe Rechenleistung" benötigen sollten. Wir reden immerhin von Geräten, die einen 200-400 MHz-Prozessor verbaut haben. Und die nichts anders zu tun haben, als Text anzuzeigen, vielleicht noch ein paar Bildchen.

Wer´s kann, erinnere sich doch zurück, welche Games er auf einem 200MHz-Rechner alles spielen konnte.
Zum Vergleich: der Boardcomputer eines Space-Shuttles arbeitet mit einem 286er (Falls das noch jemand kennt ;))

mtravellerh
11-21-2009, 10:18 AM
Hab auch schon tolle Spiele mit meinem C64 gemacht und noch tollere Musik gemacht! Aber davon mal ganz abgesehen: Stanza macht mit den integrierten ­ Tags beispielsweise die Rechenarbeit kinderleicht. Das könnte ADE auf den diversen Desktops genauso. Beim LRF-Format für den Sony funktioniert es gleich mit Vorformatierung!

polyfragmentiert
11-23-2009, 08:37 AM
Okay,

nehmen wir mal explizit das Cybook Opus, das ich besitze. Ich hab' bisher hauptsächlich E-Books von Feedbooks im ePub-Format an der Angel. Weiß jemand, ob es Bestrebungen von Bebook gibt, automatische Silbentrennung einzubauen?

Ich sah gestern in einem Buch lediglich, wie in Webbrowsern, Trennung an Bindestrichen, aber ansonsten nichts. Richtig verunstaltete Zeilen hatte ich bis jetzt noch nicht, kann mir aber vorstellen, dass der Textfluss durch Silbentrennung noch etwas sahniger werden könnte.

Und wie auch ein anderer Nutzer hier bereits allgemeiner andeutete, hat das Opus immerhin einen 400MHz-Prozessor. Ist das E-Book kapitelweise in einzelne Ausgabedateien gesplittet, sollte es doch eigentlich keine krassen Verzögerungen geben oder?

Wie seht Ihr das, die Ihr mehr Erfahrung in diesem Bereich habt?

mtravellerh
11-23-2009, 11:05 AM
Und wie auch ein anderer Nutzer hier bereits allgemeiner andeutete, hat das Opus immerhin einen 400MHz-Prozessor. Ist das E-Book kapitelweise in einzelne Ausgabedateien gesplittet, sollte es doch eigentlich keine krassen Verzögerungen geben oder?

Wie seht Ihr das, die Ihr mehr Erfahrung in diesem Bereich habt?

Das mit dem kapitelweise Aufsplitten hat an sich einen anderen Grund: Der Sony-Reader kann nämlich hardwarebedingt bei den ePubs nur Textbrocken bis 300 kb unkomprimiert verarbeiten. Deshalb splitten wir die Texte auf, um sonykompatibel zu bleiben (Sony hat übrigens einen weit schwächlicheren Prozessor) Das hat also mit dem Blocksatz nix zu tun! Ich hab allerdings gemerkt, dass mein Cooler durchaus auch schon mal korrekt trennt und die Schusterjungen- und Hurenkinderregelung einhält!

polyfragmentiert
11-23-2009, 11:17 AM
Deshalb splitten wir die Texte auf, um sonykompatibel zu bleiben (Sony hat übrigens einen weit schwächlicheren Prozessor) Das hat also mit dem Blocksatz nix zu tun!
Okay, danke für die Info. Aber auch wenn die Aufteilung direkt nichts mit dem Blocksatz beziehungsweise einer möglichen Silbentrennung zu tun hat, wäre das ja kein Nachteil, falls die Silbentrennung mehr Resourcen verbauchen sollte. Kleinere Happen wären dem ja zuträglich.

Montyp535
12-14-2009, 03:59 AM
mh, also mein ebookwise arbeitet ohne Silbentrennung und ich muss sagen, der Blocksatz sieht zu 95 % auch gut aus. Probleme sind nur bei sehr langen Worten am Zeilenende - da wird dann schon mal auf die nächste Zeile umgebrochen. Ansonsten wird das alles mit Wortabständen gemacht - man muss aber dazu sagen, dass die verarbeiteten Dateien "fest" für die Displaygröße erstellt werden, Grundlage ist zwar ein xhtml-Format, aber wie das letztendlich zu den benötigten "imp"s gebaut wird...?
aber ich denke, ein Blocksatz ist weniger von der Rechenleistung abhängig, eher von der Software, die es einstellt.

Marc_liest
12-14-2009, 06:20 AM
Der FBREader auf der MM beherrscht eine recht gute Silbentrennung. Je kleiner das Display um so wichtiger. Es sollte allerdings NICHTS mit der "Rechenleistung" zu tun haben.