MobileRead Forums - View Single Post - PB 622

sento · 08-20-2012, 05:53 PM

Der von SIRSteiner gepostete Thread und die dortigen Erläuterungen hatte ich geschrieben.

Ich will dies nicht noch einmal hier in aller Ausführlichkeit auseinandernehmen.

Das von dir (ich meine Nascar) erläuterte Problem liegt zum einen daran, dass in der Silbentrennung erlaubt wird ab einem Zeichen Links und Rechts zu trennen. Also braucht das Wort nur zwei Buchstaben und es wird getrennt.
Du findest diese Silbentrennungsdatei unter: Pocket622/system/fonts/adobe/hyphenDicts
Dort findest du sie unter dem Namen "hyph_de.dic". Die Zahlen für LEFTHYPHENMIN und RIGHTHYPHENMIN bestimmen die Anzahl der Notwendigen Zeichen, ab denen auf einer Seite abgetrennt werden darf. Erhöhst du sie auf 3, dann wird erst ab drei Zeichen Links und Rechts abgetrennt. Also ab sechs Zeichen insgesamt. Leider wirst du feststellen, dass sich das Problem dadurch nicht lösen lässt, weil die Silbentrennung von Adobe jedes einzelne Zeichen zum Wort addiert. Beispielsweise "zum.<<". Der Punkt am "zum" wird als ein Zeichen gerechnet und die französischen Anführungszeichen als zwei. Im Ergebnis macht das mit den drei Zeichen von Zum insgesamt sechs. Trotz deiner Erhöhung der Minima kann die Silbentrennung hier zuschlagen: zu-m.<<.
Dafür gibt es unterschiedliche Lösungen, mit denen ich herumexperimentiert habe. Im meinem verlinkten Post vom e-reader-forum steht zu den Lösungsmöglichkeiten ein wenig mehr, von der grundsätzlichen Herangehensweise.

Ich habe inzwischen mit verschiedenen Silbentrennungslisten gearbeitet. Zeitweise in dem Thread auch eine zur Verfügung gestellt, zum Testen und anschauen. Inzwischen habe ich mit Hilfe von Patgen, dem Dictionary der die Silbentrennung von Adobe zu Grunde liegt und einer umfangreichen freien Wortliste eigene Trennmuster erstellt. Diese sind natürlich weit von der Perfektion entfernt. Ich selbst lese mit meinem neusten Experiment erst seit ca. einer Woche. Es liegt eben leider nicht nur an den Listen, sondern auch der Funktionsweise des von Adobe verwendeten Algorithmus.

Grundsätzlich wird die Silbentrennung durch meine neue Silbentrennungstabelle und unzähligen Änderungen, in meinen Augen, aufgewertet. Zum Einen sind Einzelabtrennungen von nur einem Buchstaben Vergangenheit und zum Anderen wird die allgemeine Trennung an den richtigen Stellen erhöht.
Natürlich umfasst meine selbst zusammengestellte Wortliste nicht alle möglichen Worte. Die größte Schwachstelle sind seltene Substantive bzw. Komposita, die nicht in der Wortliste auftauchen, mit der ich die Trennmuster erstellt habe. Ein Beispiel: Ark-anghule. Das Wort war nicht Teil der Trennmuster. Die Silbentrennung nimmt nun das spezifischste Muster für dieses Wort. Wenn dieses Muster k1ang ist, dann sieht das Ergebnis so aus. Ein weiteres Beispiel: As-tgabel. Durch das Muster ".as1t" wird ihm die Trennung hier erlaubt. Das ist ein Beispiel eines scheinbar fehlerhaften Musters. In der Wortliste steht Astgabel, richtig getrennt. Leider kommt hier ein Problem des Algorithmus von Adobe zum tragen. An sich sollte Groß/Kleinschreibung nicht bedeutend sein, aber das sieht Adobe leider anders. Das erstellte Muster kommt nicht zum tragen, da es mit einem kleinen "a" anfängt.
Nur um einmal kurz zu verdeutlichen, welche Probleme auf dem Weg aufgetaucht sind und zu lösen waren bzw. sind. Adobe überrascht einen immer wieder aufs Neue.

Ich habe meine eigene, experimentelle Silbentrennungtabelle in den Anhang getan. Im Archiv befindet sich auch eine kleine Anleitung. Unter 4.2 sollte stehen, wie man sie einsetzt. (Die originale Tabelle im oben genannten Verzeichnis umbenennen [oder löschen, aber dann ist sie erst mal weg

] und meine in das Verzeichnis kopieren.)
Bekannte Probleme (die ich noch nicht erwähnte):

ST-Trennung: "st" wird nicht immer getrennt, wo es die Neue Rechtschreibung vorsieht. In einer früheren Silbentrennungstabelle gab es das Problem, das "st" mitunter an Stellen getrennt wurde, wo es nicht trennen sollte. Aus Sicherheit habe ich das Allgemein stärker unterbunden. Das führt leider dazu, dass Wörter wie Kri-stall, vor dem "st" getrennt werden. Wo ich das sehe korrigierte ich es. Mir ist es allerdings lieber, bei einigen Substantiven wird in seltenen Ausnahmen nicht getrennt, als eine falsche Trennung. Die falsche Trennung würde den Sinn des Wortes entstellen. Dies passiert bei einer unterlassenen Trennung nicht. Ganz Allgemein bin ich schon fast an der Stelle, wo ich die Trennung lieber untersagen möchte und vor dem "st" trennen lasse. Vor allem bei Steigerungsformen. Mal sehen.

Probleme durch eigene Trennmuster:
Ich habe zu den von Patgen generierten Trennmustern ebenfalls viele eigene erstellt, die Probleme beheben sollen. Allerdings sind diese sehr umfangreich und können selbst Probleme auslösen. Es ist eben noch recht experimentell.

Scheinbare Abtrennungen:
Damit meine ich Trennungen, die gar keine sind. In einigen Büchern kam es beispielsweise zu Umbrüchen wie: >>A - ber; wobei hier kein Trennstrich vorkommt. Die Zeile endet mit A und fängt mit ber an. Oder sie endet mit ">>". Das liegt allerdings am eBook und ist nicht der Silbentrennung geschuldet. Im eBook steht in solch einem Fall <span> >>A </span> ber. Für den AdobeViewer scheint es sich damit um zwei Worte zu handeln und nicht nur um eines. Selbst mit ausgeschalteter Silbentrennung würde dies passieren. Müsste man das eBook selbst bearbeiten.

Drei Punkte: (Problem obsolet, wenn mit der normalen Version gearbeitet wird)
Es gibt zwei Arten von Möglichkeiten wie drei Punkte im Ebook umgesetzt werden: "..." und "…". Ersteres sind drei normale Punkte hintereinander. Letzteres das Zeichen Auslassungspunkte. Erstes ist ein Problem. Es kann vorkommen, dass die drei normalen Punkte mit Bindestrich in die nächste Zeile gezogen werden:
und
-...
Dies ließe sich nur umgehen indem bei Calibre das Ebook umgewandelt wird und mit Suchen&Ersetzen der Ausdruck "\.\.\." gegen "…" ausgetauscht wird. Konvertieren und das Problem wäre gelöst.
Alternativ in der Zeile über dem NEXTLEVEL folgendes das "%" bei "%6...6" entfernen (ab beta5). Dann besteht allerdings wieder die Möglichkeit einer Abtrennung eines einzelnen Buchstabens:
un-
d ...
Für das Problem habe ich noch keine Lösung, außer der Konvertierung.

Bitte die Werte für LEFTHYPHENMIN und RIGHTHYPHENMIN nicht aus einem Spaß heraus ändern. Die Trennmuster habe ich von Patgen mit der Absicht erstellt, dass sie in der Praxis 2 und 3 betragen.

Nachteil:
Das Öffnen der Bücher dauert bei längeren Büchern nun zwei Sekunden länger.

Wichtigste Änderungen der letzten Versionen:
- Zwei systematische Fahler ausgeräumt.