Register Guidelines E-Books Search Today's Posts Mark Forums Read

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum > PocketBook

Notices

Reply
 
Thread Tools Search this Thread
Old 08-19-2012, 05:20 PM   #1
NASCARaddicted
Addict
NASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and grace
 
Posts: 312
Karma: 43106
Join Date: Apr 2009
Location: Germany
Device: BeBook One, Pocketbook Touch
PB 622 - Silbentrennung verbessern? (bei epub)

Hallo

Ich wollte mal fragen: gibt es eine Möglichkeit, bzw. wird dran gearbeitet die Silbentrennung zu verbessern?

Ich denke mal, perfekt wird die Silbentrennung nie werden (können) aber manche aktuellen Trennung stören mich schon ein wenig.

Mehrfach habe ich schon erlebt, daß das Wort "ihr" getrennt wurde, als in "i-hr". Also als ich noch in der Schule war (bis 1993), da galt noch die alte Rechtschreibung, und nach der durfte ein Buchstabe bei der Trennung nicht alleine stehen. Soweit ich mich erinnere mußten es mindestens 3 Buchstaben sein, also konnte man Worte mit weniger als 6 Buchstaben gar nicht trennen?

Und heute hatte ich einen noch schlimmeren Fall (man sollte meinen "schlimmer geht nimmer"). Wie würdet ihr das Wort "Terra-Aquarium" trennen? Also beim Pocketbook wurde daraus "Terra-A-quarium". Also bei dem Strich nach Terra handelt es sich um ein normalen Bindestrich, also ein "Minus". Da ist die Trennung ja durchaus erlaubt. Also sollte man doch erwarten, daß das A besser in die nächste Zeile rutscht ... Bei selbst erstellten epubs habe ich mehrfach den Fall, daß ein Doppelname auftaucht ("Hans-Jürgen", den Namen hab ich extra mit einem Span-Tag bearbeitet (white-space:nowrap;), da ist es dann ja auch Absicht. Aber normalerweise wird bei einem Minus ja umgebrochen ... und nicht ein Zeichen danach.

Umgekehrt habe ich auch schon erlebt, daß ein langes Wort nicht getrennt wurde und so (durch den Blocksatz bzw. "justify") eine Zeile mit sehr großen Wortabständen entstand.

Um mich nicht falsch zu verstehen: An sich liebe ich die Silbentrennung ja - es gibt (normalerweise) keine Zeilen mehr mit riesigen Wort-Abständen, und die ebooks sehen dadurch einem Papierbuch noch ähnlicher. Aber solche seltsamen Trennung tun mir wirklich in den Augen weh.

Also, gibt es eine Möglichkeit, die Silbentrennung zu verbessern? Eventuell durch ein Firmware-Update? Zumindest die Trennung von kurzen Worten müßte man doch verhindern können, damit keine 3-Buchstaben-Wörter mehr getrennt werden.

P.S. Was ja auch interessant ist: Ich hab festgestellt, daß die Silbentrennung nur funktioniert, wenn die Text-Sprache im Header richtig eingestellt ist. Da ich selber viel html in epub umwandle, achte ich da mittlerweile drauf. Es ist aber immer wieder erschreckend, wieviele Kauf-ebooks scheinbar keine Sprache angegeben haben, den da funktioniert die Silbentrennung gar nicht.
NASCARaddicted is offline   Reply With Quote
Old 08-19-2012, 05:58 PM   #2
frostschutz
Linux User
frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.frostschutz ought to be getting tired of karma fortunes by now.
 
frostschutz's Avatar
 
Posts: 751
Karma: 2031587
Join Date: Sep 2010
Device: iriver Story HD
Das mit der Silbentrennung ist leider generell ein Problem, bei allen Adobe-DRM-Readern. Das ist aber glaube ich Sache der Adobe Software. Da gibts es Hyphen-Dics die man anpassen kann für jede Sprache, irgendwo gabs auch einen Thread dazu wie diese Anpassung aussehen muss oder kann. Das funktioniert aber auch nur leidlich.

Evtl. ist es im FBReader besser, falls diese Software beim PB noch dabei ist (hatte selbst nur das PB360). Bei Adobe-DRM-Büchern müsste das DRM dann halt entfernt werden. Spätestens wenn Metadaten (Sprache) falsch ist kommt man eh nicht drum herum.

Ich lese hauptsächlich Englisch und da kann man es sich leisten, die Silbentrennung ganz abzuschalten, wenn man nicht gerade eine riesengroße Schrift verwendet; die Wörter im Englischen sind in der Regel kürzer so daß Zeilen mit großen Wortabständen die Ausnahme sind. Bei deutschen Texten ist das schon anspruchsvoller, aber im Zweifelsfall einer grottenfalschen Trennung trotzdem vorzuziehen. Große Abstände werfen mich nicht aus dem Lesefluss raus, übermäßig viele oder gar falsche Trennungen dagegen schon.
frostschutz is offline   Reply With Quote
Old 08-20-2012, 05:49 AM   #3
Montyp535
Zealot
Montyp535 began at the beginning.
 
Montyp535's Avatar
 
Posts: 141
Karma: 10
Join Date: Dec 2009
Location: MD
Device: (former) Ebookwise 1150, PB 302, (now) PB 612, PB Touch, HTC DesireS
also manchmal wundere ich mich auch über trennungen - z-um oder a-ber, am "schönsten" fand ich a-m (alles worte, die im originalen epub ungetrennt vorliegen) - aber diverse lange Worte blieben stehen... aber man gewöhnt sich dran :-)
Eine Besserung wäre freilich wünschenswert...
Montyp535 is offline   Reply With Quote
Old 08-20-2012, 07:03 AM   #4
SIRSteiner
Linuxfreak
SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.SIRSteiner ought to be getting tired of karma fortunes by now.
 
SIRSteiner's Avatar
 
Posts: 374
Karma: 221896
Join Date: Aug 2012
Location: Germany, Saxony
Device: Kobo Touch, PocketBook Touch 622, PocketBook Touch Lux 623
Hallo,

dazu gibt es 2 Möglichkeiten:

1. Die Abhandlung im folgenden Forum lesen:

http://www.e-reader-forum.de/ebook-r...ilbentrennung/

2. Den fbreader verwenden, damit habe ich keine Probleme mit der Trennung.

Gruß
Ronny
SIRSteiner is offline   Reply With Quote
Old 08-20-2012, 06:53 PM   #5
sento
Zealot
sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.
 
Posts: 124
Karma: 1001128
Join Date: Mar 2012
Location: Germany
Device: Pocketbook Touch 622
Der von SIRSteiner gepostete Thread und die dortigen Erläuterungen hatte ich geschrieben.

Ich will dies nicht noch einmal hier in aller Ausführlichkeit auseinandernehmen.

Das von dir (ich meine Nascar) erläuterte Problem liegt zum einen daran, dass in der Silbentrennung erlaubt wird ab einem Zeichen Links und Rechts zu trennen. Also braucht das Wort nur zwei Buchstaben und es wird getrennt.
Du findest diese Silbentrennungsdatei unter: Pocket622/system/fonts/adobe/hyphenDicts
Dort findest du sie unter dem Namen "hyph_de.dic". Die Zahlen für LEFTHYPHENMIN und RIGHTHYPHENMIN bestimmen die Anzahl der Notwendigen Zeichen, ab denen auf einer Seite abgetrennt werden darf. Erhöhst du sie auf 3, dann wird erst ab drei Zeichen Links und Rechts abgetrennt. Also ab sechs Zeichen insgesamt. Leider wirst du feststellen, dass sich das Problem dadurch nicht lösen lässt, weil die Silbentrennung von Adobe jedes einzelne Zeichen zum Wort addiert. Beispielsweise "zum.<<". Der Punkt am "zum" wird als ein Zeichen gerechnet und die französischen Anführungszeichen als zwei. Im Ergebnis macht das mit den drei Zeichen von Zum insgesamt sechs. Trotz deiner Erhöhung der Minima kann die Silbentrennung hier zuschlagen: zu-m.<<.
Dafür gibt es unterschiedliche Lösungen, mit denen ich herumexperimentiert habe. Im meinem verlinkten Post vom e-reader-forum steht zu den Lösungsmöglichkeiten ein wenig mehr, von der grundsätzlichen Herangehensweise.

Ich habe inzwischen mit verschiedenen Silbentrennungslisten gearbeitet. Zeitweise in dem Thread auch eine zur Verfügung gestellt, zum Testen und anschauen. Inzwischen habe ich mit Hilfe von Patgen, dem Dictionary der die Silbentrennung von Adobe zu Grunde liegt und einer umfangreichen freien Wortliste eigene Trennmuster erstellt. Diese sind natürlich weit von der Perfektion entfernt. Ich selbst lese mit meinem neusten Experiment erst seit ca. einer Woche. Es liegt eben leider nicht nur an den Listen, sondern auch der Funktionsweise des von Adobe verwendeten Algorithmus.

Grundsätzlich wird die Silbentrennung durch meine neue Silbentrennungstabelle und unzähligen Änderungen, in meinen Augen, aufgewertet. Zum Einen sind Einzelabtrennungen von nur einem Buchstaben Vergangenheit und zum Anderen wird die allgemeine Trennung an den richtigen Stellen erhöht.
Natürlich umfasst meine selbst zusammengestellte Wortliste nicht alle möglichen Worte. Die größte Schwachstelle sind seltene Substantive bzw. Komposita, die nicht in der Wortliste auftauchen, mit der ich die Trennmuster erstellt habe. Ein Beispiel: Ark-anghule. Das Wort war nicht Teil der Trennmuster. Die Silbentrennung nimmt nun das spezifischste Muster für dieses Wort. Wenn dieses Muster k1ang ist, dann sieht das Ergebnis so aus. Ein weiteres Beispiel: As-tgabel. Durch das Muster ".as1t" wird ihm die Trennung hier erlaubt. Das ist ein Beispiel eines scheinbar fehlerhaften Musters. In der Wortliste steht Astgabel, richtig getrennt. Leider kommt hier ein Problem des Algorithmus von Adobe zum tragen. An sich sollte Groß/Kleinschreibung nicht bedeutend sein, aber das sieht Adobe leider anders. Das erstellte Muster kommt nicht zum tragen, da es mit einem kleinen "a" anfängt.
Nur um einmal kurz zu verdeutlichen, welche Probleme auf dem Weg aufgetaucht sind und zu lösen waren bzw. sind. Adobe überrascht einen immer wieder aufs Neue.

Ich habe meine eigene, experimentelle Silbentrennungtabelle in den Anhang getan. Im Archiv befindet sich auch eine kleine Anleitung. Unter 4.2 sollte stehen, wie man sie einsetzt. (Die originale Tabelle im oben genannten Verzeichnis umbenennen [oder löschen, aber dann ist sie erst mal weg ] und meine in das Verzeichnis kopieren.)
Bekannte Probleme (die ich noch nicht erwähnte):

ST-Trennung: "st" wird nicht immer getrennt, wo es die Neue Rechtschreibung vorsieht. In einer früheren Silbentrennungstabelle gab es das Problem, das "st" mitunter an Stellen getrennt wurde, wo es nicht trennen sollte. Aus Sicherheit habe ich das Allgemein stärker unterbunden. Das führt leider dazu, dass Wörter wie Kri-stall, vor dem "st" getrennt werden. Wo ich das sehe korrigierte ich es. Mir ist es allerdings lieber, bei einigen Substantiven wird in seltenen Ausnahmen nicht getrennt, als eine falsche Trennung. Die falsche Trennung würde den Sinn des Wortes entstellen. Dies passiert bei einer unterlassenen Trennung nicht. Ganz Allgemein bin ich schon fast an der Stelle, wo ich die Trennung lieber untersagen möchte und vor dem "st" trennen lasse. Vor allem bei Steigerungsformen. Mal sehen.

Probleme durch eigene Trennmuster:
Ich habe zu den von Patgen generierten Trennmustern ebenfalls viele eigene erstellt, die Probleme beheben sollen. Allerdings sind diese sehr umfangreich und können selbst Probleme auslösen. Es ist eben noch recht experimentell.

Scheinbare Abtrennungen:
Damit meine ich Trennungen, die gar keine sind. In einigen Büchern kam es beispielsweise zu Umbrüchen wie: >>A - ber; wobei hier kein Trennstrich vorkommt. Die Zeile endet mit A und fängt mit ber an. Oder sie endet mit ">>". Das liegt allerdings am eBook und ist nicht der Silbentrennung geschuldet. Im eBook steht in solch einem Fall <span> >>A </span> ber. Für den AdobeViewer scheint es sich damit um zwei Worte zu handeln und nicht nur um eines. Selbst mit ausgeschalteter Silbentrennung würde dies passieren. Müsste man das eBook selbst bearbeiten.

Drei Punkte: (Problem obsolet, wenn mit der normalen Version gearbeitet wird)
Es gibt zwei Arten von Möglichkeiten wie drei Punkte im Ebook umgesetzt werden: "..." und "…". Ersteres sind drei normale Punkte hintereinander. Letzteres das Zeichen Auslassungspunkte. Erstes ist ein Problem. Es kann vorkommen, dass die drei normalen Punkte mit Bindestrich in die nächste Zeile gezogen werden:
und
-...
Dies ließe sich nur umgehen indem bei Calibre das Ebook umgewandelt wird und mit Suchen&Ersetzen der Ausdruck "\.\.\." gegen "…" ausgetauscht wird. Konvertieren und das Problem wäre gelöst.
Alternativ in der Zeile über dem NEXTLEVEL folgendes das "%" bei "%6...6" entfernen (ab beta5). Dann besteht allerdings wieder die Möglichkeit einer Abtrennung eines einzelnen Buchstabens:
un-
d ...
Für das Problem habe ich noch keine Lösung, außer der Konvertierung.

Bitte die Werte für LEFTHYPHENMIN und RIGHTHYPHENMIN nicht aus einem Spaß heraus ändern. Die Trennmuster habe ich von Patgen mit der Absicht erstellt, dass sie in der Praxis 2 und 3 betragen.

Nachteil:
Das Öffnen der Bücher dauert bei längeren Büchern nun zwei Sekunden länger.

Wichtigste Änderungen der letzten Versionen:
- Zwei systematische Fahler ausgeräumt.
Attached Files
File Type: zip Silbentabelle1.0.9.beta2.zip (142.4 KB, 627 views)
File Type: zip beta3.zip (301.0 KB, 141 views)
File Type: zip beta4.zip (140.4 KB, 104 views)
File Type: zip beta5.zip (135.9 KB, 110 views)
File Type: zip beta6.zip (135.4 KB, 165 views)
File Type: zip Silbentrennung001.zip (203.9 KB, 137 views)
File Type: zip Silbentrennung002.zip (207.7 KB, 180 views)

Last edited by sento; 12-13-2012 at 12:16 PM.
sento is offline   Reply With Quote
Old 08-20-2012, 07:58 PM   #6
NASCARaddicted
Addict
NASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and grace
 
Posts: 312
Karma: 43106
Join Date: Apr 2009
Location: Germany
Device: BeBook One, Pocketbook Touch
Danke sento, für den sehr informativen Post und deinen Anhang. Ich werde ihn bald testen (muß aber noch warten, bis mein Akku ganz leer ist. Ich weiß, es ist heutzutage nicht mehr so schlimm, wenn man einen Akku der nicht ganz leer ist wieder lädt, aber es ist immer noch meine erste Akkuladung (seit Mitte Juni) darum will ich mal ausreizen, wie weit ich komme).

Den Link von SIRSteiner hab ich mir auch schon angeguckt und den Inhalt kurz überflogen.
Daß Zeichen wie die französischen Gänsefüßchen auch als Buchstaben angesehen werden hab ich schon gelesen. Aber gerade heute hatte ich wieder den Fall eines einzelnen Buchstaben, ohne irgendwelche anderen Zeichen daneben, also weder Gänsefüßchen, noch Interpunktion. Wobei, es war schon ein Punkt da, aber dann kam erst ein Leerzeichen und dann kam "A-lles". (Aber ohne die Gänsefüßchen, die hab ich nur gemacht um das Wort deutlicher zu machen). Und ein Leerzeichen dürfte ja normalerweise nicht gezählt werden.
NASCARaddicted is offline   Reply With Quote
Old 08-20-2012, 08:14 PM   #7
sento
Zealot
sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.
 
Posts: 124
Karma: 1001128
Join Date: Mar 2012
Location: Germany
Device: Pocketbook Touch 622
Der einzelne Buchstabe ist dem niedrigen Minima geschuldet. Es steht standardmäßig auf 1 für beide Seiten. Er darf also immer nach einem Buchstaben trennen. Erhöhen musst du. In meiner Tabelle habe ich für Links zwei Buchstaben gewählt und für Rechts drei.
Aber das reicht eben noch nicht aus. Damit wird dein A-lles zwar verhindert, aber bei >>A-lles schlägt er schon wieder zu. Ebenfalls bei Umlauten am Anfang, denn diese zählen nicht als ein, sondern zwei Zeichen. Möglich wäre natürlich die Minima immer weiter in die Höhe zu treiben, aber damit wird dann kaum noch ein Wort getrennt. Hier muss man umfangreiche Änderungen vornehmen, um dem Problem Herr zu werden. Am einfachsten ist das Definieren von Wortgrenzen. Das hat allerdings ebenfalls seine Tücken. Wortgrenzen für Zeichen am Wortanfang (>> Beispielsweise) stellen ein Problem dar. Der Punkt als Wortgrenze entpuppt sich ebenfalls als problematisch, wenn der Verlag im eBook als Auslassungspunkte einfach drei normale Punkte hintereinander verwendet. Nur zwei Beispiele.

Ich habe das weitestgehend behoben. Aber man ist natürlich nie gefeit, was es so alles an Zeichen gibt. Neulich ist mir ein seltsamer länglicher Strich in einem Buch begegnet. Natürlich wurde er mitgezählt. Inzwischen stoße ich allerdings nicht mehr auf solche Zeichen. So langsam habe ich alle kennengelernt. Die Hauptprobleme sind jetzt eher falsche Trennungen ala Ark-anghule.

Last edited by sento; 08-20-2012 at 08:16 PM.
sento is offline   Reply With Quote
Old 08-21-2012, 06:14 AM   #8
NASCARaddicted
Addict
NASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and grace
 
Posts: 312
Karma: 43106
Join Date: Apr 2009
Location: Germany
Device: BeBook One, Pocketbook Touch
Quote:
Originally Posted by sento View Post
Der Punkt als Wortgrenze entpuppt sich ebenfalls als problematisch, wenn der Verlag im eBook als Auslassungspunkte einfach drei normale Punkte hintereinander verwendet.
Hm, also bei selber erstellten ebooks habe ich das bisher immer so gemacht. Sollte ich das vielleicht ändern in Code hellip?
NASCARaddicted is offline   Reply With Quote
Old 08-21-2012, 06:35 AM   #9
Montyp535
Zealot
Montyp535 began at the beginning.
 
Montyp535's Avatar
 
Posts: 141
Karma: 10
Join Date: Dec 2009
Location: MD
Device: (former) Ebookwise 1150, PB 302, (now) PB 612, PB Touch, HTC DesireS
sehr interessante Infos - werd ich mal probieren - bei Erhöhung der Grenze komm ich so schon mal um die seltsamen Trennungen rum - und meine Frau auch - die hat sich jetzt schon mal aufgeregt, wie seltsam manche Worte getrennt wären (Anmerkung: sie ist Deutschlehrerin...)
Montyp535 is offline   Reply With Quote
Old 08-21-2012, 07:20 AM   #10
sento
Zealot
sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.
 
Posts: 124
Karma: 1001128
Join Date: Mar 2012
Location: Germany
Device: Pocketbook Touch 622
Quote:
Originally Posted by NASCARaddicted View Post
Hm, also bei selber erstellten ebooks habe ich das bisher immer so gemacht. Sollte ich das vielleicht ändern in Code hellip?
@NASCAR
Viele eBooks haben für die Ausalassungspunkte einfach drei normale Punkte hintereinander verwendet. Das ist ja auch nicht weiter schlimm.
Im ersten eBook, wo ich Probleme mit drei Punkten hatte, waren es Auslassungspunkte. Ich muss gestehen, dass ich vorher überhaupt nicht wusste, dass es dafür ein extra Zeichen gibt. Ich hatte geglaubt alle würden einfach drei normale Punkte hintereinander ins eBook schreiben. War nicht der Fall.
Im nächsten Buch war es dann so, wie ich es auch gemacht hätte: drei stinknormale Punkte hintereinander. Leider führt das zu einem sehr seltsamen Abtrennungsverhalten beim Pocketbook, wenn der Punkt als Wortgrenze definiert wird. Die drei Punkte werden mit Strich in die nächste Zeile verschoben. Das war nicht zu beheben, solange der Punkt eine Wortgrenze ist.

In der originalen Silbentrennung wird mit Wortgrenzen auch gar nicht gearbeitet. Daher wird ihnen so etwas nicht aufgefallen sein.

@Monty
Die Erhöhung der Minima verhindert eine Trennung allerdings nur bei Wörtern, an denen kein Satzzeichen klebt bzw. keinen Umlaut am Anfang oder Ende haben. Mein Beispiel war hier "zum". Drei Zeichen. Mit 2/3 wird hier mit Sicherheit nicht getrennt, aber bei "zum.<<" darf wieder getrennt werden, wenn auch nur eine Stelle in Frage kommt "zu-m.<<".
Je weiter du erhöhst, desto unwahrscheinlicher wird es natürlich. Bei einem Minimum von 5 Rechts kann mein Beispiel nicht mehr getrennt werden, aber das heißt auch, dass normale Wörter ohne Satzzeichen drann, nun 5 Buchstaben Rechts und 2 Links brauchen für eine Abtrennung. Die Möglichkeit der Abtrennung normaler Wörter wird damit erheblich eingeschränkt. Läuft dem Sinn der Silbentrennung zu wider.

Daher habe ich versucht mit meiner Tabelle die Probleme, ohne stetiges Erhöhen der Minima in den Griff zu bekommen.
sento is offline   Reply With Quote
Old 08-21-2012, 08:00 AM   #11
NASCARaddicted
Addict
NASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and grace
 
Posts: 312
Karma: 43106
Join Date: Apr 2009
Location: Germany
Device: BeBook One, Pocketbook Touch
Ich hab mir jetzt mal die hyph_de angeguckt.

Es dürfte ja kein Problem sein, bestimmte Worte selbst hinzufügen, oder? Ich meine als Beispiel: wenn man viel Karl May liest, dann sollte man eventuell "Indianer" hinzufügen. Oh, und das Wort "Pferd", den neulich hatte ich in einem ebook 2mal ein P-ferd drin ...

Was ich gerade eben auch noch herausgefunden habe: Wenn man früher ein "ck" getrennt hatte, wurde daraus ein kk, also z.B. "Zucker Zuk-ker" oder "Decke Dek-ke". Jetzt hab ich eine Seite im Internet gefunden, auf der steht, daß nach der neuen Regelung so getrennt wird: Zu-cker, De-cke ....

Was mich aber noch mehr überrascht hat: Auf einer anderen Seite wird folgendes erwähnt:

Einzelne Buchstaben am Wortbeginn können künftig abgetrennt werden, wie z.B. A-bend, o-ben, O-fen (mit Betonung auf "können", müssen aber nicht)
Also optisch sieht es auf jedenfall besser aus, wenn man so ein Wort in die nächste Zeile schiebt.

Die Sache wird langsam kompliziert.
NASCARaddicted is offline   Reply With Quote
Old 08-21-2012, 08:34 AM   #12
sento
Zealot
sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.sento ought to be getting tired of karma fortunes by now.
 
Posts: 124
Karma: 1001128
Join Date: Mar 2012
Location: Germany
Device: Pocketbook Touch 622
Meine Silbentrennungstabelle folgt derzeit strikt der Neuen Rechtschreibung. Noch. Bei der Trennung von "st" bin ich am überlegen, es zu verbieten.

Zucker wird daher "Zu-cker" getrennt. Die originale Silbentrennung von Adobe verfährt in diesem Punkt ähnlich. Des Weiteren kann die Silbentrennung das Buch nicht umschreiben. Wenn Bäcker da steht, kann man daran nichts ändern, außer das Buch umschreiben.
A-ber wird bei mir allerings nicht getrennt. Links müssen mindestens zwei Buchstaben vorhanden sein, damit der AdobeViewer trennt. Daher kann so etwas wie A-ber und o-ben nicht vorkommen. Ich habe bereits bei der Erstellung der Trennmuster vorgegeben, dass Links zwei Buchstaben vorhanden sein müssen. Ein Buchstabe ist unsinnig. Die Minima sollten deswegen immer mindestens 2 betragen.
Willst du die alte Silbentrennung muss eine Silbentrennungstabelle dafür geschaffen werden, die nach deren Regeln trennt. Das ist natürlich möglich. Ich bin allerdings zur Zeit eher am experimentieren mit der Neuen Rechtschreibung.

Du kannst ohne Probleme eigene Wörter definieren. In meiner Datei muss diese Definition allerings nach der Zeile "NEXTLEVEL" stehen. Niemals davor!
In der originalen Adobe kann nach den Minima fröhlich vor sich hin definiert werden.

Gewünschte Bruchstellen werden mit ungeraden Zahlen, unerwünschte mit geraden Zahlen gekennzeichnet. Dabei musst du auch die anderen Muster berücksichtigen. Das spezifischste Muster und die höhere Zahl gewinnen.

Nehmen wir Indianer. Wird dieses Wort falsch getrennt: Ind-ianer (ausgedacht), dann kannst du beispielsweise mit: n7d6i1a3ner, die Trennung komplett vorgeben. Durch die 6 nach dem "d" wird die Trennung dort untersagt. Die Ungeraden geben die Trennstellen an.
Alternativ kannst du in den Trennmustern das heraussuchen, was für die Trennung nach dem "d" verantwortlich ist und ändern. Allerdings ist dabei Vorsicht geboten, da du unbeabsichtigt ein Muster verändern könntest, was bei weiteren Wörtern zum Tragen kommt, die nach deiner Änderung falsch getrennt werden könnten.
Beispielsweise hatte ich heute an-onym. Nach Duden kann es so tatsächlich getrennt werden und in der meiner Silbentabelle zugrunde liegenden Wortliste ist diese Möglichkeit vorhanden. Ein Eingriff in das originale Trennmuster, wäre ungünstig. Man könnte die Wortliste verändern und die Trennmuster mit Patgen neu erstellen, aber im Gegensatz zur originalen Silbentrennung basiert meine Tabelle auf einer Wortliste von einer halben Million Einträgen. Meine komplette Freizeit der nächsten Monate würde es kosten alle Wörter zu sichten und sie auf die empfohlene Schreibweise des Dudens umzustellen. Ist mir zu viel Arbeit, für ein oder zwei Wörter, die ich anders trennen würde. Deshalb definiere ich hier schlicht, wie du vorhast die Ausnahmen in der Tabelle selbst. Hier wäre es beispielsweise: n6o7nym. Problem gelöst.

Pferd wird bei meiner Silbentrennung zumindest richtig getrennt.
Büchern in denen Indianer vorkommen, lese ich allerdings nicht oft, daher will ich bei diesem Wort keine Versprechen machen.

Last edited by sento; 08-21-2012 at 09:17 AM.
sento is offline   Reply With Quote
Old 08-21-2012, 09:00 PM   #13
NASCARaddicted
Addict
NASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and grace
 
Posts: 312
Karma: 43106
Join Date: Apr 2009
Location: Germany
Device: BeBook One, Pocketbook Touch
Quote:
Originally Posted by sento View Post
Meine Silbentrennungstabelle folgt derzeit strikt der Neuen Rechtschreibung. Noch. Bei der Trennung von "st" bin ich am überlegen, es zu verbieten.
Ja, ich hab auch noch den alten Merksatz im Kopf: Trenne nie das st, denn es tut ihm weh ...
Generell akzeptiere ich ja auch die neue Rechtschreibung (außer bei Worten wie z.B. Delphin, da bleibe ich bei der alten Schreibweise). Die meisten ebooks sind ja auch nach der neuen Rechtschreibung geschrieben (außer eventuell Bücher vom Gutenberg Project) Von daher denke ich auch, es ist sinnvoller, sich auf die neue Rechtschreibung zu konzentrieren.

Quote:
Originally Posted by sento View Post
Zucker wird daher "Zu-cker" getrennt. Die originale Silbentrennung von Adobe verfährt in diesem Punkt ähnlich. Des Weiteren kann die Silbentrennung das Buch nicht umschreiben. Wenn Bäcker da steht, kann man daran nichts ändern, außer das Buch umschreiben.
Ja, ich hab auch nicht erwartet, daß die Silbentrennung aus "ck" ein "kk" machen könnte. Aber durch die neue Rechtschreibreform hat sich das Thema ja scheinbar eh erledigt, da man "ck" selbst ja nicht mehr trennt.

Quote:
Originally Posted by sento View Post
Pferd wird bei meiner Silbentrennung zumindest richtig getrennt.
Büchern in denen Indianer vorkommen, lese ich allerdings nicht oft, daher will ich bei diesem Wort keine Versprechen machen.
Tja, ich lese zur Zeit eine Mittelalter-Romanserie, und da es damals noch keine Autos gab kommen P-ferde öfters vor. Scheinbar ist das bei der Original-Adobe Silbentrennung die einzigste Trennmöglichkeit, den ich hab schon 3 Fälle, bei denen Pferd (bzw. Pferde, Pferdewagen, etc), direkt nach dem P getrennt werden.

Ich finde es auf jeden Fall cool, daß wir (und vor allem natürlich sento) selbst so viel daran ändern können. Ich denke mal, so was ist nicht bei jedem Gerät möglich.
NASCARaddicted is offline   Reply With Quote
Old 08-22-2012, 06:02 AM   #14
sebigbos
Addict
sebigbos can illuminate an eclipsesebigbos can illuminate an eclipsesebigbos can illuminate an eclipsesebigbos can illuminate an eclipsesebigbos can illuminate an eclipsesebigbos can illuminate an eclipsesebigbos can illuminate an eclipsesebigbos can illuminate an eclipsesebigbos can illuminate an eclipsesebigbos can illuminate an eclipsesebigbos can illuminate an eclipse
 
Posts: 298
Karma: 8366
Join Date: Nov 2011
Device: PB 903 pro; PB 622
Soooo, nun, nach 2 Tagen, hab ich das alles mal durchgelesen. Sehr interessant. Vielleicht schreibt ja mal einer eine Doktor-Arbeit über die Details...

Für so Leute wie mich, die bloß Sachen wie ih-r oder D-ach loswerden wollen ohne sich um die 0,01% verbleibender Fälle zu scheren, funktioniert das hier am Anfang der system\fonts\adobe\hyph_de.dic ganz wunderbar:

Code:
UTF-8
LEFTHYPHENMIN 2
RIGHTHYPHENMIN 2

COMPOUNDLEFTHYPHENMIN 2
COMPOUNDRIGHTHYPHENMIN 2
NOHYPHEN .,;
1.1
1;1
NEXTLEVEL


PS: Windows-User: zum editieren keinen Windows-Editor verwenden, sondern z.B. notepad++ , wegen der Codierung.
sebigbos is offline   Reply With Quote
Old 08-22-2012, 07:34 AM   #15
NASCARaddicted
Addict
NASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and graceNASCARaddicted herds cats with both ease and grace
 
Posts: 312
Karma: 43106
Join Date: Apr 2009
Location: Germany
Device: BeBook One, Pocketbook Touch
Quote:
Originally Posted by sebigbos View Post
PS: Windows-User: zum editieren keinen Windows-Editor verwenden, sondern z.B. notepad++ , wegen der Codierung.
Es gibt noch was anderes, außer notepad++?

Nee, aber mal ernsthaft, ich denke notepad++ ist einer der besten Editoren, ich benutze nix anderes. Jeder, der sich mit html und/oder ebooks befaßt, sollte ihn sich mal angucken.

Das soll jetzt keine Werbung sein (das Programm ist ja kostenlos) sondern einfach nur ein Tip. Am Anfang hab ich noch mit dem original Windows Notepad gearbeitet ...
NASCARaddicted is offline   Reply With Quote
Reply

Thread Tools Search this Thread
Search this Thread:

Advanced Search

Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Ausführliche Test von Pocketbook Touch (622) bei e-leseratte.de Forkosigan PocketBook 0 05-08-2012 11:35 AM
Silbentrennung -- ich bin geschockt praetor Amazon Kindle 9 11-03-2011 08:55 AM
silbentrennung millinho Amazon Kindle 6 06-30-2011 04:06 AM
Serie anzeigen bei ePub? babe PocketBook 14 11-15-2010 07:48 AM
ePub-Voransicht bei Thalia netseeker E-Books 11 03-28-2009 09:56 AM


All times are GMT -4. The time now is 10:01 PM.


MobileRead.com is a privately owned, operated and funded community.