View Single Post
Old 11-23-2010, 12:59 PM   #578
Moredread
Addict
Moredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-booksMoredread has learned how to read e-books
 
Posts: 202
Karma: 754
Join Date: Nov 2009
Device: Trekstore Pyrus
Quote:
Originally Posted by RumpelStielz View Post
PDF ist ein Format, welches darauf spezialisiert ist, Seiten(!) beliebigen Inhalts so zu beschreiben, daß sie auf unterschiedlichen Plattformen möglichst gleich aussehend darstellbar sind. PDF kennt keine Absätze, Überschriften, Fußnoten und dergleichen, nur Seitenelemente, die exakt plaziert und vom Aussehen her genau beschrieben sind. Text ist in PDF nur ein Element unter vielen und wird in der PDF-Datei teilweise in Form einzelner Buchstaben ohne logischen Zusammenhang (nur mit Positionierung) gespeichert.

Daraus Fließtext zu machen, ist reine Spökenkiekerei! Was für den Menschen einfach aussieht, ist für die Maschine extrem schwierig, weil sie nur aufgrund des Seitenaufbaus erkennen muß, welche Bedeutung die dargestellten Zeichen haben (Absatz, Überschrift, Fußnote etc.) OCR-Software macht so was relativ gut, aber euch nicht perfekt. Und ein Reader ist kein OCR-System. Es hat schon seinen Grund, warum es spezielle E-Book-Format gibt.

Für PDF-Leser gibt es nur 2 Möglichkeiten: Umformatieren mit händischer Nacharbeit auf eine Reader-geeignete Seitengröße oder einen Reader, der von der Auflösung (nicht: Größe!) her in der Lage ist, 1 A4- bzw. Legal-Seite vollständig und lesbar darzustellen.
Du wirst lachen, aber das weiß ich alles schon. Im Gegensatz zu Dir bin ich aber offensichtlich besser informiert, denn ich weiß, das es winzig kleine C-Programme gibt, die PDF unter Linuxoiden Systemen in Text verwandeln können. Klappt natürlich nur bei Dateien, die Fließtext darstellen; ernsthaft formatierter Text (bspw. Text mit Spalten und Grafiken mit Untertiteln) ergeben da einen seltsamen Kauderwelsch - aber genau das habe ich ja ausgeschlossen. So schwierig, wie von Dir behauptet, kann es also gar nicht sein, wobei ich auch gestehen muss, das die von Dir geschilderte Darstellung (so unvollständig sie auch ist) in meinen Augen kein Problem darstellt. Ich konnte jedenfalls schon wesentlich komplexere Probleme mit einer selbst erstellten Software lösen, und ich bin nicht mal ein Programmierer.

Da die im Pocketbook verwendete Software offensichtlich imstande ist, aus einer Seite mehrere Seiten zu machen und zudem noch versteht, das Wörter zusammengehören und die Reihenfolge durch die Position in den Zeilen bestimmt wird und somit auch in der Zeile umbrechen kann, wäre es ein minimaler Aufwand, das auch gleich mit der nächsten Seite zu machen, um so dafür zu sorgen, das an der Bruchstelle der letzten Seite im leeren Bereich der Anfang der nächsten Seite zu sehen ist. Das war meine Hauptkritik am PDF-Reader, was den Aufbau der Seiten betrifft. Dieses Problem ist nicht unlösbar. Auf Geräten mit mehr Kapazität lassen sich sogar formatierte Seiten reflowen. Das vorher genannte iPad wäre so ein Gerät.

Also erzähl hier bitte nicht, das es unmöglich wäre. Das ist schlicht und ergreifend falsch. Vermutlich gäbe es schon längst jemand, der das reinprogrammiert hätte. Aber leider Gottes ist die vielgerühmte offene Ausrichtung des Pocketbooks durch die leider ausschließlich Ukrainische Dokumentation ein wenig limitiert. Sonst gäbe es vermutlich sogar schon das eine oder andere Tool von mir. Aber auf Try & Error programmieren macht nicht so viel Spaß.
Moredread is offline   Reply With Quote