|
|
Thread Tools | Search this Thread |
07-22-2009, 07:42 PM | #1 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Cextra - automatisiert eBook-taugliches XHTML von Zeno.org erstellen
Worum gehts?
Zeno wird von einigen von uns genutzt um gemeinfreie Texte in eBooks zu überführen. Zeno hostet eine Unmenge an digitalisierten Werken und ist wahrscheinlich neben Gutenberg DE die umfangreichste Sammlung an gemeinfreien Werken im HTML-Format. Leider kann man das HTML von Zeno jedoch nicht einfach so weiterverarbeiten, da die Werke schön verschachtelt in Abschnitte strukturiert sind. Man muss sich also immer mehr oder weniger mühselig alles zusammenkopieren, eine Menge Ersetzungen vornehmen und die eigenen CSS-Stile einbringen um eine einigermaßen verwertbare Quelle zu erhalten. Das ging mir langsam auf den Keks und ich habe die Sache mal relativ weitgehend automatisiert. Im Anhang an diesem Post befindet sich ein Java-Programm inkl. Quellcode, welches mit einem Einstiegslink für ein Werk bei Zeno, bspw. http://www.zeno.org/Literatur/M/Vern...i+Jahre+Ferien gefüttert wird und dann aus allen Abschnitten des Werkes eine gut strukturierte XHTML-Vorlage inkl. Bildern mit externem CSS ohne Zeno-Stile erzeugt. Also prinzipiell handelt es sich bei dem Programm einfach um eine Mischung aus Spider- und Transformationsprogramm. Benutzung: Der Aufruf erfolgt aus der Kommandozeile (nein, nix Klickibunti ) und sieht grundsätzlich wie folgt aus: Code:
java -jar cextra.jar --author -a value : Author [--debug -d] : Enable debugging output [--help -h] : display help --profile -f /(zeno|gb_de|default)/ : Extraction profile to be used. --publisher -p value : Publisher --subTitle -s value : Subtitle --target -o value : Target output directory --title -t value : Title --url -u value : URL of the source webpagee Code:
java -jar cextra.jar -a "Jules Verne" -t "Zwei Jahre Ferien" -p "A. Hartleben, Wien Pest Leipzig" -u http://www.zeno.org/Literatur/M/Verne,+Jules/Romane/Zwei+Jahre+Ferien -o tmp Code:
java -jar cextra.jar -f gb_de -a "Edgar Allan Poe" -t "Die denkwürdigen Erlebnisse des Artur Gordon Pym" -u http://gutenberg.spiegel.de/?id=5&xid=4204&kapitel=1 -o tmp Code:
java -jar cextra.jar -h Wichtig ist, dass man immer die Startseite des Werks bei Zeno benutzt. Dazu geht man in das Inhaltsverzeichnis bei Zeno, sucht sich ein Werk heraus, klickt den Eintrag im Inhaltsverzeichnis an und kopiert die Adresse der damit aufgerufenen Seite. Die Adresse benutzt man dann als Eingabe für den kleinen Java-Spider. Als Resultat werden im angegeben Ausgabeverzeichnis u.a. zwei Dateien namens ebook.xhtml sowie ebook.css erzeugt. ebook.xhtml kann man dann direkt an Calibre verfüttern. Wurden beim Aufruf des Programms die Metadaten über Autor und/oder Titel und/oder Herausgeber angegeben, sollte Calibre diese Angaben korrekt beim Import übernehmen. Leider funktioniert dies bis auf den Titel nicht oder zumindest nicht immer. Das scheint allerdings ein Fehler/fehlendes Feature beim HTML-Import in Calibre zu sein. Cextra im MobileRead Dev Hub Cextra ist inzwischen auch im Mobileread Dev Hub verfügbar: https://dev.mobileread.com/trac/cextra/. Dort stehen u.a.
Ausblick: Ich habe vor, das nach einer Fehlerbereinigungsphase noch auf andere große deutschsprachige Quellen zu erweitern und auch ein Standardprofil zu hinterlegen, welches für allgemeine Webseiten genutzt werden kann. Um so weit zu kommen, benötige ich allerdings dringend ein paar Testrückmeldungen: Fehler, Ungereimtheiten, Verbesserungsvorschläge. Download: Edit 27.09.2009: Version 0.2
Edit 27.09.2009: Re-Upload - evtl. war das Zip-File nicht korrekt Edit 03.12.2009: Version 0.3
Edit 04.12.2009: Version 0.3.1/0.3.2
Edit 14.12.2009: Version 0.3.4
Last edited by netseeker; 12-13-2009 at 07:54 PM. Reason: Update auf 0.3.4 |
07-23-2009, 07:15 AM | #2 |
Reader
Posts: 818
Karma: 3522
Join Date: Apr 2009
Location: Germany
Device: Kindle 4, iPad
|
Danke, ich werde dass gleich mal ausprobieren.
|
Advert | |
|
07-23-2009, 08:11 AM | #3 |
The cake is a lie
Posts: 442
Karma: 354530
Join Date: May 2009
Device: PB 360
|
Muss der Publisher der von zeno angegebene sein oder ist das nur für die erstellte Datei wichtig?
Hab beim ersetn Durchlauf einen Fehler, erstes Kapitel funktionierte mit Unterkapitel, beim zweiten Teil kam der Fehler. Die Dateien liegen im .tmp Format vor und können mit FF geöffnet werden, sehen genauso aus, wie eine "Seite speichern unter" HTML Datei. Unten die Fehlermeldung, könnte auch n' Verbindungsabbruch gewesen sein. Zweiter Durchlauf ist bereits beim ersten Unterkapitel zweiter Teil. PS.: Anna Karenina war ein schlechtes Testobjekt, dauert mit ISDN viel zu lange Last edited by Targor; 07-23-2009 at 08:21 AM. |
07-23-2009, 08:26 AM | #4 | ||
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Quote:
Quote:
Die "tmp-Dateien" sind lediglich Abfallprodukte vom Spider beim Ermitteln der Links für die einzelnen Abschnitte. Die werden nichtmal ausgewertet. Ich parse jeden Abschnitt in die Datei index.html, welche dann nach dem parsen wieder gelöscht wird - es sei denn es tritt ein Fehler auf. |
||
07-23-2009, 08:27 AM | #5 |
Reader
Posts: 818
Karma: 3522
Join Date: Apr 2009
Location: Germany
Device: Kindle 4, iPad
|
Ich habe es jetzt mal ausprobiert und es funktioniert super. Es werden ja sogar Fußnoten übernommen.
Last edited by Josch91; 07-23-2009 at 08:36 AM. |
Advert | |
|
07-23-2009, 08:28 AM | #6 |
The cake is a lie
Posts: 442
Karma: 354530
Join Date: May 2009
Device: PB 360
|
Du warst zu schnell hab die Vermutung in einem Edit geäußert nachdem ich die Meldung durchgelesen habe, im Augenblick ist er schon wieder bei Teil 6 von 8, ich editiere das Ergebnis.
Edit: Interessant, jetzt kam am Ende "ebook Download finished" soweit so gut. Im Ordner sind noch die tmp Dateien vom ersten versuch, dazu wie angekündigt .xhtml und .css, jedoch besteht die .xhtml Datei aus Titel, dem Inhalt des ersten Kapitel (in dem Fall zwei Zeilen) und die anderen Kapitel werden lediglich aufgezählt, ohne Inhalt. (nur die Kapitel erster Ordnung, die zweiter Ordnung nicht) Last edited by Targor; 07-23-2009 at 08:47 AM. |
07-23-2009, 08:40 AM | #7 |
Reader
Posts: 818
Karma: 3522
Join Date: Apr 2009
Location: Germany
Device: Kindle 4, iPad
|
Ich habe die xhtml Datei jetzt mal in calibre versucht in epub zu konvertieren. Leider kommt immer eine Fehlermeldung. Anscheinend kann Calibre die Dateien nicht verarbeiten wenn sich ein Umlaut im Titel befindet (Wenn ich das "ä" durch "ae" ersetze funktioniert es). Vielleicht kann dass ja mal jemand nachprüfen.
|
07-23-2009, 08:58 AM | #8 |
The cake is a lie
Posts: 442
Karma: 354530
Join Date: May 2009
Device: PB 360
|
habe mal ein kurzes Beispiel genommen, ein Zweikapitel Werk von Novalis, ohne Unterkapitel. Download und Konvertierung funktionieren perfekt, werde jetzt nochmal sehen, wie es mit komplexeren Titeln aussieht.
Mehrstufig schafft Probleme, hier werden alle unten angezeigte Unterkapitel ausgelassen und sofort der Rechtslehre zweiter Teil angefangen. Last edited by Targor; 07-23-2009 at 09:12 AM. |
07-23-2009, 10:55 AM | #9 | |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Quote:
|
|
07-23-2009, 03:56 PM | #10 |
The cake is a lie
Posts: 442
Karma: 354530
Join Date: May 2009
Device: PB 360
|
Probier Anna Karenina aus, da erkennt er die zweite Stufe nicht, zumindest in allen drei Versuchen meinerseits nicht.
|
07-23-2009, 04:22 PM | #11 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
|
07-25-2009, 04:55 AM | #12 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
So ok, habe es gefunden. Das Problem sind u.a. zu tiefe, erzeugte Pfade mit zu langen Dateinamen. Der Spider (HTMLParser), den ich unter der Decke benutze, zeigt ein paar Schwächen - werde ihn wohl austauschen müssen, da ich da mit Änderungen und Bugfixes an dem Teil gar nicht fertig werde.
Muss heute leider noch ins Geschäft und werde dann heute Abend dran weiterarbeiten. |
07-26-2009, 07:20 PM | #13 |
sleepless reader
Posts: 4,763
Karma: 615547
Join Date: Jan 2008
Location: Germany, near Stuttgart
Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3
|
Endlich die neue Version an den Erföffnungspost angehängt.
Die mehrstufig aufbereiteten Werke wie bspw. Anna Karenina oder Krieg und Frieden werden jetzt ebenfalls unterstützt. |
07-27-2009, 03:25 AM | #14 |
Early Adopter
Posts: 3,161
Karma: 3534948
Join Date: Oct 2008
Location: hier und da
Device: einige
|
|
07-27-2009, 08:51 AM | #15 |
The cake is a lie
Posts: 442
Karma: 354530
Join Date: May 2009
Device: PB 360
|
Weiter geht's leider immer noch nicht. Test Kants Metaphysik der Sitten (der Typ hat grundsätzlich zu viele Kapitel...) Die ersten werden übernommen, aber hier wird nichts von den angezeigten Kapitel übernommen sondern zum zweiten Teil weitergegangen.
PS.: Ich hoffe du siehst mich hier nicht als dauernden Nörgler, ich finde es toll, dass du dir die Arbeit machst und wenn ich könnte, würde ich dir helfen |
Tags |
ebook erstellung |
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
xmlns="http://www.w3.org/1999/xhtml | paulpeer | Sigil | 2 | 03-21-2010 08:57 AM |
.docx inkl Fußnoten -> Ebook erstellen | Targor | Software | 6 | 01-06-2010 12:56 PM |
zeno.org - rechtliche Unsicherheit | Nergal | Deutsches Forum | 1 | 12-05-2009 02:11 PM |
The-EBook.org, Russian Community | nrapallo | Fictionwise eBookwise | 2 | 04-12-2008 04:19 PM |