Cextra - automatisiert eBook-taugliches XHTML von Zeno.org erstellen

netseeker · 07-22-2009, 06:42 PM

Worum gehts?

Zeno wird von einigen von uns genutzt um gemeinfreie Texte in eBooks zu überführen. Zeno hostet eine Unmenge an digitalisierten Werken und ist wahrscheinlich neben Gutenberg DE die umfangreichste Sammlung an gemeinfreien Werken im HTML-Format.

Leider kann man das HTML von Zeno jedoch nicht einfach so weiterverarbeiten, da die Werke schön verschachtelt in Abschnitte strukturiert sind. Man muss sich also immer mehr oder weniger mühselig alles zusammenkopieren, eine Menge Ersetzungen vornehmen und die eigenen CSS-Stile einbringen um eine einigermaßen verwertbare Quelle zu erhalten.

Das ging mir langsam auf den Keks und ich habe die Sache mal relativ weitgehend automatisiert.

Im Anhang an diesem Post befindet sich ein Java-Programm inkl. Quellcode, welches mit einem Einstiegslink für ein Werk bei Zeno, bspw. http://www.zeno.org/Literatur/M/Vern...i+Jahre+Ferien gefüttert wird und dann aus allen Abschnitten des Werkes eine gut strukturierte XHTML-Vorlage inkl. Bildern mit externem CSS ohne Zeno-Stile erzeugt. Also prinzipiell handelt es sich bei dem Programm einfach um eine Mischung aus Spider- und Transformationsprogramm.

Benutzung:

Der Aufruf erfolgt aus der Kommandozeile (nein, nix Klickibunti

) und sieht grundsätzlich wie folgt aus:

Code:

java -jar cextra.jar
	--author -a value : Author
	[--debug -d] : Enable debugging output
	[--help -h] : display help
	--profile -f /(zeno|gb_de|default)/ : Extraction profile to be used.
	--publisher -p value : Publisher
	--subTitle -s value : Subtitle
	--target -o value : Target output directory
	--title -t value : Title
	--url -u value : URL of the source webpagee

Also bspw. für Zeno:

Code:

java -jar cextra.jar -a "Jules Verne" -t "Zwei Jahre Ferien" -p "A. Hartleben, Wien Pest Leipzig" -u http://www.zeno.org/Literatur/M/Verne,+Jules/Romane/Zwei+Jahre+Ferien -o tmp

und für GB_DE:

Code:

java -jar cextra.jar -f gb_de -a "Edgar Allan Poe" -t "Die denkwürdigen Erlebnisse des Artur Gordon Pym" -u http://gutenberg.spiegel.de/?id=5&xid=4204&kapitel=1 -o tmp

Eine Übersicht der möglichen Optionen erhält man via:

Code:

java -jar cextra.jar -h

Es wird Java 6 benötigt.

Wichtig ist, dass man immer die Startseite des Werks bei Zeno benutzt. Dazu geht man in das Inhaltsverzeichnis bei Zeno, sucht sich ein Werk heraus, klickt den Eintrag im Inhaltsverzeichnis an und kopiert die Adresse der damit aufgerufenen Seite. Die Adresse benutzt man dann als Eingabe für den kleinen Java-Spider.

Als Resultat werden im angegeben Ausgabeverzeichnis u.a. zwei Dateien namens ebook.xhtml sowie ebook.css erzeugt. ebook.xhtml kann man dann direkt an Calibre verfüttern. Wurden beim Aufruf des Programms die Metadaten über Autor und/oder Titel und/oder Herausgeber angegeben, sollte Calibre diese Angaben korrekt beim Import übernehmen. Leider funktioniert dies bis auf den Titel nicht oder zumindest nicht immer. Das scheint allerdings ein Fehler/fehlendes Feature beim HTML-Import in Calibre zu sein.

Cextra im MobileRead Dev Hub

Cextra ist inzwischen auch im Mobileread Dev Hub verfügbar: https://dev.mobileread.com/trac/cextra/. Dort stehen u.a.

Download von Releases und Sourcen
SVN Sourcecode Repository
Ticketsystem
WIKI

zur Verfügung. Der Sourcecode kann via SVN aus dem Repository https://dev.mobileread.com/svn/cextra/ ausgecheckt werden.

Ausblick:

Ich habe vor, das nach einer Fehlerbereinigungsphase noch auf andere große deutschsprachige Quellen zu erweitern und auch ein Standardprofil zu hinterlegen, welches für allgemeine Webseiten genutzt werden kann.

Um so weit zu kommen, benötige ich allerdings dringend ein paar Testrückmeldungen: Fehler, Ungereimtheiten, Verbesserungsvorschläge.

Download:

>> Download Cextra 0.3.4 <<

Edit 27.09.2009: Version 0.2

Unterstützung für mehrstufig aufbereitete Werke wie Anna Karenina oder Krieg und Frieden
CSS 1+2 kompatibler Stil für Fußnoten
Übernahme von Text bzw. Überschriften und Bildern auf untergeordneten Navigationsseiten

Edit 27.09.2009: Re-Upload - evtl. war das Zip-File nicht korrekt

Edit 03.12.2009: Version 0.3

Fehlerbehebung für Encoding-Probleme (falsche Abbildung von Sonderzeichen und Umlauten, wenn das Quell-HTML nicht 100% ok ist)

Edit 04.12.2009: Version 0.3.1/0.3.2

Fehlerbehebung für Encoding-Probleme, falls die verwendete Konsole nicht per Default UTF-8 verwendet.
Was wäre eine Fehlerbehebung ohne dabei einen neuen Fehler einzubauen? 0.3.2 behebt einen neuen Fehler beim Speichern der finalen "ebook.xhtml".

Edit 14.12.2009: Version 0.3.4

Fix für einfache Zeno-Texte ohne tiefere Navigationsstruktur.
Fix bei der Erstetzung spezifischer CSS-Klassen und -Stile, falls sich diese über mehrere Zeilen erstrecken
Untersützung für Stile mit Laufweitenregulierung bei Zeno
Seit 0.3.3 Unterstützung von Gutenberg_DE

Josch91 · 07-23-2009, 06:15 AM

Danke, ich werde dass gleich mal ausprobieren.

Targor · 07-23-2009, 07:11 AM

Muss der Publisher der von zeno angegebene sein oder ist das nur für die erstellte Datei wichtig?

Hab beim ersetn Durchlauf einen Fehler, erstes Kapitel funktionierte mit Unterkapitel, beim zweiten Teil kam der Fehler. Die Dateien liegen im .tmp Format vor und können mit FF geöffnet werden, sehen genauso aus, wie eine "Seite speichern unter" HTML Datei. Unten die Fehlermeldung, könnte auch n' Verbindungsabbruch gewesen sein.

Zweiter Durchlauf ist bereits beim ersten Unterkapitel zweiter Teil.

PS.: Anna Karenina war ein schlechtes Testobjekt, dauert mit ISDN viel zu lange

netseeker · 07-23-2009, 07:26 AM

Quote:

Originally Posted by Targor

Muss der Publisher der von zeno angegebene sein oder ist das nur für die erstellte Datei wichtig?

Publisher, Autor, Titel und ggfs. Untertitel sind nur für die erstellte Datei wichtig.

Quote:

Originally Posted by Targor

Hab beim ersetn Durchlauf einen Fehler, erstes Kapitel funktionierte mit Unterkapitel, beim zweiten Teil kam der Fehler. Die Dateien liegen im .tmp Format vor und können mit FF geöffnet werden, sehen genauso aus, wie eine "Seite speichern unter" HTML Datei. Unten die Fehlermeldung.

Zweiter Durchlauf ist bereits beim ersten Unterkapitel zweiter Teil.

Kannst Du, wenn der Fehler auftritt, den benutzten Link via Browser noch erreichen? Das sieht so aus, als ob entweder deine Internetverbindung "wackelt" oder Zeno ab und zu mal weg ist bzw. keine Verbindung mehr annimmt. Ich teste heute Abend mal ebenfalls mit Anna Karenina um sicher zu gehen, dass es nicht doch irgendwas mit diesem speziellen Buch zu tun hat.

Die "tmp-Dateien" sind lediglich Abfallprodukte vom Spider beim Ermitteln der Links für die einzelnen Abschnitte. Die werden nichtmal ausgewertet. Ich parse jeden Abschnitt in die Datei index.html, welche dann nach dem parsen wieder gelöscht wird - es sei denn es tritt ein Fehler auf.

Josch91 · 07-23-2009, 07:27 AM

Ich habe es jetzt mal ausprobiert und es funktioniert super. Es werden ja sogar Fußnoten übernommen.

Targor · 07-23-2009, 07:28 AM

Du warst zu schnell

hab die Vermutung in einem Edit geäußert nachdem ich die Meldung durchgelesen habe, im Augenblick ist er schon wieder bei Teil 6 von 8, ich editiere das Ergebnis.

Edit: Interessant, jetzt kam am Ende "ebook Download finished" soweit so gut. Im Ordner sind noch die tmp Dateien vom ersten versuch, dazu wie angekündigt .xhtml und .css, jedoch besteht die .xhtml Datei aus Titel, dem Inhalt des ersten Kapitel (in dem Fall zwei Zeilen) und die anderen Kapitel werden lediglich aufgezählt, ohne Inhalt. (nur die Kapitel erster Ordnung, die zweiter Ordnung nicht)

Josch91 · 07-23-2009, 07:40 AM

Ich habe die xhtml Datei jetzt mal in calibre versucht in epub zu konvertieren. Leider kommt immer eine Fehlermeldung. Anscheinend kann Calibre die Dateien nicht verarbeiten wenn sich ein Umlaut im Titel befindet (Wenn ich das "ä" durch "ae" ersetze funktioniert es). Vielleicht kann dass ja mal jemand nachprüfen.

Targor · 07-23-2009, 07:58 AM

habe mal ein kurzes Beispiel genommen, ein Zweikapitel Werk von Novalis, ohne Unterkapitel. Download und Konvertierung funktionieren perfekt, werde jetzt nochmal sehen, wie es mit komplexeren Titeln aussieht.

Mehrstufig schafft Probleme, hier werden alle unten angezeigte Unterkapitel ausgelassen und sofort der Rechtslehre zweiter Teil angefangen.

netseeker · 07-23-2009, 09:55 AM

Quote:

Originally Posted by Targor

Mehrstufig schafft Probleme, hier werden alle unten angezeigte Unterkapitel ausgelassen und sofort der Rechtslehre zweiter Teil angefangen.

Zweistufig hatte ich getestet, das müsste eigentlich funktionieren. Mehr wie zwei Stufen schaue ich mir heute Abend an, wahrscheinlich verwendet Zeno da nochmals unterschiedliche Stile, so dass die automatische Erkennung da nicht klappt.

Targor · 07-23-2009, 02:56 PM

Probier Anna Karenina aus, da erkennt er die zweite Stufe nicht, zumindest in allen drei Versuchen meinerseits nicht.

netseeker · 07-23-2009, 03:22 PM

Quote:

Originally Posted by Targor

Probier Anna Karenina aus, da erkennt er die zweite Stufe nicht, zumindest in allen drei Versuchen meinerseits nicht.

Bin bereits dran... Ich hoffe, dass ich das heute Abend noch für alle Fälle hinbekomme.

netseeker · 07-25-2009, 03:55 AM

So ok, habe es gefunden. Das Problem sind u.a. zu tiefe, erzeugte Pfade mit zu langen Dateinamen. Der Spider (HTMLParser), den ich unter der Decke benutze, zeigt ein paar Schwächen - werde ihn wohl austauschen müssen, da ich da mit Änderungen und Bugfixes an dem Teil gar nicht fertig werde.

Muss heute leider noch ins Geschäft und werde dann heute Abend dran weiterarbeiten.

netseeker · 07-26-2009, 06:20 PM

Endlich die neue Version an den Erföffnungspost angehängt.

Die mehrstufig aufbereiteten Werke wie bspw. Anna Karenina oder Krieg und Frieden werden jetzt ebenfalls unterstützt.

Marc_liest · 07-27-2009, 02:25 AM

Quote:

Originally Posted by netseeker

Endlich die neue Version an den Erföffnungspost angehängt.

Danke!

Targor · 07-27-2009, 07:51 AM

Weiter geht's leider immer noch nicht. Test Kants Metaphysik der Sitten (der Typ hat grundsätzlich zu viele Kapitel...) Die ersten werden übernommen, aber hier wird nichts von den angezeigten Kapitel übernommen sondern zum zweiten Teil weitergegangen.

PS.: Ich hoffe du siehst mich hier nicht als dauernden Nörgler, ich finde es toll, dass du dir die Arbeit machst und wenn ich könnte, würde ich dir helfen

07-22-2009, 06:42 PM	#1
netseeker sleepless reader Posts: 4,763 Karma: 615547 Join Date: Jan 2008 Location: Germany, near Stuttgart Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3	Cextra - automatisiert eBook-taugliches XHTML von Zeno.org erstellen Worum gehts? Zeno wird von einigen von uns genutzt um gemeinfreie Texte in eBooks zu überführen. Zeno hostet eine Unmenge an digitalisierten Werken und ist wahrscheinlich neben Gutenberg DE die umfangreichste Sammlung an gemeinfreien Werken im HTML-Format. Leider kann man das HTML von Zeno jedoch nicht einfach so weiterverarbeiten, da die Werke schön verschachtelt in Abschnitte strukturiert sind. Man muss sich also immer mehr oder weniger mühselig alles zusammenkopieren, eine Menge Ersetzungen vornehmen und die eigenen CSS-Stile einbringen um eine einigermaßen verwertbare Quelle zu erhalten. Das ging mir langsam auf den Keks und ich habe die Sache mal relativ weitgehend automatisiert. Im Anhang an diesem Post befindet sich ein Java-Programm inkl. Quellcode, welches mit einem Einstiegslink für ein Werk bei Zeno, bspw. http://www.zeno.org/Literatur/M/Vern...i+Jahre+Ferien gefüttert wird und dann aus allen Abschnitten des Werkes eine gut strukturierte XHTML-Vorlage inkl. Bildern mit externem CSS ohne Zeno-Stile erzeugt. Also prinzipiell handelt es sich bei dem Programm einfach um eine Mischung aus Spider- und Transformationsprogramm. Benutzung: Der Aufruf erfolgt aus der Kommandozeile (nein, nix Klickibunti ) und sieht grundsätzlich wie folgt aus: Code: java -jar cextra.jar --author -a value : Author [--debug -d] : Enable debugging output [--help -h] : display help --profile -f /(zeno\|gb_de\|default)/ : Extraction profile to be used. --publisher -p value : Publisher --subTitle -s value : Subtitle --target -o value : Target output directory --title -t value : Title --url -u value : URL of the source webpagee Also bspw. für Zeno: Code: java -jar cextra.jar -a "Jules Verne" -t "Zwei Jahre Ferien" -p "A. Hartleben, Wien Pest Leipzig" -u http://www.zeno.org/Literatur/M/Verne,+Jules/Romane/Zwei+Jahre+Ferien -o tmp und für GB_DE: Code: java -jar cextra.jar -f gb_de -a "Edgar Allan Poe" -t "Die denkwürdigen Erlebnisse des Artur Gordon Pym" -u http://gutenberg.spiegel.de/?id=5&xid=4204&kapitel=1 -o tmp Eine Übersicht der möglichen Optionen erhält man via: Code: java -jar cextra.jar -h Es wird Java 6 benötigt. Wichtig ist, dass man immer die Startseite des Werks bei Zeno benutzt. Dazu geht man in das Inhaltsverzeichnis bei Zeno, sucht sich ein Werk heraus, klickt den Eintrag im Inhaltsverzeichnis an und kopiert die Adresse der damit aufgerufenen Seite. Die Adresse benutzt man dann als Eingabe für den kleinen Java-Spider. Als Resultat werden im angegeben Ausgabeverzeichnis u.a. zwei Dateien namens ebook.xhtml sowie ebook.css erzeugt. ebook.xhtml kann man dann direkt an Calibre verfüttern. Wurden beim Aufruf des Programms die Metadaten über Autor und/oder Titel und/oder Herausgeber angegeben, sollte Calibre diese Angaben korrekt beim Import übernehmen. Leider funktioniert dies bis auf den Titel nicht oder zumindest nicht immer. Das scheint allerdings ein Fehler/fehlendes Feature beim HTML-Import in Calibre zu sein. Cextra im MobileRead Dev Hub Cextra ist inzwischen auch im Mobileread Dev Hub verfügbar: https://dev.mobileread.com/trac/cextra/. Dort stehen u.a. Download von Releases und Sourcen SVN Sourcecode Repository Ticketsystem WIKI zur Verfügung. Der Sourcecode kann via SVN aus dem Repository https://dev.mobileread.com/svn/cextra/ ausgecheckt werden. Ausblick: Ich habe vor, das nach einer Fehlerbereinigungsphase noch auf andere große deutschsprachige Quellen zu erweitern und auch ein Standardprofil zu hinterlegen, welches für allgemeine Webseiten genutzt werden kann. Um so weit zu kommen, benötige ich allerdings dringend ein paar Testrückmeldungen: Fehler, Ungereimtheiten, Verbesserungsvorschläge. Download: >> Download Cextra 0.3.4 << Edit 27.09.2009: Version 0.2 Unterstützung für mehrstufig aufbereitete Werke wie Anna Karenina oder Krieg und Frieden CSS 1+2 kompatibler Stil für Fußnoten Übernahme von Text bzw. Überschriften und Bildern auf untergeordneten Navigationsseiten Edit 27.09.2009: Re-Upload - evtl. war das Zip-File nicht korrekt Edit 03.12.2009: Version 0.3 Fehlerbehebung für Encoding-Probleme (falsche Abbildung von Sonderzeichen und Umlauten, wenn das Quell-HTML nicht 100% ok ist) Edit 04.12.2009: Version 0.3.1/0.3.2 Fehlerbehebung für Encoding-Probleme, falls die verwendete Konsole nicht per Default UTF-8 verwendet. Was wäre eine Fehlerbehebung ohne dabei einen neuen Fehler einzubauen? 0.3.2 behebt einen neuen Fehler beim Speichern der finalen "ebook.xhtml". Edit 14.12.2009: Version 0.3.4 Fix für einfache Zeno-Texte ohne tiefere Navigationsstruktur. Fix bei der Erstetzung spezifischer CSS-Klassen und -Stile, falls sich diese über mehrere Zeilen erstrecken Untersützung für Stile mit Laufweitenregulierung bei Zeno Seit 0.3.3 Unterstützung von Gutenberg_DE Last edited by netseeker; 12-13-2009 at 06:54 PM. Reason: Update auf 0.3.4

07-23-2009, 07:11 AM	#3
Targor The cake is a lie Posts: 442 Karma: 354530 Join Date: May 2009 Device: PB 360	Muss der Publisher der von zeno angegebene sein oder ist das nur für die erstellte Datei wichtig? Hab beim ersetn Durchlauf einen Fehler, erstes Kapitel funktionierte mit Unterkapitel, beim zweiten Teil kam der Fehler. Die Dateien liegen im .tmp Format vor und können mit FF geöffnet werden, sehen genauso aus, wie eine "Seite speichern unter" HTML Datei. Unten die Fehlermeldung, könnte auch n' Verbindungsabbruch gewesen sein. Zweiter Durchlauf ist bereits beim ersten Unterkapitel zweiter Teil. PS.: Anna Karenina war ein schlechtes Testobjekt, dauert mit ISDN viel zu lange Attached Thumbnails Last edited by Targor; 07-23-2009 at 07:21 AM.

07-23-2009, 07:27 AM	#5
Josch91 Reader Posts: 818 Karma: 3522 Join Date: Apr 2009 Location: Germany Device: Kindle 4, iPad	Ich habe es jetzt mal ausprobiert und es funktioniert super. Es werden ja sogar Fußnoten übernommen. Last edited by Josch91; 07-23-2009 at 07:36 AM.

07-23-2009, 07:28 AM	#6
Targor The cake is a lie Posts: 442 Karma: 354530 Join Date: May 2009 Device: PB 360	Du warst zu schnell hab die Vermutung in einem Edit geäußert nachdem ich die Meldung durchgelesen habe, im Augenblick ist er schon wieder bei Teil 6 von 8, ich editiere das Ergebnis. Edit: Interessant, jetzt kam am Ende "ebook Download finished" soweit so gut. Im Ordner sind noch die tmp Dateien vom ersten versuch, dazu wie angekündigt .xhtml und .css, jedoch besteht die .xhtml Datei aus Titel, dem Inhalt des ersten Kapitel (in dem Fall zwei Zeilen) und die anderen Kapitel werden lediglich aufgezählt, ohne Inhalt. (nur die Kapitel erster Ordnung, die zweiter Ordnung nicht) Last edited by Targor; 07-23-2009 at 07:47 AM.

07-23-2009, 07:58 AM	#8
Targor The cake is a lie Posts: 442 Karma: 354530 Join Date: May 2009 Device: PB 360	habe mal ein kurzes Beispiel genommen, ein Zweikapitel Werk von Novalis, ohne Unterkapitel. Download und Konvertierung funktionieren perfekt, werde jetzt nochmal sehen, wie es mit komplexeren Titeln aussieht. Mehrstufig schafft Probleme, hier werden alle unten angezeigte Unterkapitel ausgelassen und sofort der Rechtslehre zweiter Teil angefangen. Last edited by Targor; 07-23-2009 at 08:12 AM.

07-23-2009, 06:15 AM	#2
Josch91 Reader Posts: 818 Karma: 3522 Join Date: Apr 2009 Location: Germany Device: Kindle 4, iPad	Danke, ich werde dass gleich mal ausprobieren.

07-23-2009, 07:40 AM	#7
Josch91 Reader Posts: 818 Karma: 3522 Join Date: Apr 2009 Location: Germany Device: Kindle 4, iPad	Ich habe die xhtml Datei jetzt mal in calibre versucht in epub zu konvertieren. Leider kommt immer eine Fehlermeldung. Anscheinend kann Calibre die Dateien nicht verarbeiten wenn sich ein Umlaut im Titel befindet (Wenn ich das "ä" durch "ae" ersetze funktioniert es). Vielleicht kann dass ja mal jemand nachprüfen.

07-23-2009, 02:56 PM	#10
Targor The cake is a lie Posts: 442 Karma: 354530 Join Date: May 2009 Device: PB 360	Probier Anna Karenina aus, da erkennt er die zweite Stufe nicht, zumindest in allen drei Versuchen meinerseits nicht.

07-25-2009, 03:55 AM	#12
netseeker sleepless reader Posts: 4,763 Karma: 615547 Join Date: Jan 2008 Location: Germany, near Stuttgart Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3	So ok, habe es gefunden. Das Problem sind u.a. zu tiefe, erzeugte Pfade mit zu langen Dateinamen. Der Spider (HTMLParser), den ich unter der Decke benutze, zeigt ein paar Schwächen - werde ihn wohl austauschen müssen, da ich da mit Änderungen und Bugfixes an dem Teil gar nicht fertig werde. Muss heute leider noch ins Geschäft und werde dann heute Abend dran weiterarbeiten.

07-26-2009, 06:20 PM	#13
netseeker sleepless reader Posts: 4,763 Karma: 615547 Join Date: Jan 2008 Location: Germany, near Stuttgart Device: Sony PRS-505, PB 360° & 302, nook wi-fi, Kindle 3	Endlich die neue Version an den Erföffnungspost angehängt. Die mehrstufig aufbereiteten Werke wie bspw. Anna Karenina oder Krieg und Frieden werden jetzt ebenfalls unterstützt.

07-27-2009, 07:51 AM	#15
Targor The cake is a lie Posts: 442 Karma: 354530 Join Date: May 2009 Device: PB 360	Weiter geht's leider immer noch nicht. Test Kants Metaphysik der Sitten (der Typ hat grundsätzlich zu viele Kapitel...) Die ersten werden übernommen, aber hier wird nichts von den angezeigten Kapitel übernommen sondern zum zweiten Teil weitergegangen. PS.: Ich hoffe du siehst mich hier nicht als dauernden Nörgler, ich finde es toll, dass du dir die Arbeit machst und wenn ich könnte, würde ich dir helfen

Similar Threads
Thread	Thread Starter	Forum	Replies	Last Post
xmlns="http://www.w3.org/1999/xhtml	paulpeer	Sigil	2	03-21-2010 07:57 AM
.docx inkl Fußnoten -> Ebook erstellen	Targor	Software	6	01-06-2010 11:56 AM
zeno.org - rechtliche Unsicherheit	Nergal	Deutsches Forum	1	12-05-2009 01:11 PM
The-EBook.org, Russian Community	nrapallo	Fictionwise eBookwise	2	04-12-2008 03:19 PM

Advert

Advert