Gutenberg_DE

Nergal · 06-13-2008, 12:27 PM

Update: 20. Juni 2008 - Wer es schon heruntergeladen hat: am besten nochmal. Version 5b ist fertig - Features in den folgenden Posts

Ich weiß nicht wie es Euch auf den Gutenberg-DE-Seiten so ergeht, mich hat das zerschnippselte HTML schon immer gestört

. Und derzeit ohne iLiad zum Lesen und Spielen und Arbeiten (es gibt sie doch die drei Wünsche auf einmal!) habe ich mich mal darangesetzt einen kleinen Grabber zu basteln.

gbde.py nimmt auf der Befehlszeile eine in Anführungszeichen eingebundene volle url auf.

Code:

python gbde.py "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapitel=1&cHash=6764077ba5#gb_found"

Dann dauert es ein kleines bisl, je nachdem wie groß das Buch ist und schwupp hat man eine fertige HTML-Datei. Diese ist so vorbereitet, daß man sie mit mobipocket (mobigen.exe) umwandeln kann.

Ohne mobipocket-reader ist es für mich gerade nicht möglich zu testen, wie die umlaute und so rüber kommen. Wie immer ist Rückmeldung willkommen für Fehler, Ideen, usw. usf.

=== ACHTUNG ===
Dieses Skript darf man nur zu privaten Zwecken einsetzen. Das Copyright auf Gutenberg-DE ist ein bisl verschroben: die Texte an sich wären frei verfügbar, aber da ja ein bisl am Layout gearbeitet wurde von Hille & Partner ist das, was auf den Servern dort liegt doch wieder nicht ganz so frei. Man darf keine Archive davon veröffentlichen oder sonstwie über den privaten Gebrauch hinaus was damit anstellen. Deshalb habe ich den Copyright-Vermerk in jedes Buch mit eingebaut. *Seufz*

Ich habe aber nicht finden können, daß es nicht erlaubt sein soll einen *ähem*

speziellen Browser zu verwenden, der die Seiten ein bisl von Ballast befreit und neu kompiliert

.
=====ENDE ACHTUNG =====

Also wenn Ihr was von Gutenberg-DE lesen wollt - büddeschön. Muß halt jeder für sich selber herunterladen und in mobipocket oder mit htmldoc in PDF umwandeln.

Viel Spaß
Nergal

P.S.: Die Url im Beispiel ist die Autobiographie von Schliemann

17+7+13+7

Nergal · 06-14-2008, 08:51 AM

Die neue Version (alte ist einfach überschrieben) hat folgende Zusatzfeatures:

Bilder werden heruntergeladen, in einen Ordner verfrachtet und verlinkt.
Fußnoten werden kreuzverlinkt und ans Ende des Kapitels gelegt - von dort kommt man zum Text zurück.
alle Benutzerhinweise auf deutsch - macht ja Sinn
Quellcode komplett umstrukturiert und gesäubert (sollte lesbar sein)

Noch ein bisl unsauber ist, daß für jedes Buch erstmal ein Ordner mit Unterordner 'images' angelegt wird, wenn das leer bleibt, einfach alles bis auf die html-Datei löschen. Wenn es gar zu sehr nervt, Bescheid sagen, dann bastel ich da noch was.

Nergal · 06-15-2008, 01:42 PM

Und die 3. Version ist fertig:

leere Inhaltsverzeichnisse werden berücksichtigt
Texte ohne Inhaltsverzeichnisse werden berücksichtigt
ein klein wenig aufgeräumt im Quellcode

Ist halt nicht so dolles Weter heute ... und irgendwie soll es ja funktionieren, gell Carl?

Bitte mitteilen wenn noch ein Text nicht funktionieren sollte.

Alexander Turcic · 06-17-2008, 01:12 PM

Danke, Klasse Arbeit!!

Wundert mich schon ein bisschen, das mit dem Copyright... es scheint, die Macher von PG_DE vertreten hier eine andere Auffassung als die von PG_USA.

yokos · 06-17-2008, 03:50 PM

Hallo Nergal, nach mehrmaligen Herunterladen der aktuellsten Version, habe ich Dein python Programm jetzt Mal getestet.
Uhh, das ist nett; funktioniert. Thx!
Die "Druckansicht" [keine n>1 Kapitel möglich] auf gutenberg.spiegel.de ist wirklich nicht nutzerfreundlich.

# Vielleicht sollte dein python Programm mit einer meldung ["(nicht) erfolgreich heruntergeladen" oder so] schließen.
Das letzte output ist "Inhaltsverzeichnis gefunden." bei einem Buch ohne Bilder. Ein bißchen mehr -v wär' schon nett.
# Ein Ordner images wird auch trotz Fehlens von Bildern erzeugt.
Na, ja, man merkt es schon: alles Kleinigkeiten.

Bekommt man mit mobigen, html2doc etc. wieder ein Inhaltsverzeichnis?
Die Kapitel des orig. Inhaltsverzeichnis sind als <h3>Kapitelname</h3> im html Code eingebettet.

Nergal · 06-17-2008, 04:35 PM

Hallo yokos, das ist lustig - ich bin gerade dabei das Inhaltsverzeichnis zu implementieren

.
Wegen -v, das möchte ich gerne kontrollierbar machen, muß dazu aber ein etwas elaborierteres System für die Optionen einbinden, bis jetzt ist es ja reichlich simpel.
Ich überlege auch noch, ob es Sinn machen würde, optional direkt in mobipocket umzuwandeln oder eben pdf (iLiad oder Cybook Maße via Geräte-Flag) und die HTML-Quellen gleich wieder zu entfernen. Das mit den image-Ordnern habe ich oben ja schon angemerkt

kommt auf Dauer auch weg.

Insgesamt möchte ich es aber für weniger geübte Kommandozeilenbenutzer so simpel wie nur möglich halten.

yokos · 06-17-2008, 05:52 PM

Quote:

Originally Posted by Nergal

Hallo yokos, das ist lustig - ich bin gerade dabei das Inhaltsverzeichnis zu implementieren

.

Oh, fein.
Fall: gbde "leeres Inhaltsverzeichnis"

Code:

python gbde.py "http://gutenberg.spiegel.de/?id=5&xid=1359&kapitel=1"

generiert v3 jetzt schon ein Inhaltsverzeichnis, allerdings mit defekten Hpyerlinks (href="#prozes11"), da die "named anchor" (name="prozes11") nicht existieren.

Quote:

Originally Posted by Nergal

Ich überlege auch noch, ob es Sinn machen würde, optional direkt in mobipocket umzuwandeln oder eben pdf (iLiad oder Cybook Maße via Geräte-Flag) und die HTML-Quellen gleich wieder zu entfernen.

optional, wäre toll.

Danke noch Mal.

Nergal · 06-18-2008, 01:41 AM

Version 4 ist hochgeladen:

Inhaltsverzeichnisse werden am Anfang eingefügt: für 'leere' Inhaltsverzeichnisse nur eine Reihe mit Kapitelnummern, für echte Inhaltsverzeichnisse mit Nr. und Kapitelname
Der images Ordner wird nur bei Bedarf angelegt (jetzt getestet)
Mehr Hinweise, was gerade passiert auf Anregung von yokos - wird in Zukunft optionalisiert, momentan fix.

Ach ja ... ich glaube wenn alle Bücher von GB-DE durch sind, kann man sagen, ob es Probleme geben wird oder nicht

Die 'prozes' named links stammen noch aus dem originalen Text, das war eine Einsendung von einer externen Person, kann man auch daran erkennen, daß eine Tabelle erzeugt wird:

Code:

<script>tab_toggle("tab_colltoc");document.getElementById('tab_arrows').style.display= "inline";</script>

Spaßig ist übrigens, das gbde.py dieses eigentlich sehr hübsch aufgebaute Inhaltsverzeichnis wieder hervorkramt während es beim normalen Aufrufen unterdrückt wird. Die Zerschnippselung für gutenberg.spiegel.de zerstört die named links logischerweise, da sie ja nicht mehr innerhalb einer Seite sind

. Das wieder automagisch zu reparieren wird kompliziert ... - wenn wir solche Sachen regelmäßig haben könnte es sich lohnen, aber nur für einen Band wäre es zu viel.

Gudy · 06-18-2008, 04:45 AM

Quote:

Originally Posted by Alexander Turcic

Wundert mich schon ein bisschen, das mit dem Copyright... es scheint, die Macher von PG_DE vertreten hier eine andere Auffassung als die von PG_USA.

Ja, das gab vor ein paar Jahren mal ziemlich viel Stunk. Sinn und Ziel von PG ist ja eben gerade, dass alles frei verfügbar ist, und PG.de läuft der ganzen Idee ja ziemlich zuwider. Das ist einer der Gründe, wieso ich mich generell von PG.de fernhalte, auch wenn das eine oder andere Werk von dort vielleicht nicht auf PG verfügbar ist.

Nergal · 06-18-2008, 08:18 AM

Ich habe mich jetzt eine Weile damit beschäftigt.
Ich denke der Text ist public domain, was nicht frei verfügbar ist:

sämtlicher Formatierungscode (html-tags, Inhaltsverzeichnis) - die Formatierung als solche (Absätze, Kapitel) hingegen hat der Autor geschaffen.

code mit dem Bilder eingebunden werden, wohingegen die Bilder wiederum public domain sind, da unbearbeitet und folglich keine schöpferische Leistung vorhanden ist.

Zuordnung zu Genres, Autorenlisten, Allgemeine Infos zu den Autoren

Da p-tags aber eben nur die technische Umsetzung der Formatierung sind, müßte man es nur löschen und neu setzen, wäre zwar softwaretechnischer Unfug, aber machbar. Optional wäre ein br-tag Die Fußnoten werden von dem Skript bereits komplett umformatiert.

Gleiches gilt für die Bilder, die sollen ohnhin noch etwas hübscher in den Text eingebunden werden. Ob man nun h1, h2 oder sonstwie die Kapiteltitel benennt ist sowieso egal, via css kann man es manipulieren, daß es so aussieht wie gewünscht.

Auf der anderen Seite sehe ich schon, daß da ne Menge Arbeit reingeflossen ist, finde es aber auch schade, daß man es nicht community-basiert aufgezogen hat, es wäre mittlerweile größer und bekannter und vermutlich auch besser. Ein script wie gbde.py wäre überflüssig.

Ich habe mich auch gefragt, ob man denen nichtmal erklären sollte was ein ebook ist.

Mal eine Frage an die Rechtsgelehrten

hier. Ich kaufe, scanne und ocr'e (ich brauche ein deutsches Verb dafür) eine aktuelle Ausgabe von zum Beispiel einem Reclam-Büchlein dessen Autor vor über 70 Jahren verstorben ist, hat nun ein Lektor oder Setzer oder der Verlag noch Rechte am Inhalt und Layout (jenseits des Schutzumschlages)? Kann ja sein, daß man einen Setzfehler mit ins ebook nimmt.

Nergal · 06-20-2008, 12:28 PM

Soeben habe ich Version 5b hochgeladen. Die neuen Features:

Optionale Konvertierung in:
- Mobipocket (basierend auf mobigen, wird versucht zu holen, wenn es fehlt)
- PDF (basierend auf htmldoc, funktioniert für Linux wenn installiert, Windows ist geplant)
- Infrastruktur für verschiedene Geräte (iLiad ...) bei der PDF-Erstellung
- Bereits heruntergeladene Dateien können falls vorhanden nachträglich in mobipocket oder PDF konvertiert werden (nur einmal rasch getestet, einfach den gleichen Befehl nochmal absetzen mit den Konvertierungsoptionen, dann muß man nicht alles nochmal laden)
gbde.py ist sehr mitteilsam, aber ebenfalls optional
Die Quellen können direkt wieder gelöscht werden, wenn man konvertiert hat.

Es kann sein, daß es noch Ungeziefer besitzt, da ich kein Windows zum Testen zur Verfügung hatte. Im Zweifelsfall hier melden, damit ich reagieren kann. Das 'b' kommt nicht von ungefähr

. Die Codebasis ist annähernd verdoppelt.

Bekannte Probleme:
Es gibt die Variante eines Vorworts, Widmung oder ähnliche, dies wird bei einem 'vollwertigem' Inhaltsverzeichnis ignoriert. Momentan gibt es keine Abhilfe außer es selber in den HTML-Text reinzukopieren, da ich noch nicht absehen kann, ob es ein häufiges Problem ist warte ich erst mal auf Rückmeldung.
Ein paar Optionen sind noch ohne Funktion.

)

Daher hier ein Beispiel:

Code:

python gbde.py -v -m -p iLiad "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapitel=1&cHash=6764077ba5#gb_found"

Option

-v (--verbose): Dies würde wie gewohnt herunterladen, dabei die Zeit mit belangloser Plaudern auf der Befehlszeile vertreiben.
-m (--mobipocket): es wird versucht das Buch in mobipocket umzuwandeln.
-p Gerät (--pdf Gerät): als Gerät bisher nur iLiad möglich, versucht in pdf umzuwandeln, -m und -p sind kombinierbar.
--version: Gibt die aktuelle Version aus.
-h (--help): Gibt alle Optionen aus mit Erläuterung. --hilfe geht leider noch nicht
-o (--ohne_quellen): Versucht die HTML-Dateien wieder zu entfernen, wenn Konvertierung in pdf oder mobi fertig ist.
-n (--neue_version): ist noch nicht implementiert
-u URL (--url URL): Kann man benutzen, aber die url wie gewohnt hinten dran reicht auch.

Ganz ohne Optionen wie bisher geht natürlich auch .

ksiflhjla8 · 10-27-2008, 09:13 PM

hallo,
erstens kriege ich ein Problem wegen Umlauten in optparse, wieso du nicht? Kennst du eine Lösung außer alles umzuschreiben?
Python 2.5.2 (FreeBSD 7.1-PRERELEASE #23)

Lösung: bitte ein u" bzw u' vor die strings schreiben (?)

Code:

$ python gbde.py  -h
Traceback (most recent call last):
  File "gbde.py", line 502, in <module>
    main()
  File "gbde.py", line 471, in main
    (options, args) = parser.parse_args()
  File "/usr/local/lib/python2.5/optparse.py", line 1385, in parse_args
    stop = self._process_args(largs, rargs, values)
  File "/usr/local/lib/python2.5/optparse.py", line 1429, in _process_args
    self._process_short_opts(rargs, values)
  File "/usr/local/lib/python2.5/optparse.py", line 1536, in _process_short_opts
    option.process(opt, value, values, self)
  File "/usr/local/lib/python2.5/optparse.py", line 782, in process
    self.action, self.dest, opt, value, values, parser)
  File "/usr/local/lib/python2.5/optparse.py", line 804, in take_action
    parser.print_help()
  File "/usr/local/lib/python2.5/optparse.py", line 1655, in print_help
    file.write(self.format_help().encode(encoding, "replace"))
UnicodeDecodeError: 'ascii' codec can't decode byte 0xfc in position 54: ordinal not in range(128)

zweitens habe ich ein Problem bei
http://gutenberg.spiegel.de/?id=5&xid=883&kapitel=1

das Kapitel 1 steht nicht im Inhaltverzeichnis, also lädt er nur ab Kapitel 2 runter. Ist das ein Sonderfall?

Nergal · 10-28-2008, 01:43 PM

ksiflhjla8, danke für die Hinweise. optparse verhält sich seit python 2.5.? tatsächlich anders. Python 2.4 (alte Gentoo-Installation

- lief ohne zu Murren, fasznierenderweise hatten auch einige Tests unter W2k mit Python 2.5 keinerlei Ärger bereitet. Ich werde es in Bälde fixen.

Wegen Wilhelm Meisters Wanderjahre ... was soll ich sagen, ja Ausnahme! Tut mir leid, aber ich empfehle einfach das eine Kapitel unter dem Inhaltsverzeichnis in die HTML-Datei per Hand zu kopieren, damit man erstmal lesen kann.

Es ist leider typisch für Gutenberg_DE derart inkonsequent zu arbeiten, es gibt fast soviele Ausnahmen wie es Regeln gibt

.

Ich werde mich daran machen, sobald ich mal eine ruhige Minute habe.

Viel Spaß bei den Wanderjahren, die Lehrjahre scheinen ebenfalls betroffen, wenn Goethe das wüßte

)

Nergal.

mtravellerh · 11-03-2008, 04:26 PM

Ich finde die Masche von Projekt Gutenberg Deutschland, einen Download der Werke derartig zu sabotieren und gar ein eigenes Copyright auf die Webseiten zu nehmen, schlicht Geschäftemacherei übelster Art.

Die machen das nur, um CDs mit "ihren" Werken zu verkaufen, was dem Geiste des "Projektes Gutenberg" ja wohl überhaupt nicht angemessen ist.

Dabei sind die Texte bei weitem nicht wirklich verlässlich korrekturgelesen.

Das sowas auch viel anders geht, kann man wohl an den englischsprachigen Gutenbergseiten sehen, wo die Formatierung wohl auch nicht immer klappt, aber doch wenigstens der Download keine Probleme birgt.

PS: Meine Karl May Texte stammen nicht vom Projekt Gutenberg.

JohnnySack · 11-06-2008, 07:48 PM

Könnte irgendwer vielleicht mal erklären, wie man diese Datei ausführt? Ich sehe zwar eine Art Quellcode, kann diesen aber nicht als Programm ausführen. Habe leider keine Ahnung von Python, deshalb verzeiht diese blöde Frage

.

06-15-2008, 01:42 PM	#3
Nergal eBuchReisender Posts: 41 Karma: 208 Join Date: May 2008 Location: Münster Device: Palm Tungsten-E, iLiad	Und die 3. Version ist fertig: leere Inhaltsverzeichnisse werden berücksichtigt Texte ohne Inhaltsverzeichnisse werden berücksichtigt ein klein wenig aufgeräumt im Quellcode Ist halt nicht so dolles Weter heute ... und irgendwie soll es ja funktionieren, gell Carl? Bitte mitteilen wenn noch ein Text nicht funktionieren sollte.

06-18-2008, 01:41 AM	#8
Nergal eBuchReisender Posts: 41 Karma: 208 Join Date: May 2008 Location: Münster Device: Palm Tungsten-E, iLiad	Version 4 ist hochgeladen: Inhaltsverzeichnisse werden am Anfang eingefügt: für 'leere' Inhaltsverzeichnisse nur eine Reihe mit Kapitelnummern, für echte Inhaltsverzeichnisse mit Nr. und Kapitelname Der images Ordner wird nur bei Bedarf angelegt (jetzt getestet) Mehr Hinweise, was gerade passiert auf Anregung von yokos - wird in Zukunft optionalisiert, momentan fix. Ach ja ... ich glaube wenn alle Bücher von GB-DE durch sind, kann man sagen, ob es Probleme geben wird oder nicht Die 'prozes' named links stammen noch aus dem originalen Text, das war eine Einsendung von einer externen Person, kann man auch daran erkennen, daß eine Tabelle erzeugt wird: Code: <script>tab_toggle("tab_colltoc");document.getElementById('tab_arrows').style.display= "inline";</script> Spaßig ist übrigens, das gbde.py dieses eigentlich sehr hübsch aufgebaute Inhaltsverzeichnis wieder hervorkramt während es beim normalen Aufrufen unterdrückt wird. Die Zerschnippselung für gutenberg.spiegel.de zerstört die named links logischerweise, da sie ja nicht mehr innerhalb einer Seite sind . Das wieder automagisch zu reparieren wird kompliziert ... - wenn wir solche Sachen regelmäßig haben könnte es sich lohnen, aber nur für einen Band wäre es zu viel. Last edited by Nergal; 06-18-2008 at 12:45 PM. Reason: bilder tests durchgeführt

06-18-2008, 08:18 AM	#10
Nergal eBuchReisender Posts: 41 Karma: 208 Join Date: May 2008 Location: Münster Device: Palm Tungsten-E, iLiad	Ich habe mich jetzt eine Weile damit beschäftigt. Ich denke der Text ist public domain, was nicht frei verfügbar ist: sämtlicher Formatierungscode (html-tags, Inhaltsverzeichnis) - die Formatierung als solche (Absätze, Kapitel) hingegen hat der Autor geschaffen. code mit dem Bilder eingebunden werden, wohingegen die Bilder wiederum public domain sind, da unbearbeitet und folglich keine schöpferische Leistung vorhanden ist. Zuordnung zu Genres, Autorenlisten, Allgemeine Infos zu den Autoren Da p-tags aber eben nur die technische Umsetzung der Formatierung sind, müßte man es nur löschen und neu setzen, wäre zwar softwaretechnischer Unfug, aber machbar. Optional wäre ein br-tag Die Fußnoten werden von dem Skript bereits komplett umformatiert. Gleiches gilt für die Bilder, die sollen ohnhin noch etwas hübscher in den Text eingebunden werden. Ob man nun h1, h2 oder sonstwie die Kapiteltitel benennt ist sowieso egal, via css kann man es manipulieren, daß es so aussieht wie gewünscht. Auf der anderen Seite sehe ich schon, daß da ne Menge Arbeit reingeflossen ist, finde es aber auch schade, daß man es nicht community-basiert aufgezogen hat, es wäre mittlerweile größer und bekannter und vermutlich auch besser. Ein script wie gbde.py wäre überflüssig. Ich habe mich auch gefragt, ob man denen nichtmal erklären sollte was ein ebook ist. Mal eine Frage an die Rechtsgelehrten hier. Ich kaufe, scanne und ocr'e (ich brauche ein deutsches Verb dafür) eine aktuelle Ausgabe von zum Beispiel einem Reclam-Büchlein dessen Autor vor über 70 Jahren verstorben ist, hat nun ein Lektor oder Setzer oder der Verlag noch Rechte am Inhalt und Layout (jenseits des Schutzumschlages)? Kann ja sein, daß man einen Setzfehler mit ins ebook nimmt. Last edited by Nergal; 06-18-2008 at 10:21 AM.

06-20-2008, 12:28 PM	#11
Nergal eBuchReisender Posts: 41 Karma: 208 Join Date: May 2008 Location: Münster Device: Palm Tungsten-E, iLiad	Version 5b Soeben habe ich Version 5b hochgeladen. Die neuen Features: Optionale Konvertierung in: Mobipocket (basierend auf mobigen, wird versucht zu holen, wenn es fehlt) PDF (basierend auf htmldoc, funktioniert für Linux wenn installiert, Windows ist geplant) Infrastruktur für verschiedene Geräte (iLiad ...) bei der PDF-Erstellung Bereits heruntergeladene Dateien können falls vorhanden nachträglich in mobipocket oder PDF konvertiert werden (nur einmal rasch getestet, einfach den gleichen Befehl nochmal absetzen mit den Konvertierungsoptionen, dann muß man nicht alles nochmal laden) gbde.py ist sehr mitteilsam, aber ebenfalls optional Die Quellen können direkt wieder gelöscht werden, wenn man konvertiert hat. Es kann sein, daß es noch Ungeziefer besitzt, da ich kein Windows zum Testen zur Verfügung hatte. Im Zweifelsfall hier melden, damit ich reagieren kann. Das 'b' kommt nicht von ungefähr . Die Codebasis ist annähernd verdoppelt. Bekannte Probleme: Es gibt die Variante eines Vorworts, Widmung oder ähnliche, dies wird bei einem 'vollwertigem' Inhaltsverzeichnis ignoriert. Momentan gibt es keine Abhilfe außer es selber in den HTML-Text reinzukopieren, da ich noch nicht absehen kann, ob es ein häufiges Problem ist warte ich erst mal auf Rückmeldung. Ein paar Optionen sind noch ohne Funktion. ) Daher hier ein Beispiel: Code: python gbde.py -v -m -p iLiad "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapitel=1&cHash=6764077ba5#gb_found" Option -v (--verbose): Dies würde wie gewohnt herunterladen, dabei die Zeit mit belangloser Plaudern auf der Befehlszeile vertreiben. -m (--mobipocket): es wird versucht das Buch in mobipocket umzuwandeln. -p Gerät (--pdf Gerät): als Gerät bisher nur iLiad möglich, versucht in pdf umzuwandeln, -m und -p sind kombinierbar. --version: Gibt die aktuelle Version aus. -h (--help): Gibt alle Optionen aus mit Erläuterung. --hilfe geht leider noch nicht -o (--ohne_quellen): Versucht die HTML-Dateien wieder zu entfernen, wenn Konvertierung in pdf oder mobi fertig ist. -n (--neue_version): ist noch nicht implementiert -u URL (--url URL): Kann man benutzen, aber die url wie gewohnt hinten dran reicht auch. Ganz ohne Optionen wie bisher geht natürlich auch . Last edited by Nergal; 06-20-2008 at 03:46 PM.

11-06-2008, 07:48 PM	#15
JohnnySack Junior Member Posts: 5 Karma: 10 Join Date: Jul 2008 Device: iLiad	Könnte irgendwer vielleicht mal erklären, wie man diese Datei ausführt? Ich sehe zwar eine Art Quellcode, kann diesen aber nicht als Programm ausführen. Habe leider keine Ahnung von Python, deshalb verzeiht diese blöde Frage.

06-14-2008, 08:51 AM	#2
Nergal eBuchReisender Posts: 41 Karma: 208 Join Date: May 2008 Location: Münster Device: Palm Tungsten-E, iLiad	Die neue Version (alte ist einfach überschrieben) hat folgende Zusatzfeatures: Bilder werden heruntergeladen, in einen Ordner verfrachtet und verlinkt. Fußnoten werden kreuzverlinkt und ans Ende des Kapitels gelegt - von dort kommt man zum Text zurück. alle Benutzerhinweise auf deutsch - macht ja Sinn Quellcode komplett umstrukturiert und gesäubert (sollte lesbar sein) Noch ein bisl unsauber ist, daß für jedes Buch erstmal ein Ordner mit Unterordner 'images' angelegt wird, wenn das leer bleibt, einfach alles bis auf die html-Datei löschen. Wenn es gar zu sehr nervt, Bescheid sagen, dann bastel ich da noch was.

06-17-2008, 01:12 PM	#4
Alexander Turcic Fully Converged Posts: 18,175 Karma: 14021202 Join Date: Oct 2002 Location: Switzerland Device: Too many to count here.	Danke, Klasse Arbeit!! Wundert mich schon ein bisschen, das mit dem Copyright... es scheint, die Macher von PG_DE vertreten hier eine andere Auffassung als die von PG_USA.

06-17-2008, 03:50 PM	#5
yokos Pac-Man caught my iLiad. Posts: 807 Karma: 3595 Join Date: Apr 2006 Location: Germany; next to Baltic Sea Device: Boox Max Lumi, iRex iLiad (RIP)	Hallo Nergal, nach mehrmaligen Herunterladen der aktuellsten Version, habe ich Dein python Programm jetzt Mal getestet. Uhh, das ist nett; funktioniert. Thx! Die "Druckansicht" [keine n>1 Kapitel möglich] auf gutenberg.spiegel.de ist wirklich nicht nutzerfreundlich. # Vielleicht sollte dein python Programm mit einer meldung ["(nicht) erfolgreich heruntergeladen" oder so] schließen. Das letzte output ist "Inhaltsverzeichnis gefunden." bei einem Buch ohne Bilder. Ein bißchen mehr -v wär' schon nett. # Ein Ordner images wird auch trotz Fehlens von Bildern erzeugt. Na, ja, man merkt es schon: alles Kleinigkeiten. Bekommt man mit mobigen, html2doc etc. wieder ein Inhaltsverzeichnis? Die Kapitel des orig. Inhaltsverzeichnis sind als <h3>Kapitelname</h3> im html Code eingebettet.

06-17-2008, 04:35 PM	#6
Nergal eBuchReisender Posts: 41 Karma: 208 Join Date: May 2008 Location: Münster Device: Palm Tungsten-E, iLiad	Hallo yokos, das ist lustig - ich bin gerade dabei das Inhaltsverzeichnis zu implementieren . Wegen -v, das möchte ich gerne kontrollierbar machen, muß dazu aber ein etwas elaborierteres System für die Optionen einbinden, bis jetzt ist es ja reichlich simpel. Ich überlege auch noch, ob es Sinn machen würde, optional direkt in mobipocket umzuwandeln oder eben pdf (iLiad oder Cybook Maße via Geräte-Flag) und die HTML-Quellen gleich wieder zu entfernen. Das mit den image-Ordnern habe ich oben ja schon angemerkt kommt auf Dauer auch weg. Insgesamt möchte ich es aber für weniger geübte Kommandozeilenbenutzer so simpel wie nur möglich halten.

10-28-2008, 01:43 PM	#13
Nergal eBuchReisender Posts: 41 Karma: 208 Join Date: May 2008 Location: Münster Device: Palm Tungsten-E, iLiad	ksiflhjla8, danke für die Hinweise. optparse verhält sich seit python 2.5.? tatsächlich anders. Python 2.4 (alte Gentoo-Installation - lief ohne zu Murren, fasznierenderweise hatten auch einige Tests unter W2k mit Python 2.5 keinerlei Ärger bereitet. Ich werde es in Bälde fixen. Wegen Wilhelm Meisters Wanderjahre ... was soll ich sagen, ja Ausnahme! Tut mir leid, aber ich empfehle einfach das eine Kapitel unter dem Inhaltsverzeichnis in die HTML-Datei per Hand zu kopieren, damit man erstmal lesen kann. Es ist leider typisch für Gutenberg_DE derart inkonsequent zu arbeiten, es gibt fast soviele Ausnahmen wie es Regeln gibt . Ich werde mich daran machen, sobald ich mal eine ruhige Minute habe. Viel Spaß bei den Wanderjahren, die Lehrjahre scheinen ebenfalls betroffen, wenn Goethe das wüßte ) Nergal.

11-03-2008, 04:26 PM	#14
mtravellerh book creator Posts: 9,657 Karma: 3856660 Join Date: Oct 2008 Location: Luxembourg Device: Kindle Scribe	Ich finde die Masche von Projekt Gutenberg Deutschland, einen Download der Werke derartig zu sabotieren und gar ein eigenes Copyright auf die Webseiten zu nehmen, schlicht Geschäftemacherei übelster Art. Die machen das nur, um CDs mit "ihren" Werken zu verkaufen, was dem Geiste des "Projektes Gutenberg" ja wohl überhaupt nicht angemessen ist. Dabei sind die Texte bei weitem nicht wirklich verlässlich korrekturgelesen. Das sowas auch viel anders geht, kann man wohl an den englischsprachigen Gutenbergseiten sehen, wo die Formatierung wohl auch nicht immer klappt, aber doch wenigstens der Download keine Probleme birgt. PS: Meine Karl May Texte stammen nicht vom Projekt Gutenberg.

Similar Threads
Thread	Thread Starter	Forum	Replies	Last Post
Bücher von Gutenberg_de ?	NASCARaddicted	E-Books	24	09-30-2012 07:20 AM

Advert

Advert