![]() |
#1 |
eBuchReisender
![]() ![]() ![]() Posts: 41
Karma: 208
Join Date: May 2008
Location: Münster
Device: Palm Tungsten-E, iLiad
|
![]()
Update: 20. Juni 2008 - Wer es schon heruntergeladen hat: am besten nochmal. Version 5b ist fertig - Features in den folgenden Posts
Ich weiß nicht wie es Euch auf den Gutenberg-DE-Seiten so ergeht, mich hat das zerschnippselte HTML schon immer gestört ![]() gbde.py nimmt auf der Befehlszeile eine in Anführungszeichen eingebundene volle url auf. Code:
python gbde.py "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapitel=1&cHash=6764077ba5#gb_found" Ohne mobipocket-reader ist es für mich gerade nicht möglich zu testen, wie die umlaute und so rüber kommen. Wie immer ist Rückmeldung willkommen für Fehler, Ideen, usw. usf. === ACHTUNG === Dieses Skript darf man nur zu privaten Zwecken einsetzen. Das Copyright auf Gutenberg-DE ist ein bisl verschroben: die Texte an sich wären frei verfügbar, aber da ja ein bisl am Layout gearbeitet wurde von Hille & Partner ist das, was auf den Servern dort liegt doch wieder nicht ganz so frei. Man darf keine Archive davon veröffentlichen oder sonstwie über den privaten Gebrauch hinaus was damit anstellen. Deshalb habe ich den Copyright-Vermerk in jedes Buch mit eingebaut. *Seufz* Ich habe aber nicht finden können, daß es nicht erlaubt sein soll einen *ähem* ![]() ![]() =====ENDE ACHTUNG ===== Also wenn Ihr was von Gutenberg-DE lesen wollt - büddeschön. Muß halt jeder für sich selber herunterladen und in mobipocket oder mit htmldoc in PDF umwandeln. Viel Spaß Nergal P.S.: Die Url im Beispiel ist die Autobiographie von Schliemann ![]() 17+7+13+7 Last edited by Nergal; 06-20-2008 at 03:47 PM. Reason: Version 5b |
![]() |
![]() |
![]() |
#2 |
eBuchReisender
![]() ![]() ![]() Posts: 41
Karma: 208
Join Date: May 2008
Location: Münster
Device: Palm Tungsten-E, iLiad
|
Die neue Version (alte ist einfach überschrieben) hat folgende Zusatzfeatures:
Noch ein bisl unsauber ist, daß für jedes Buch erstmal ein Ordner mit Unterordner 'images' angelegt wird, wenn das leer bleibt, einfach alles bis auf die html-Datei löschen. Wenn es gar zu sehr nervt, Bescheid sagen, dann bastel ich da noch was. |
![]() |
![]() |
Advert | |
|
![]() |
#3 |
eBuchReisender
![]() ![]() ![]() Posts: 41
Karma: 208
Join Date: May 2008
Location: Münster
Device: Palm Tungsten-E, iLiad
|
Und die 3. Version ist fertig:
Ist halt nicht so dolles Weter heute ... und irgendwie soll es ja funktionieren, gell Carl? Bitte mitteilen wenn noch ein Text nicht funktionieren sollte. |
![]() |
![]() |
![]() |
#4 |
Fully Converged
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 18,171
Karma: 14021202
Join Date: Oct 2002
Location: Switzerland
Device: Too many to count here.
|
Danke, Klasse Arbeit!!
Wundert mich schon ein bisschen, das mit dem Copyright... es scheint, die Macher von PG_DE vertreten hier eine andere Auffassung als die von PG_USA. |
![]() |
![]() |
![]() |
#5 |
Pac-Man caught my iLiad.
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 807
Karma: 3595
Join Date: Apr 2006
Location: Germany; next to Baltic Sea
Device: Boox Max Lumi, iRex iLiad (RIP)
|
Hallo Nergal, nach mehrmaligen Herunterladen der aktuellsten Version, habe ich Dein python Programm jetzt Mal getestet.
Uhh, das ist nett; funktioniert. Thx! Die "Druckansicht" [keine n>1 Kapitel möglich] auf gutenberg.spiegel.de ist wirklich nicht nutzerfreundlich. # Vielleicht sollte dein python Programm mit einer meldung ["(nicht) erfolgreich heruntergeladen" oder so] schließen. Das letzte output ist "Inhaltsverzeichnis gefunden." bei einem Buch ohne Bilder. Ein bißchen mehr -v wär' schon nett. # Ein Ordner images wird auch trotz Fehlens von Bildern erzeugt. Na, ja, man merkt es schon: alles Kleinigkeiten. Bekommt man mit mobigen, html2doc etc. wieder ein Inhaltsverzeichnis? Die Kapitel des orig. Inhaltsverzeichnis sind als <h3>Kapitelname</h3> im html Code eingebettet. |
![]() |
![]() |
Advert | |
|
![]() |
#6 |
eBuchReisender
![]() ![]() ![]() Posts: 41
Karma: 208
Join Date: May 2008
Location: Münster
Device: Palm Tungsten-E, iLiad
|
Hallo yokos, das ist lustig - ich bin gerade dabei das Inhaltsverzeichnis zu implementieren
![]() Wegen -v, das möchte ich gerne kontrollierbar machen, muß dazu aber ein etwas elaborierteres System für die Optionen einbinden, bis jetzt ist es ja reichlich simpel. Ich überlege auch noch, ob es Sinn machen würde, optional direkt in mobipocket umzuwandeln oder eben pdf (iLiad oder Cybook Maße via Geräte-Flag) und die HTML-Quellen gleich wieder zu entfernen. Das mit den image-Ordnern habe ich oben ja schon angemerkt ![]() Insgesamt möchte ich es aber für weniger geübte Kommandozeilenbenutzer so simpel wie nur möglich halten. |
![]() |
![]() |
![]() |
#7 | ||
Pac-Man caught my iLiad.
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 807
Karma: 3595
Join Date: Apr 2006
Location: Germany; next to Baltic Sea
Device: Boox Max Lumi, iRex iLiad (RIP)
|
Quote:
Fall: gbde "leeres Inhaltsverzeichnis" Code:
python gbde.py "http://gutenberg.spiegel.de/?id=5&xid=1359&kapitel=1" Quote:
Danke noch Mal. |
||
![]() |
![]() |
![]() |
#8 |
eBuchReisender
![]() ![]() ![]() Posts: 41
Karma: 208
Join Date: May 2008
Location: Münster
Device: Palm Tungsten-E, iLiad
|
Version 4 ist hochgeladen:
Ach ja ... ich glaube wenn alle Bücher von GB-DE durch sind, kann man sagen, ob es Probleme geben wird oder nicht ![]() Die 'prozes' named links stammen noch aus dem originalen Text, das war eine Einsendung von einer externen Person, kann man auch daran erkennen, daß eine Tabelle erzeugt wird: Code:
<script>tab_toggle("tab_colltoc");document.getElementById('tab_arrows').style.display= "inline";</script> ![]() Last edited by Nergal; 06-18-2008 at 12:45 PM. Reason: bilder tests durchgeführt |
![]() |
![]() |
![]() |
#9 |
Wizard
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 1,154
Karma: 3252017
Join Date: Jan 2008
Location: Germany
Device: Pocketbook Touch Lux (623)
|
Ja, das gab vor ein paar Jahren mal ziemlich viel Stunk. Sinn und Ziel von PG ist ja eben gerade, dass alles frei verfügbar ist, und PG.de läuft der ganzen Idee ja ziemlich zuwider. Das ist einer der Gründe, wieso ich mich generell von PG.de fernhalte, auch wenn das eine oder andere Werk von dort vielleicht nicht auf PG verfügbar ist.
|
![]() |
![]() |
![]() |
#10 |
eBuchReisender
![]() ![]() ![]() Posts: 41
Karma: 208
Join Date: May 2008
Location: Münster
Device: Palm Tungsten-E, iLiad
|
Ich habe mich jetzt eine Weile damit beschäftigt.
Ich denke der Text ist public domain, was nicht frei verfügbar ist:
Da p-tags aber eben nur die technische Umsetzung der Formatierung sind, müßte man es nur löschen und neu setzen, wäre zwar softwaretechnischer Unfug, aber machbar. Optional wäre ein br-tag Die Fußnoten werden von dem Skript bereits komplett umformatiert. Gleiches gilt für die Bilder, die sollen ohnhin noch etwas hübscher in den Text eingebunden werden. Ob man nun h1, h2 oder sonstwie die Kapiteltitel benennt ist sowieso egal, via css kann man es manipulieren, daß es so aussieht wie gewünscht. Auf der anderen Seite sehe ich schon, daß da ne Menge Arbeit reingeflossen ist, finde es aber auch schade, daß man es nicht community-basiert aufgezogen hat, es wäre mittlerweile größer und bekannter und vermutlich auch besser. Ein script wie gbde.py wäre überflüssig. Ich habe mich auch gefragt, ob man denen nichtmal erklären sollte was ein ebook ist. Mal eine Frage an die Rechtsgelehrten ![]() ![]() Last edited by Nergal; 06-18-2008 at 10:21 AM. |
![]() |
![]() |
![]() |
#11 |
eBuchReisender
![]() ![]() ![]() Posts: 41
Karma: 208
Join Date: May 2008
Location: Münster
Device: Palm Tungsten-E, iLiad
|
Version 5b
Soeben habe ich Version 5b hochgeladen. Die neuen Features:
Es kann sein, daß es noch Ungeziefer besitzt, da ich kein Windows zum Testen zur Verfügung hatte. Im Zweifelsfall hier melden, damit ich reagieren kann. Das 'b' kommt nicht von ungefähr ![]() Bekannte Probleme: Es gibt die Variante eines Vorworts, Widmung oder ähnliche, dies wird bei einem 'vollwertigem' Inhaltsverzeichnis ignoriert. Momentan gibt es keine Abhilfe außer es selber in den HTML-Text reinzukopieren, da ich noch nicht absehen kann, ob es ein häufiges Problem ist warte ich erst mal auf Rückmeldung. Ein paar Optionen sind noch ohne Funktion. ![]() Daher hier ein Beispiel: Code:
python gbde.py -v -m -p iLiad "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapitel=1&cHash=6764077ba5#gb_found"
![]() Last edited by Nergal; 06-20-2008 at 03:46 PM. |
![]() |
![]() |
![]() |
#12 |
Connoisseur
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 59
Karma: 13124
Join Date: Jul 2008
Device: Kobo Aura HD
|
Bug report ;-)
hallo,
erstens kriege ich ein Problem wegen Umlauten in optparse, wieso du nicht? Kennst du eine Lösung außer alles umzuschreiben? Python 2.5.2 (FreeBSD 7.1-PRERELEASE #23) Lösung: bitte ein u" bzw u' vor die strings schreiben (?) Code:
$ python gbde.py -h Traceback (most recent call last): File "gbde.py", line 502, in <module> main() File "gbde.py", line 471, in main (options, args) = parser.parse_args() File "/usr/local/lib/python2.5/optparse.py", line 1385, in parse_args stop = self._process_args(largs, rargs, values) File "/usr/local/lib/python2.5/optparse.py", line 1429, in _process_args self._process_short_opts(rargs, values) File "/usr/local/lib/python2.5/optparse.py", line 1536, in _process_short_opts option.process(opt, value, values, self) File "/usr/local/lib/python2.5/optparse.py", line 782, in process self.action, self.dest, opt, value, values, parser) File "/usr/local/lib/python2.5/optparse.py", line 804, in take_action parser.print_help() File "/usr/local/lib/python2.5/optparse.py", line 1655, in print_help file.write(self.format_help().encode(encoding, "replace")) UnicodeDecodeError: 'ascii' codec can't decode byte 0xfc in position 54: ordinal not in range(128) zweitens habe ich ein Problem bei http://gutenberg.spiegel.de/?id=5&xid=883&kapitel=1 das Kapitel 1 steht nicht im Inhaltverzeichnis, also lädt er nur ab Kapitel 2 runter. Ist das ein Sonderfall? Last edited by ksiflhjla8; 10-27-2008 at 09:37 PM. |
![]() |
![]() |
![]() |
#13 |
eBuchReisender
![]() ![]() ![]() Posts: 41
Karma: 208
Join Date: May 2008
Location: Münster
Device: Palm Tungsten-E, iLiad
|
ksiflhjla8, danke für die Hinweise. optparse verhält sich seit python 2.5.? tatsächlich anders. Python 2.4 (alte Gentoo-Installation
![]() Wegen Wilhelm Meisters Wanderjahre ... was soll ich sagen, ja Ausnahme! Tut mir leid, aber ich empfehle einfach das eine Kapitel unter dem Inhaltsverzeichnis in die HTML-Datei per Hand zu kopieren, damit man erstmal lesen kann. Es ist leider typisch für Gutenberg_DE derart inkonsequent zu arbeiten, es gibt fast soviele Ausnahmen wie es Regeln gibt ![]() Ich werde mich daran machen, sobald ich mal eine ruhige Minute habe. Viel Spaß bei den Wanderjahren, die Lehrjahre scheinen ebenfalls betroffen, wenn Goethe das wüßte ![]() Nergal. |
![]() |
![]() |
![]() |
#14 |
book creator
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 9,657
Karma: 3856660
Join Date: Oct 2008
Location: Luxembourg
Device: Kindle Scribe
|
Ich finde die Masche von Projekt Gutenberg Deutschland, einen Download der Werke derartig zu sabotieren und gar ein eigenes Copyright auf die Webseiten zu nehmen, schlicht Geschäftemacherei übelster Art.
Die machen das nur, um CDs mit "ihren" Werken zu verkaufen, was dem Geiste des "Projektes Gutenberg" ja wohl überhaupt nicht angemessen ist. Dabei sind die Texte bei weitem nicht wirklich verlässlich korrekturgelesen. Das sowas auch viel anders geht, kann man wohl an den englischsprachigen Gutenbergseiten sehen, wo die Formatierung wohl auch nicht immer klappt, aber doch wenigstens der Download keine Probleme birgt. PS: Meine Karl May Texte stammen nicht vom Projekt Gutenberg. |
![]() |
![]() |
![]() |
#15 |
Junior Member
![]() Posts: 5
Karma: 10
Join Date: Jul 2008
Device: iLiad
|
Könnte irgendwer vielleicht mal erklären, wie man diese Datei ausführt? Ich sehe zwar eine Art Quellcode, kann diesen aber nicht als Programm ausführen. Habe leider keine Ahnung von Python, deshalb verzeiht diese blöde Frage
![]() |
![]() |
![]() |
![]() |
|
![]() |
||||
Thread | Thread Starter | Forum | Replies | Last Post |
Bücher von Gutenberg_de ? | NASCARaddicted | E-Books | 24 | 09-30-2012 07:20 AM |