Order it now! Amazon prioritizes orders on a first come, first served basis.


View Full Version : Gutenberg_DE


Nergal
06-13-2008, 01:27 PM
Update: 20. Juni 2008 - Wer es schon heruntergeladen hat: am besten nochmal. Version 5b ist fertig - Features in den folgenden Posts

Ich weiß nicht wie es Euch auf den Gutenberg-DE-Seiten (http://gutenberg.spiegel.de/index.php) so ergeht, mich hat das zerschnippselte HTML schon immer gestört:smack:. Und derzeit ohne iLiad zum Lesen und Spielen und Arbeiten (es gibt sie doch die drei Wünsche auf einmal!) habe ich mich mal darangesetzt einen kleinen Grabber zu basteln.

gbde.py nimmt auf der Befehlszeile eine in Anführungszeichen eingebundene volle url auf.

python gbde.py "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapitel=1&cHash=6764077ba5#gb_found"

Dann dauert es ein kleines bisl, je nachdem wie groß das Buch ist und schwupp hat man eine fertige HTML-Datei. Diese ist so vorbereitet, daß man sie mit mobipocket (mobigen.exe) umwandeln kann.

Ohne mobipocket-reader ist es für mich gerade nicht möglich zu testen, wie die umlaute und so rüber kommen. Wie immer ist Rückmeldung willkommen für Fehler, Ideen, usw. usf.

=== ACHTUNG ===
Dieses Skript darf man nur zu privaten Zwecken einsetzen. Das Copyright auf Gutenberg-DE ist ein bisl verschroben: die Texte an sich wären frei verfügbar, aber da ja ein bisl am Layout gearbeitet wurde von Hille & Partner ist das, was auf den Servern dort liegt doch wieder nicht ganz so frei. Man darf keine Archive davon veröffentlichen oder sonstwie über den privaten Gebrauch hinaus was damit anstellen. Deshalb habe ich den Copyright-Vermerk in jedes Buch mit eingebaut. *Seufz*

Ich habe aber nicht finden können, daß es nicht erlaubt sein soll einen *ähem*:rolleyes: speziellen Browser zu verwenden, der die Seiten ein bisl von Ballast befreit und neu kompiliert :rofl:.
=====ENDE ACHTUNG =====

Also wenn Ihr was von Gutenberg-DE lesen wollt - büddeschön. Muß halt jeder für sich selber herunterladen und in mobipocket oder mit htmldoc in PDF umwandeln.

Viel Spaß
Nergal

P.S.: Die Url im Beispiel ist die Autobiographie von Schliemann :)

17+7+13+7

Nergal
06-14-2008, 09:51 AM
Die neue Version (alte ist einfach überschrieben) hat folgende Zusatzfeatures:

Bilder werden heruntergeladen, in einen Ordner verfrachtet und verlinkt.
Fußnoten werden kreuzverlinkt und ans Ende des Kapitels gelegt - von dort kommt man zum Text zurück.
alle Benutzerhinweise auf deutsch - macht ja Sinn :)
Quellcode komplett umstrukturiert und gesäubert (sollte lesbar sein)


Noch ein bisl unsauber ist, daß für jedes Buch erstmal ein Ordner mit Unterordner 'images' angelegt wird, wenn das leer bleibt, einfach alles bis auf die html-Datei löschen. Wenn es gar zu sehr nervt, Bescheid sagen, dann bastel ich da noch was.

Nergal
06-15-2008, 02:42 PM
Und die 3. Version ist fertig:


leere Inhaltsverzeichnisse werden berücksichtigt
Texte ohne Inhaltsverzeichnisse werden berücksichtigt
ein klein wenig aufgeräumt im Quellcode


Ist halt nicht so dolles Weter heute ... und irgendwie soll es ja funktionieren, gell Carl?

Bitte mitteilen wenn noch ein Text nicht funktionieren sollte.

Alexander Turcic
06-17-2008, 02:12 PM
Danke, Klasse Arbeit!!

Wundert mich schon ein bisschen, das mit dem Copyright... es scheint, die Macher von PG_DE vertreten hier eine andere Auffassung als die von PG_USA.

yokos
06-17-2008, 04:50 PM
Hallo Nergal, nach mehrmaligen Herunterladen der aktuellsten Version, habe ich Dein python Programm jetzt Mal getestet.
Uhh, das ist nett; funktioniert. Thx!
Die "Druckansicht" [keine n>1 Kapitel möglich] auf gutenberg.spiegel.de ist wirklich nicht nutzerfreundlich.

# Vielleicht sollte dein python Programm mit einer meldung ["(nicht) erfolgreich heruntergeladen" oder so] schließen.
Das letzte output ist "Inhaltsverzeichnis gefunden." bei einem Buch ohne Bilder. Ein bißchen mehr -v wär' schon nett.
# Ein Ordner images wird auch trotz Fehlens von Bildern erzeugt.
Na, ja, man merkt es schon: alles Kleinigkeiten.

Bekommt man mit mobigen, html2doc etc. wieder ein Inhaltsverzeichnis?
Die Kapitel des orig. Inhaltsverzeichnis sind als <h3>Kapitelname</h3> im html Code eingebettet.

Nergal
06-17-2008, 05:35 PM
Hallo yokos, das ist lustig - ich bin gerade dabei das Inhaltsverzeichnis zu implementieren :).
Wegen -v, das möchte ich gerne kontrollierbar machen, muß dazu aber ein etwas elaborierteres System für die Optionen einbinden, bis jetzt ist es ja reichlich simpel.
Ich überlege auch noch, ob es Sinn machen würde, optional direkt in mobipocket umzuwandeln oder eben pdf (iLiad oder Cybook Maße via Geräte-Flag) und die HTML-Quellen gleich wieder zu entfernen. Das mit den image-Ordnern habe ich oben ja schon angemerkt ;) kommt auf Dauer auch weg.

Insgesamt möchte ich es aber für weniger geübte Kommandozeilenbenutzer so simpel wie nur möglich halten.

yokos
06-17-2008, 06:52 PM
Hallo yokos, das ist lustig - ich bin gerade dabei das Inhaltsverzeichnis zu implementieren :).
Oh, fein.
Fall: gbde "leeres Inhaltsverzeichnis"
python gbde.py "http://gutenberg.spiegel.de/?id=5&xid=1359&kapitel=1" generiert v3 jetzt schon ein Inhaltsverzeichnis, allerdings mit defekten Hpyerlinks (href="#prozes11"), da die "named anchor" (name="prozes11") nicht existieren.


Ich überlege auch noch, ob es Sinn machen würde, optional direkt in mobipocket umzuwandeln oder eben pdf (iLiad oder Cybook Maße via Geräte-Flag) und die HTML-Quellen gleich wieder zu entfernen.
optional, wäre toll.

Danke noch Mal.

Nergal
06-18-2008, 02:41 AM
Version 4 ist hochgeladen:


Inhaltsverzeichnisse werden am Anfang eingefügt: für 'leere' Inhaltsverzeichnisse nur eine Reihe mit Kapitelnummern, für echte Inhaltsverzeichnisse mit Nr. und Kapitelname
Der images Ordner wird nur bei Bedarf angelegt (jetzt getestet)
Mehr Hinweise, was gerade passiert auf Anregung von yokos - wird in Zukunft optionalisiert, momentan fix.



Ach ja ... ich glaube wenn alle Bücher von GB-DE durch sind, kann man sagen, ob es Probleme geben wird oder nicht ;)

Die 'prozes' named links stammen noch aus dem originalen Text, das war eine Einsendung von einer externen Person, kann man auch daran erkennen, daß eine Tabelle erzeugt wird:
<script>tab_toggle("tab_colltoc");document.getElementById('tab_arrows').style.disp lay= "inline";</script>


Spaßig ist übrigens, das gbde.py dieses eigentlich sehr hübsch aufgebaute Inhaltsverzeichnis wieder hervorkramt während es beim normalen Aufrufen unterdrückt wird. Die Zerschnippselung für gutenberg.spiegel.de zerstört die named links logischerweise, da sie ja nicht mehr innerhalb einer Seite sind :D. Das wieder automagisch zu reparieren wird kompliziert ... - wenn wir solche Sachen regelmäßig haben könnte es sich lohnen, aber nur für einen Band wäre es zu viel.

Gudy
06-18-2008, 05:45 AM
Wundert mich schon ein bisschen, das mit dem Copyright... es scheint, die Macher von PG_DE vertreten hier eine andere Auffassung als die von PG_USA.

Ja, das gab vor ein paar Jahren mal ziemlich viel Stunk. Sinn und Ziel von PG ist ja eben gerade, dass alles frei verfügbar ist, und PG.de läuft der ganzen Idee ja ziemlich zuwider. Das ist einer der Gründe, wieso ich mich generell von PG.de fernhalte, auch wenn das eine oder andere Werk von dort vielleicht nicht auf PG verfügbar ist.

Nergal
06-18-2008, 09:18 AM
Ich habe mich jetzt eine Weile damit beschäftigt.
Ich denke der Text ist public domain, was nicht frei verfügbar ist:

sämtlicher Formatierungscode (html-tags, Inhaltsverzeichnis) - die Formatierung als solche (Absätze, Kapitel) hingegen hat der Autor geschaffen.


code mit dem Bilder eingebunden werden, wohingegen die Bilder wiederum public domain sind, da unbearbeitet und folglich keine schöpferische Leistung vorhanden ist.


Zuordnung zu Genres, Autorenlisten, Allgemeine Infos zu den Autoren


Da p-tags aber eben nur die technische Umsetzung der Formatierung sind, müßte man es nur löschen und neu setzen, wäre zwar softwaretechnischer Unfug, aber machbar. Optional wäre ein br-tag Die Fußnoten werden von dem Skript bereits komplett umformatiert.

Gleiches gilt für die Bilder, die sollen ohnhin noch etwas hübscher in den Text eingebunden werden. Ob man nun h1, h2 oder sonstwie die Kapiteltitel benennt ist sowieso egal, via css kann man es manipulieren, daß es so aussieht wie gewünscht.

Auf der anderen Seite sehe ich schon, daß da ne Menge Arbeit reingeflossen ist, finde es aber auch schade, daß man es nicht community-basiert aufgezogen hat, es wäre mittlerweile größer und bekannter und vermutlich auch besser. Ein script wie gbde.py wäre überflüssig.

Ich habe mich auch gefragt, ob man denen nichtmal erklären sollte was ein ebook ist.

Mal eine Frage an die Rechtsgelehrten :bookworm: hier. Ich kaufe, scanne und ocr'e (ich brauche ein deutsches Verb dafür) eine aktuelle Ausgabe von zum Beispiel einem Reclam-Büchlein dessen Autor vor über 70 Jahren verstorben ist, hat nun ein Lektor oder Setzer oder der Verlag noch Rechte am Inhalt und Layout (jenseits des Schutzumschlages)? Kann ja sein, daß man einen Setzfehler mit ins ebook nimmt. :chinscratch:

Nergal
06-20-2008, 01:28 PM
Soeben habe ich Version 5b hochgeladen. Die neuen Features:

Optionale Konvertierung in:

Mobipocket (basierend auf mobigen, wird versucht zu holen, wenn es fehlt)
PDF (basierend auf htmldoc, funktioniert für Linux wenn installiert, Windows ist geplant)
Infrastruktur für verschiedene Geräte (iLiad ...) bei der PDF-Erstellung
Bereits heruntergeladene Dateien können falls vorhanden nachträglich in mobipocket oder PDF konvertiert werden (nur einmal rasch getestet, einfach den gleichen Befehl nochmal absetzen mit den Konvertierungsoptionen, dann muß man nicht alles nochmal laden)

gbde.py ist sehr mitteilsam, aber ebenfalls optional
Die Quellen können direkt wieder gelöscht werden, wenn man konvertiert hat.


Es kann sein, daß es noch Ungeziefer besitzt, da ich kein Windows zum Testen zur Verfügung hatte. Im Zweifelsfall hier melden, damit ich reagieren kann. Das 'b' kommt nicht von ungefähr ;). Die Codebasis ist annähernd verdoppelt.

Bekannte Probleme:
Es gibt die Variante eines Vorworts, Widmung oder ähnliche, dies wird bei einem 'vollwertigem' Inhaltsverzeichnis ignoriert. Momentan gibt es keine Abhilfe außer es selber in den HTML-Text reinzukopieren, da ich noch nicht absehen kann, ob es ein häufiges Problem ist warte ich erst mal auf Rückmeldung.
Ein paar Optionen sind noch ohne Funktion. :))

Daher hier ein Beispiel:
python gbde.py -v -m -p iLiad "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapitel=1&cHash=6764077ba5#gb_found"

Option

-v (--verbose): Dies würde wie gewohnt herunterladen, dabei die Zeit mit belangloser Plaudern auf der Befehlszeile vertreiben.
-m (--mobipocket): es wird versucht das Buch in mobipocket umzuwandeln.
-p Gerät (--pdf Gerät): als Gerät bisher nur iLiad möglich, versucht in pdf umzuwandeln, -m und -p sind kombinierbar.
--version: Gibt die aktuelle Version aus.
-h (--help): Gibt alle Optionen aus mit Erläuterung. --hilfe geht leider noch nicht
-o (--ohne_quellen): Versucht die HTML-Dateien wieder zu entfernen, wenn Konvertierung in pdf oder mobi fertig ist.
-n (--neue_version): ist noch nicht implementiert
-u URL (--url URL): Kann man benutzen, aber die url wie gewohnt hinten dran reicht auch.

Ganz ohne Optionen wie bisher geht natürlich auch :).

ksiflhjla8
10-27-2008, 10:13 PM
hallo,
erstens kriege ich ein Problem wegen Umlauten in optparse, wieso du nicht? Kennst du eine Lösung außer alles umzuschreiben?
Python 2.5.2 (FreeBSD 7.1-PRERELEASE #23)

Lösung: bitte ein u" bzw u' vor die strings schreiben (?)



$ python gbde.py -h
Traceback (most recent call last):
File "gbde.py", line 502, in <module>
main()
File "gbde.py", line 471, in main
(options, args) = parser.parse_args()
File "/usr/local/lib/python2.5/optparse.py", line 1385, in parse_args
stop = self._process_args(largs, rargs, values)
File "/usr/local/lib/python2.5/optparse.py", line 1429, in _process_args
self._process_short_opts(rargs, values)
File "/usr/local/lib/python2.5/optparse.py", line 1536, in _process_short_opts
option.process(opt, value, values, self)
File "/usr/local/lib/python2.5/optparse.py", line 782, in process
self.action, self.dest, opt, value, values, parser)
File "/usr/local/lib/python2.5/optparse.py", line 804, in take_action
parser.print_help()
File "/usr/local/lib/python2.5/optparse.py", line 1655, in print_help
file.write(self.format_help().encode(encoding, "replace"))
UnicodeDecodeError: 'ascii' codec can't decode byte 0xfc in position 54: ordinal not in range(128)



zweitens habe ich ein Problem bei
http://gutenberg.spiegel.de/?id=5&xid=883&kapitel=1

das Kapitel 1 steht nicht im Inhaltverzeichnis, also lädt er nur ab Kapitel 2 runter. Ist das ein Sonderfall?

Nergal
10-28-2008, 02:43 PM
ksiflhjla8, danke für die Hinweise. optparse verhält sich seit python 2.5.? tatsächlich anders. Python 2.4 (alte Gentoo-Installation ;) - lief ohne zu Murren, fasznierenderweise hatten auch einige Tests unter W2k mit Python 2.5 keinerlei Ärger bereitet. Ich werde es in Bälde fixen.

Wegen Wilhelm Meisters Wanderjahre ... was soll ich sagen, ja Ausnahme! Tut mir leid, aber ich empfehle einfach das eine Kapitel unter dem Inhaltsverzeichnis in die HTML-Datei per Hand zu kopieren, damit man erstmal lesen kann.

Es ist leider typisch für Gutenberg_DE derart inkonsequent zu arbeiten, es gibt fast soviele Ausnahmen wie es Regeln gibt ;).

Ich werde mich daran machen, sobald ich mal eine ruhige Minute habe.

Viel Spaß bei den Wanderjahren, die Lehrjahre scheinen ebenfalls betroffen, wenn Goethe das wüßte :))

Nergal.

mtravellerh
11-03-2008, 05:26 PM
Ich finde die Masche von Projekt Gutenberg Deutschland, einen Download der Werke derartig zu sabotieren und gar ein eigenes Copyright auf die Webseiten zu nehmen, schlicht Geschäftemacherei übelster Art.

Die machen das nur, um CDs mit "ihren" Werken zu verkaufen, was dem Geiste des "Projektes Gutenberg" ja wohl überhaupt nicht angemessen ist.

Dabei sind die Texte bei weitem nicht wirklich verlässlich korrekturgelesen.

Das sowas auch viel anders geht, kann man wohl an den englischsprachigen Gutenbergseiten sehen, wo die Formatierung wohl auch nicht immer klappt, aber doch wenigstens der Download keine Probleme birgt.

PS: Meine Karl May Texte stammen nicht vom Projekt Gutenberg.

JohnnySack
11-06-2008, 08:48 PM
Könnte irgendwer vielleicht mal erklären, wie man diese Datei ausführt? Ich sehe zwar eine Art Quellcode, kann diesen aber nicht als Programm ausführen. Habe leider keine Ahnung von Python, deshalb verzeiht diese blöde Frage;).

Nergal
11-08-2008, 12:04 PM
Hi JohnnySack - gibt keine blöden Fragen :)

Prinzipiell reicht es auf jedem System einzugeben (Windows: Start->Befehl ausführen-> "cmd" eingeben und bestätigen):

python gbde.py "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapitel=1&cHash=6764077ba5#gb_found"

oder einen anderen titel von gutenberg.spiegel.de

Was für ein System hast Du denn? Win, Mac, Linux?
Ist bei Dir Python auf dem Rechner installiert? http://www.python.org/download/

ksiflhjla8
11-13-2008, 12:43 AM
wieder im Wilhelm Meister, aber sicher auch anderswo.

Man kann nicht, wie das das Programm macht, aus dem "Inhaltsverzeichnis" einfach die Kapitel runterladen. Nicht jede html-Seite ist ein Kapitel, sonden die gehen z.T. über mehrere Seiten.

Man muss also auf die Druckversion der 1. Seite gehen und dann immer den "Vorwärtspfeil" drücken, dann kann man hoffen, den ganzen Text zu bekommen.

mtravellerh
11-13-2008, 03:59 AM
wieder im Wilhelm Meister, aber sicher auch anderswo.

Man kann nicht, wie das das Programm macht, aus dem "Inhaltsverzeichnis" einfach die Kapitel runterladen. Nicht jede html-Seite ist ein Kapitel, sonden die gehen z.T. über mehrere Seiten.

Man muss also auf die Druckversion der 1. Seite gehen und dann immer den "Vorwärtspfeil" drücken, dann kann man hoffen, den ganzen Text zu bekommen.

Soll mir noch mal jemand sagen, dass die das nicht absichtlich machen, um ihre Pfründe zu sichern. :angry:

HUBA
11-21-2008, 05:37 PM
das ganze noch in einer batch verpackt macht richtig freude ;)


@echo off
set /p url=URL:
set /p param=Parmeter:
python gbde.py %param% "%url%"
pause

einfach alles in ein verzeichnis packen oder python und gbde.py mit kompletten pfad angeben

fodiator
06-29-2009, 07:55 AM
Hi, habe eben dieses lässige Tool entdeckt, erhalte aber leider Fehlermeldungen (unter Linux, Python 2.5.2).

> gbde "http://gutenberg.spiegel.de/?id=5&xid=1873&kapitel=1#gb_found"
File "/home/harald/bin/gbde", line 502, in <module>
main()
File "/home/harald/bin/gbde", line 499, in main
g = Gutenberg_DE(url, opts)
File "/home/harald/bin/gbde", line 25, in __init__
content = self.get_content(toc)
File "/home/harald/bin/gbde", line 116, in get_content
chapter_text = self.get_chapter(raw_chapter, chapter_number)
File "/home/harald/bin/gbde", line 177, in get_chapter
chapter_url, chapter_name = raw_chapter.split(chapter_split_string)
ValueError: too many values to unpack


Bin leider ein Python Laie und würde mich freuen wenn jemand das Problem identifizieren könnte.

Vielen Dank im Voraus
mcframe

Josch91
07-10-2009, 04:45 PM
Bei mir funktioniert es auch nicht. Es kommt folgende Meldung:

C:\Users\Josch>gbde.py "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapi
tel=1&cHash=6764077ba5#gb_found"
File "C:\Users\Josch\gbde.py", line 18
''' % (title, author)
^
SyntaxError: invalid syntax

Wahrscheinlich stell ich mich auch einfach nur blöd an, aber es würde mich sehr freuen wenn mir jemand helfen kann.

Targor
07-11-2009, 03:09 AM
Bei mir funktioniert es auch nicht. Es kommt folgende Meldung:

Ich kenn mich zwar nicht aus, aber ich habs mal ohne das "&cHash=6764077ba5" probiert, da das bei einem anderen Versuch von mir in der URL nicht vorkam, also:

gbde.py "http://gutenberg.spiegel.de/index.php?id=5&xid=4227&kapi
tel=1#gb_found"

Und das hat bei mir funktioniert, jedenfalls bei deiner URL.

Bei Krieg und Frieden bekam ich aufs erste Mal eine Fehlermeldung, werde es nochmal probieren. Dauert bei mir sehr lang, was an dem ISDN-Anschluss liegen wird. Auf jeden Fall mein Kompliment für diesen Skript.

Krieg und Frieden hat diesmal wunderbar funktioniert. Allerdings mochte der Skript Kants Kritik der Urteilkraft nicht, er erkannte h4 Überschriften aus dem Online Text nur, wenn auf der selben Seite eine höhere Überschrift war.

Josch91
07-11-2009, 06:21 AM
Danke für deine Antwort. Wenn ich das "&cHash=6764077ba5" weglasse kommt bei mir keine Fehlermeldung mehr. Aber es tut sich leider auch sonst nichts. Ich kann lediglich einen neuen Befehl eingeben.

netseeker
07-11-2009, 11:07 AM
Hm, was mich da schon die ganze Zeit beschäftigt ist folgendes: Eigentlich gibt GaGa (Gemeinsam an Gutenberg arbeiten) die Texte ja gemeinfrei ab. ("Die fertigen Texte sind deshalb ebenfalls frei von Copyright und sind damit public domain.")

Kann man die Ergebnisse von GaGa irgendwo herunterladen oder anderweitig erhalten ohne den Weg über Gutenberg DE gehen zu müssen?

Josch91
07-11-2009, 05:11 PM
Nein, ich glaube nicht. Hier (http://www.gaga.net/pgdp/list_etexts.php?x=g) kann man zwar alle fertiggestellten Bücher sehen, aber nicht herunterladen.

mtravellerh
07-12-2009, 03:56 AM
Nein, ich glaube nicht. Hier (http://www.gaga.net/pgdp/list_etexts.php?x=g) kann man zwar alle fertiggestellten Bücher sehen, aber nicht herunterladen.

Ja, ich hab auch schon in die Richtung gedacht. Leider sehen wir allerdings die Texte nie komplett sondern immer nur als Einzelseiten. Auch gibt es sogar für Korrektoren keine DL-Möglichkeit

Josch91
07-12-2009, 06:39 AM
Ich finde es sowieso Schade was mit den fertigkorrigierten Texten passiert. Ich finde da wird ziemlich viel Potential verschenkt. Man könnte die Texte ja wirklich als html zum Download anbieten. Alles besser als sie auf Gutenberg-DE versauern zu lassen. Ich frage mich wer dort ganze Bücher liest. Wohl niemand.

T_Frain_K
07-12-2009, 10:37 AM
Ich frage mich ja, wie die CDs/DVDs von Gutenberg_DE aussehen. Bestimmt sind die Texte dann nur über ein dediziertes Programm einseh- und überhaupt nicht exportierbar. Hat die schon jemand gesehen?

mtravellerh
07-12-2009, 10:50 AM
Ich frage mich ja, wie die CDs/DVDs von Gutenberg_DE aussehen. Bestimmt sind die Texte dann nur über ein dediziertes Programm einseh- und überhaupt nicht exportierbar. Hat die schon jemand gesehen?

Ja. Sind xml.

hansl
07-30-2009, 10:18 AM
Bei mir funktioniert es auch nicht. Es kommt folgende Meldung:

Wahrscheinlich stell ich mich auch einfach nur blöd an, aber es würde mich sehr freuen wenn mir jemand helfen kann.

Hallo Josch91,

dieser Fehler tritt unter Python 3.x auf. print braucht neuerdings Klammern, also print('''...''') statt print '''...'''. Ich hatte den Ärger auch und bin daraufhin auf Python 2.6.2 umgestiegen. Jetzt geht's.

Viel Glück,
hansl

hansl
07-30-2009, 10:35 AM
Ich finde es sowieso Schade was mit den fertigkorrigierten Texten passiert. Ich finde da wird ziemlich viel Potential verschenkt. Man könnte die Texte ja wirklich als html zum Download anbieten. Alles besser als sie auf Gutenberg-DE versauern zu lassen. Ich frage mich wer dort ganze Bücher liest. Wohl niemand.

Klar, die wollen sich über ihren Shop finanzieren. Gestern habe ich mir die Edition 11 DVD bestellt, heute diesen Thread entdeckt. :rolleyes:
Jeden Tag eine gute Tat. 30 Euro für das Weltkulturerbe sind schon ok. Allerdings finde ich auch, dass das Gefühl der gezielten Behinderung auf der Website eher Leute verärgert, anstatt sie zum DVD-Kauf zu animieren.
Selbst wenn jemand das ganze Archiv spiegelte, wäre ich geneigt, das als kostenlosen Backup für Gutenberg-DE sehen. Von meinem einmaligen DVD-Kauf werden sie auch nicht überleben. Also kauft die DVD bitte trotzdem und nein, ich werde nicht von G.-DE bezahlt. Ich will nur nicht der Einzige sein, der das Teil je gekauft hat ;).

Grüße,
hansl

Josch91
07-30-2009, 10:35 AM
Danke für Deine Hilfe. Ich werde dass heute Abend gleich mal ausprobieren.

hansl
07-30-2009, 02:08 PM
Danke für Deine Hilfe. Ich werde dass heute Abend gleich mal ausprobieren.

Tja, "es geht" ist relativ. Ich bekomme zwar ein schönes HTML-Dokument, jedoch enthält es nur die Inhalte der jeweils ersten HTML-Seite pro Kapitel. Um das zu umgehen müsste gbde.py wohl stur die Kapitelnummer hochzählen bis keine entsprechende HTML-Seite mehr gefunden wird, denn ich glaube, dass jede Original-HTML-Seite eine eigene Kapitelnummer in der URL hat, unabhängig von der tatsächlichen Kapitelstruktur.
Also doch von der DVD auf den Reader laden. Schade.

hansl

hansl
08-03-2009, 06:01 AM
Noch ein Nachtrag: Ich habe die DVD inzwischen gekriegt und im Gegensatz zu den zerschnipselten Web-Seiten-Kapiteln sind da tatsächlich die angezeigten Seiten, d.h. nach HMTL oder XHTML (weiß ich jetzt nicht mehr) gerendertes XML, vollständige Kapitel...

hansl

ravenne
08-03-2009, 11:47 AM
Klar, die wollen sich über ihren Shop finanzieren. Gestern habe ich mir die Edition 11 DVD bestellt, heute diesen Thread entdeckt. :rolleyes:
Jeden Tag eine gute Tat. 30 Euro für das Weltkulturerbe sind schon ok. Allerdings finde ich auch, dass das Gefühl der gezielten Behinderung auf der Website eher Leute verärgert, anstatt sie zum DVD-Kauf zu animieren.
Selbst wenn jemand das ganze Archiv spiegelte, wäre ich geneigt, das als kostenlosen Backup für Gutenberg-DE sehen. Von meinem einmaligen DVD-Kauf werden sie auch nicht überleben. Also kauft die DVD bitte trotzdem und nein, ich werde nicht von G.-DE bezahlt. Ich will nur nicht der Einzige sein, der das Teil je gekauft hat ;).

Grüße,
hansl

Bist Du nicht, ich hab die auch :)

Marc_liest
08-03-2009, 12:32 PM
Bist Du nicht, ich hab die auch :)

Ach Ihr zwei seid das :D

K-Thom
08-03-2009, 06:34 PM
Oh, der Geist ist ja noch schwächer als das Fleisch ... anständige eBooker hätten sich die entsprechenden Reclamhefte in Fraktur geholt und auf den Scanner gelegt. CD-Leser, ihr ...! :p

Josch91
08-04-2009, 07:51 AM
Mir ist die DVD viel zu teuer. 30 € dafür dass ich mir wahrscheinlich nur einen Bruchteil der vorhandenen Texte durchlesen würde. Und diese gibt es ja sowieso alle kostenlos im Internet.

Schwabinger
08-16-2009, 05:59 AM
Eine Frage an die DVD Besitzer:

Kann man die Texte von der DVD mit vertretbarem Aufwand in einen Sony Reader bekommen?

Ein paar Minuten Cut and Paste sowie Search and Replace irendwelcher Html-Steuerzeichen würde ich pro Buch schon aufwenden können.

Ich bin demnächst in den USA und möchte den neuen Sony Pocket Reader mitbringen ...

Schwabinger

mtravellerh
08-16-2009, 11:09 AM
Eine Frage an die DVD Besitzer:

Kann man die Texte von der DVD mit vertretbarem Aufwand in einen Sony Reader bekommen?

Ein paar Minuten Cut and Paste sowie Search and Replace irendwelcher Html-Steuerzeichen würde ich pro Buch schon aufwenden können.

Ich bin demnächst in den USA und möchte den neuen Sony Pocket Reader mitbringen ...

Schwabinger

Hallo Schwabinger. Willkommen bei MobileRead.

Die Texte auf der DVD sind XML, also kein Problem, die auf Deinen Reader zu übertragen. Du kannst die Texte bsplsweise mit Cut and Paste zu HTML verwandeln und dann per Calibre in ePub, PDF oder auch LRF (weiss allerdings nicht, inwiefern die neuen Reader LRF noch supporten) übertragen. Einige der Texte sind auch schon hier bei uns vertreten.

drenthe
08-20-2009, 01:57 AM
Tja, "es geht" ist relativ. Ich bekomme zwar ein schönes HTML-Dokument, jedoch enthält es nur die Inhalte der jeweils ersten HTML-Seite pro Kapitel.

Ich habe in LINE 25: content = self.get_content(toc)
geändert in: content = self.get_content_by_chapter(url)
(wie LINE 29)

weiter habe ich (mit OSX - Leopard oder Tiger)
nach LINE 78: book_file_name = '%s - %s.html' % (author, title)
extra Zeilen eingefügt für Sonderzeichen, z.B.:
book_folder_name = book_folder_name.replace("/", ",")
book_folder_name = book_folder_name.replace("\x89", "É")
book_folder_name = book_folder_name.replace("\x96", "-")
book_folder_name = book_folder_name.replace("\x9f", "ß")
book_folder_name = book_folder_name.replace("\xa0", " ")
book_folder_name = book_folder_name.replace("\xa4", "ä")
usw.

LINE 79 habe ich (wegen diese Sonderzeichen) geändert in
book_file_name = book_folder_name+'.html'

(Ich kenne kein PYTHON)

etwas anderes: Zweitausendeins hat die DIE DIGITALE JUBILÄUMSBIBLIOTHEK 1.1 im angebot für 39,95 und seit kurzem gibt es bei www.versand-as.de neue software für die digitale bibliothek zum erstellen von html, epub, pdf, xml und rtf - alledings für 49,90

Schwabinger
08-21-2009, 03:02 AM
Hallo Schwabinger. Willkommen bei MobileRead.

Die Texte auf der DVD sind XML, also kein Problem, die auf Deinen Reader zu übertragen. Du kannst die Texte bsplsweise mit Cut and Paste zu HTML verwandeln und dann per Calibre in ePub, PDF oder auch LRF (weiss allerdings nicht, inwiefern die neuen Reader LRF noch supporten) übertragen. Einige der Texte sind auch schon hier bei uns vertreten.

Hi MtravellerH,

danke für die Info.

Schwabinger

hansl
09-09-2009, 09:59 AM
Ich habe in LINE 25: content = self.get_content(toc)
geändert in: content = self.get_content_by_chapter(url)
(wie LINE 29)


Hey, das hat hingehauen (unter Win XP, sollte überall gehen). Gut gesehen. :thanks:

@Ravenne: Das freut mich aber, so einem exklusiven Klub anzugehören. Wahrscheinlich sind wir schon Mediendinos. :xmas: (der Bart ist gemeint)

@Josh91: Mit 2 dünnen Papierbüchern bist Du aber auch schon gern mal mit 30 Euro dabei.

Schöne Grüße,
hansl

ravenne
09-09-2009, 10:06 AM
@Ravenne: Das freut mich aber, so einem exklusiven Klub anzugehören. Wahrscheinlich sind wir schon Mediendinos. :xmas: (der Bart ist gemeint)

Schöne Grüße,
hansl

:snicker: Damit kann ich persönlich gut leben! Wobei der Bart für mich als Frau natürlich schon leicht störend ist. Ich geh dann mal nach Epiliergeräten googeln.... ;)

Hanno
09-23-2009, 01:48 PM
Noch ein Nachtrag: Ich habe die DVD inzwischen gekriegt

Sind auf der DVD eigentlich die Grafiken besser? So grausam heruntergerechnete JPGs wie beim Struwwelpeter (http://gutenberg.spiegel.de/?id=5&xid=1216&kapitel=1#gb_found) sehen ja furchtbar aus.

hansl
10-01-2009, 07:11 PM
Sind auf der DVD eigentlich die Grafiken besser? So grausam heruntergerechnete JPGs wie beim Struwwelpeter (http://gutenberg.spiegel.de/?id=5&xid=1216&kapitel=1#gb_found) sehen ja furchtbar aus.

Nein, leider nicht. Kaum zu glauben. Ja mei, zum Glück gibt's genug Bilderfreies zu lesen. Nein, diese Tat ist auch für den Gewogenen schwer hinnehmbar.:angry:

hansl

Schwabinger
10-03-2009, 04:39 PM
Hi Drenthe,

wäre super, deine vollstände Liste der Sonderzeichen Ersetzungen zu bekommen.

Servus

Schwabinger

Ich habe in LINE 25: content = self.get_content(toc)
geändert in: content = self.get_content_by_chapter(url)
(wie LINE 29)

weiter habe ich (mit OSX - Leopard oder Tiger)
nach LINE 78: book_file_name = '%s - %s.html' % (author, title)
extra Zeilen eingefügt für Sonderzeichen, z.B.:
book_folder_name = book_folder_name.replace("/", ",")
book_folder_name = book_folder_name.replace("\x89", "É")
book_folder_name = book_folder_name.replace("\x96", "-")
book_folder_name = book_folder_name.replace("\x9f", "ß")
book_folder_name = book_folder_name.replace("\xa0", " ")
book_folder_name = book_folder_name.replace("\xa4", "ä")
usw.

LINE 79 habe ich (wegen diese Sonderzeichen) geändert in
book_file_name = book_folder_name+'.html'

(Ich kenne kein PYTHON)

etwas anderes: Zweitausendeins hat die DIE DIGITALE JUBILÄUMSBIBLIOTHEK 1.1 im angebot für 39,95 und seit kurzem gibt es bei www.versand-as.de neue software für die digitale bibliothek zum erstellen von html, epub, pdf, xml und rtf - alledings für 49,90

drenthe
10-09-2009, 05:14 AM
Hallo Schwabinger,

diese Liste habe ich bis jetzt gebraucht:

book_folder_name = book_folder_name.replace("/", ",")
book_folder_name = book_folder_name.replace("\x89", "É")
book_folder_name = book_folder_name.replace("\x96", "-")
book_folder_name = book_folder_name.replace("\x9f", "ß")
book_folder_name = book_folder_name.replace("\xa0", " ")
book_folder_name = book_folder_name.replace("\xa4", "ä")
book_folder_name = book_folder_name.replace("\xa7", "§")
book_folder_name = book_folder_name.replace("\xab", "«")
book_folder_name = book_folder_name.replace("\xbb", "»")
book_folder_name = book_folder_name.replace("\xbc", "ü")
book_folder_name = book_folder_name.replace("\xc3", "")
book_folder_name = book_folder_name.replace("\xc4", "Ä")
book_folder_name = book_folder_name.replace("\xc5", "Å")
book_folder_name = book_folder_name.replace("\xc7", "Ç")
book_folder_name = book_folder_name.replace("\xc9", "É")
book_folder_name = book_folder_name.replace("\xd6", "Ö")
book_folder_name = book_folder_name.replace("\xdc", "Ü")
book_folder_name = book_folder_name.replace("\xdf", "ß")
book_folder_name = book_folder_name.replace("\xe0", "à")
book_folder_name = book_folder_name.replace("\xe1", "á")
book_folder_name = book_folder_name.replace("\xe2", "â")
book_folder_name = book_folder_name.replace("\xe4", "ä")
book_folder_name = book_folder_name.replace("\xe6", "æ")
book_folder_name = book_folder_name.replace("\xe7", "ç")
book_folder_name = book_folder_name.replace("\xe8", "è")
book_folder_name = book_folder_name.replace("\xe9", "é")
book_folder_name = book_folder_name.replace("\xea", "ê")
book_folder_name = book_folder_name.replace("\xeb", "ë")
book_folder_name = book_folder_name.replace("\xef", "ï")
book_folder_name = book_folder_name.replace("\xf1", "ñ")
book_folder_name = book_folder_name.replace("\xf2", "ò")
book_folder_name = book_folder_name.replace("\xf3", "ó")
book_folder_name = book_folder_name.replace("\xf4", "ô")
book_folder_name = book_folder_name.replace("\xf6", "ö")
book_folder_name = book_folder_name.replace("\xf8", "ø")
book_folder_name = book_folder_name.replace("\xfb", "û")
book_folder_name = book_folder_name.replace("\xfc", "ü")

Viel Spass damit,

Drenthe

Schwabinger