Register Guidelines E-Books Search Today's Posts Mark Forums Read

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum > E-Books

Notices

Reply
 
Thread Tools Search this Thread
Old 04-03-2015, 09:25 AM   #1
Ranwhp
Member
Ranwhp began at the beginning.
 
Ranwhp's Avatar
 
Posts: 21
Karma: 10
Join Date: Jun 2012
Device: Huawei Media Pad 10 FHD
Alle eBooks auf einmal runterladen?

Ist es möglich alle deutschen Bücher in der Wikiliste auf einmal runterzuladen? Weil alle anklicken und dann in dem entsprechenden Post auszuwählen ist echt...
Hab zwar schon um die hälfte aber naja..

Ist es irgendwie möglich? Vielleicht mit scripts?

Danke!


EDIT:
Hier alle ebooks hiermit direkt downloaden
Benötigt wird nur Python 3 oder höher. https://www.python.org/downloads/

Dann wird das Programm/ Skript selbst enötigt, einfach die zip runterladen und entpacken.
https://github.com/IceflowRE/MR-eBoo...oader/releases

Falls ihr keine Erfahrung mit Python habt oder ein Fehler beim ersten Starten auftaucht, startet InstallMissingModules.sh mit Administrator Rechten.
Danach startet wieder die Start.sh oder besser über die Kommandozeile.
Der Download an sich sollte ziemlich zügig voran gehen. (Dies dauerte bei mir unter 20min, allerdings mit ner 1Gbit Leitung).
Nicht downloadbare Bücher werden während des Verlaufs angezeigt und können danach manuell gedownloadet werden (falls möglich).
Alle Bücher landen im ebook Ordner.
Desweiteren wird ein temp Ordner erstellt, der normalerweise auch wieder gelöscht werden sollte.
Und zwei Dateien einmal noEbookFound.txt, welche alle in der Wiki Liste vorhandenen Threads aufliststet, die mit hoher Wahrscheinlichkeit keine Bücher enthalten. Sowie update.data, diese sollte in jedem Fall nicht gelöscht werden, da diese die schon gedownloadeten Bücher vermerkt und nicht wieder downloadet, sofern nicht ein Update für jenes kam.

Experteneinstellungen:
Möglich Einstellungen für einen schnelleren Download findet ihr in der MrDeDownloader.py Datei und zwar diese Zeile "using_core = 4". Diese Zahl kann erhöht werden, belastet jedoch den Rechner und Server deutlich mehr! Auf eine Zahl über den Prozessorkernen des PC zu erhöhen macht jedoch keinen Sinn.
Möchtet ihr nur ein bestimmtes Format downloaden entfernt in der Datei MrDeDownloader.py in der Zeile "format_list = ['epub', 'mobi', 'lrf', 'imp', 'pdf', 'lit', 'azw', 'azw3', 'rar', 'lrx']" die entsprechenden Formate.

Hinweis:
Es werden einige Dateien gedownloadet welche keine Bücher sind, wie z.B. Bilder. Eine Datei die mir aufgefallen ist war eine Datei mit der Endung .pdb, diese ist jedoch ein .epub.

Bitte beachtet, dass dieses Download Tool die Server deutlich belasten können und eventuelle Banns oder ähnliches nicht ausgeschlossen.

Last edited by Ranwhp; Today at 09:14 AM.
Ranwhp is offline   Reply With Quote
Old 04-16-2015, 05:51 PM   #2
skreutzer
PublishingToolsDeveloper
skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.
 
skreutzer's Avatar
 
Posts: 199
Karma: 45354
Join Date: Jan 2014
Location: Germany
Device: PocketBook Touch Lux 3
Mit den Programmen GNU Wget und cURL dürfte das hinzubekommen sein. Um den Server nicht unnötig zu belasten, empfiehlt es sich, per Kommandozeilenparameter eine Verzögerung zwischen zwei Download-Vorgängen festzulegen.
skreutzer is offline   Reply With Quote
 
Advertisement
Old 04-17-2015, 08:40 AM   #3
Ranwhp
Member
Ranwhp began at the beginning.
 
Ranwhp's Avatar
 
Posts: 21
Karma: 10
Join Date: Jun 2012
Device: Huawei Media Pad 10 FHD
Das Problem was ich immer hatte mit meinem Überlegungen ist, dass die Wikiliste nur auf den Thread verweist wo dann der Link für das Buch ist und dieses über zwei Wege dahin... war immer mein Problem.
Ranwhp is offline   Reply With Quote
Old 04-18-2015, 03:25 AM   #4
skreutzer
PublishingToolsDeveloper
skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.
 
skreutzer's Avatar
 
Posts: 199
Karma: 45354
Join Date: Jan 2014
Location: Germany
Device: PocketBook Touch Lux 3
Ich habe mittlerweile die Wiki-Liste der deutschen Bücher gefunden und fürchte, dass das schon allein deswegen nicht so einfach sein dürfte, weil die EPUBs als generisches Attachment am Thread hängen und nicht von anderen Attachments zu unterscheiden wären, wenn welche vorhanden wären. Insofern müsste man wohl schon ein Script schreiben, aber weil es sich so anhört, als ob du die Aufgabenstellung schon händisch bewältigt hast, braucht man den Aufwand dafür nicht investieren, oder? Für andere Nutzer und die anderen Sprachen wäre so ein Script aber trotzdem ganz interessant, oder nicht? Gibt es jemanden, der das gerne hätte?

Last edited by skreutzer; 04-18-2015 at 05:23 AM.
skreutzer is offline   Reply With Quote
Old 04-25-2015, 09:53 AM   #5
Ranwhp
Member
Ranwhp began at the beginning.
 
Ranwhp's Avatar
 
Posts: 21
Karma: 10
Join Date: Jun 2012
Device: Huawei Media Pad 10 FHD
Ja hab schon einege per Hand, aber halt einige auch nicht.. und meine Zeit ist im Moment wegen der Schule knapp bemessen (Ok, Zeit fürs lesen hab ich noch und ein wenig um die ganzen Metadaten, welche in einigen Büchern doch teilweise Schrott sind: Erscheinungsjahr, Verlag usw.)

Aber das anstrengende ist halt aus der wiki liste immer den Thread zu öffnen und dann noch runterzuladen, dass dauert dann doch schon.

Und naja wäre iwie schön wen es sone Funktion geben würde
Ranwhp is offline   Reply With Quote
Old 04-26-2015, 06:40 PM   #6
skreutzer
PublishingToolsDeveloper
skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.
 
skreutzer's Avatar
 
Posts: 199
Karma: 45354
Join Date: Jan 2014
Location: Germany
Device: PocketBook Touch Lux 3
Ich habe soeben eine erste Fassung eines Workflows fertiggestellt, der genau das macht. Zwar macht der das nicht sonderlich intelligent und muss noch etwas aufgeräumt werden, in den nächsten Tagen jedoch gedenke ich, dessen einzelne Teile nach und nach zu veröffentlichen und ein Download-Package zusammenzuschnüren. Ist in Java programmiert.
skreutzer is offline   Reply With Quote
Old 05-01-2015, 02:38 PM   #7
Ranwhp
Member
Ranwhp began at the beginning.
 
Ranwhp's Avatar
 
Posts: 21
Karma: 10
Join Date: Jun 2012
Device: Huawei Media Pad 10 FHD
Nice! Freu mich schon darauf
Ranwhp is offline   Reply With Quote
Old 05-01-2015, 05:43 PM   #8
skreutzer
PublishingToolsDeveloper
skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.
 
skreutzer's Avatar
 
Posts: 199
Karma: 45354
Join Date: Jan 2014
Location: Germany
Device: PocketBook Touch Lux 3
Ein paar Details zur Implementierung: heruntergeladen werden die Thread-Anhänge derjenigen Links, die in der Tabelle mit „ePub“ beschriftet sind. Ein Aufruf des Programms dauert relativ lange, denn zwischen zwei Downloads ist eine Verzögerung von 5 Sekunden eingebaut, um den Server nicht zu überlasten, und die sollte auch nicht reduziert werden, weil das sonst mit Sicherheit gegen die Nutzungsbedingungen verstoßen und eine Art DoS-Attacke darstellen würde. Dadurch ergibt sich aber bei ca. 2200 Links aus der Tabelle, für welche jeweils der dazugehörige Thread und dann die Anhänge herunter geladen werden müssen, 6+ Stunden. Erschwerend kommt hinzu, dass die XSLT-Transformation, welche die Anhang-Links aus den Threads extrahiert, jedes Mal die DTDs und das Stylesheet neu einlesen muss, statt den vorhandenen Prozessor wiederverwenden zu können, was eine zusätzliche Verzögerung zur Folge hat. Insgesamt gesehen sollte man das Programm also besser nebenher mal laufen lassen, und jetzt nicht sofort ein Ergebnis erwarten.

Ferner wird nicht geprüft, ob ein Anhang bereits schon einmal heruntergeladen wurde oder ob Namenskonflikte bestehen, die Dateien werden im Ergebnis-Verzeichnis ohne Rückfrage überschrieben. Weil deutschsprachige Threads in ISO-8859-1 statt in UTF-8 encodiert sind, meine unixoide Betriebssystem-Umgebung aber von Haus aus UTF-8 zugrundelegt, enthalten die Dateinamen im Ergebnis-Verzeichnis dann nicht darstellbare Sonderzeichen.

Der Quellcode ist hier veröffentlicht: github.com/publishing-systems/clients. Brauchst du ein vorbereitetes Download-Package davon, für welches Betriebssystem?

Last edited by skreutzer; 05-02-2015 at 03:57 AM.
skreutzer is offline   Reply With Quote
Old 05-05-2015, 11:50 AM   #9
Ranwhp
Member
Ranwhp began at the beginning.
 
Ranwhp's Avatar
 
Posts: 21
Karma: 10
Join Date: Jun 2012
Device: Huawei Media Pad 10 FHD
Uuuuuhhhh nice! *-*
Habe windows 7 (Wäre vl ganz nett ) ) aber ich guck eben nochmal

Huii ist aber schon ganz schön groß geworden!

Last edited by Ranwhp; 05-05-2015 at 11:54 AM.
Ranwhp is offline   Reply With Quote
Old 05-06-2015, 07:43 PM   #10
skreutzer
PublishingToolsDeveloper
skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.
 
skreutzer's Avatar
 
Posts: 199
Karma: 45354
Join Date: Jan 2014
Location: Germany
Device: PocketBook Touch Lux 3
  1. mobileread_wiki_ebook_list_downloader1.zip herunterladen.
  2. Wenn möglich, die MD5-Prüfsumme des heruntergeladenen Zip-Archives mit eff1b8a28a0a9af8f6d5982cf7150ca8 vergleichen (muss übereinstimmen!)
  3. Zip-Archiv in einen Pfad entpacken, der möglichst keine Leerzeichen enthalten sollte.
  4. Im entpackten Verzeichnis die $/1_check_debug.bat ausführen.
  5. Nachkontrollieren, ob in der daraufhin erzeugten $/1_out.log eine Fehlermeldung steht (dass das Programm, namentlich Java, nicht gefunden werden konnte) oder die Version der Java-Laufzeitumgebung. Letzteres ist Voraussetzung (Version 1.6 oder höher), sonst muss erst die Java-Laufzeitumgebung installiert werden.
  6. Im entpackten Verzeichnis die $/2_setup_debug.bat ausführen.
  7. Im entpackten Verzeichnis die $/3_download_debug.bat ausführen.

In der daraufhin erzeugten $/3_out.log kann der Ablauf des Programms und etwaige Fehler nachvollzogen werden. Da diese Datei ständig aktualisert wird, empfiehlt es sich, selbige beim Betrachten öfters neu zu laden. Die Datei kann sehr umfangreich werden. In der ersten Stufe wird das Verzeichnis $/clients/mobileread/mobileread_wiki_ebook_list_downloader1/temp/ nach und nach mit *.xhtml- und *.xml-Dateien gefüllt. In der zweiten Phase wird der Ordner $/out/ angelegt, in dem dann die heruntergeladenen Anhänge langsam nacheinander erscheinen. Da Mobileread die Threads im deutschen Unterforum in ISO-8859-1-Encodierung statt UTF-8 ausliefert, werden sicherheitshalber alle Nicht-ASCII-Zeichen der Dateinamen der heruntergeladenen Dateianhänge durch einen Unterstrich ersetzt, um zu verhindern, dass dem Betriebssystem Probleme mit ungültigen Dateinamen verursacht werden. Das Paket enthält jetzt einiges mehr, als man eigentlich nur braucht, aber ich habe das erstmal nicht weiter getrennt voneinander, was zum Downloader gehört und was zur sonstigen Tool-Sammlung.

Bei Fragen, Fehlern, Verbesserungsvorschlägen oder Kritik einfach kurz Bescheid geben.

Last edited by skreutzer; 05-06-2015 at 07:45 PM.
skreutzer is offline   Reply With Quote
Old 05-07-2015, 06:56 AM   #11
Ranwhp
Member
Ranwhp began at the beginning.
 
Ranwhp's Avatar
 
Posts: 21
Karma: 10
Join Date: Jun 2012
Device: Huawei Media Pad 10 FHD
Thumbs up

Voll cool Kritik hab ich keine! Ich finds mega hammer, dass es noch Leute gibt die sowas für einen/ alle machen!

Nur die drite log datei Die Kopiert eig nur immer wieder das Copyright

Was ich noch nicht weiß ist, wie bricht man das Programm ab ^^ Kann man es einfach gefahrlost schließen?

Das Batch Fenster ist ja offen, vl könnte man da ne Anzeige einbauen, wie viele es gibt, wieviele .xml man schon hat und von wie vielen man die anhänge schon hat. Und dann (falls das normale schließen Probleme macht ein Abrruchsbefehl einbauen ^^ ) Und ein Fortsetzen einbauen

Last edited by Ranwhp; 05-07-2015 at 06:58 AM.
Ranwhp is offline   Reply With Quote
Old 05-07-2015, 07:13 AM   #12
skreutzer
PublishingToolsDeveloper
skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.
 
skreutzer's Avatar
 
Posts: 199
Karma: 45354
Join Date: Jan 2014
Location: Germany
Device: PocketBook Touch Lux 3
Ja, jedes Programm gibt bei jedem Aufruf erstmal den Lizenzhinweis aus, damit der Nutzer über die ihm eingeräumten Rechte unterrichtet wird. Weil das alles in Komponentenbauweise zu einem größeren Workflow zusammengeschaltet ist, passiert das eben sehr oft, weil die einzelnen beteiligten Programme in der Regel auch einzeln aufgerufen werden können, und hier keine Unterscheidung getroffen wird, ob einmalig oder mehrmals hintereinander (bisher).

Das Batch-Fenster kann man einfach schließen, wenn man die Ausführung abbrechen will, denn hier muss zum Ende nicht noch aufgeräumt werden oder so. Wenn der Workflow alles heruntergeladen hat, schließt sich das Fenster von selbst.

Wenn statt der $/3_download_debug.bat die $/3_download.bat aufgerufen wird, dann ist im Batch-Fenster auch die Ausgabe zu sehen, in der Debug-Variante wird selbige aber in besagte $/3_out.log umgeleitet (um nachsehen zu können, ob etwas schief gelaufen ist), da bleibt das Fenster leer. Ich habe noch keinen Batch-Befehl gefunden, wo man gleichzeitig sowohl auf der Konsole ausgeben als auch in eine Datei umleiten kann. Ein wenig kann man sich den Fortschritt erschließen, wenn man sich die $/clients/mobileread/mobileread_wiki_ebook_list_downloader1/temp/list.xml anschaut, dann verfolgt, wie im selben Verzeichnis die *.xhtml-Dateien heruntergeladen werden, die anschließend jeweils zu *.xml transformiert werden, und dann im $/out/-Verzeichnis die heruntergeladenen Anhänge landen. Ich könnte aber auch versuchen, den Fortschritt mit ausgeben zu lassen. Fändest du das hilfreich oder reicht es, die Dateien in den Verzeichnissen zu beobachten? Auch habe ich mir überlegt, dass es ganz gut wäre, wenn noch ein bisschen mehr Metadaten (Dateiname, Quelle) rausgeschrieben werden würden, aber ob man das braucht, hat dann in erster Linie damit zu tun, was du mit den heruntergeladenen Anhängen dann anstellen willst.
skreutzer is offline   Reply With Quote
Old 05-07-2015, 08:53 AM   #13
Ranwhp
Member
Ranwhp began at the beginning.
 
Ranwhp's Avatar
 
Posts: 21
Karma: 10
Join Date: Jun 2012
Device: Huawei Media Pad 10 FHD
Kann es sein, dass beim ausführen der batch datei donwload.bat, es komplett von vorne anfängt?

Meinst mit Metadaten rausgeschrieben, in den Dateinamen miteingefügt?

Last edited by Ranwhp; 05-07-2015 at 08:58 AM.
Ranwhp is offline   Reply With Quote
Old 05-07-2015, 09:03 AM   #14
skreutzer
PublishingToolsDeveloper
skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.skreutzer is that somebody.
 
skreutzer's Avatar
 
Posts: 199
Karma: 45354
Join Date: Jan 2014
Location: Germany
Device: PocketBook Touch Lux 3
1) Ja, das fängt komplett von vorne an, leert das $/clients/mobileread/mobileread_wiki_ebook_list_downloader1/temp/-Verzeichnis (aber nicht $/out/, dort wird überschrieben). Es ist (noch?) kein Mechanismus vorhanden, der prüft, ob neue Links zur Liste hinzugekommen sind oder die Thread-Anhänge verändert wurden. Ich gehe auch mal davon aus, dass, wenn man die E-Books heruntergeladen hat, das nicht so bald wiederholen wird, nur um die neuesten 1-2 auch noch zu bekommen, oder doch?

2) Besser in eine separate Datei zwecks Weiterverarbeitung.
skreutzer is offline   Reply With Quote
Old 05-07-2015, 09:14 AM   #15
Ranwhp
Member
Ranwhp began at the beginning.
 
Ranwhp's Avatar
 
Posts: 21
Karma: 10
Join Date: Jun 2012
Device: Huawei Media Pad 10 FHD
1) wär schön wen es das gäbe, aber stimmt man wiederholt das nicht solange wieder (aber vl eben deshalb? )

2) aber sind die Metadaten nicht in den Anhängen da nicht schon drin? ^^
Ranwhp is offline   Reply With Quote
Reply

Thread Tools Search this Thread
Search this Thread:

Advanced Search

Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Calibre - Runterladen von News wolfkalb Software 5 12-05-2011 09:22 AM
Deutsche ebooks auf Kobobooks.com Poppaea E-Books 8 09-27-2011 10:55 PM
Kindle DX graphite Review - Es war einmal... Passepartout Amazon Kindle 125 06-05-2011 08:20 AM
20% Rabatt auf alle Amazon mp3s! blogbook Lounge 5 03-02-2010 05:24 AM
Alle eBooks ohne DRM beam Deutsches Forum 10 06-07-2009 03:56 PM


All times are GMT -4. The time now is 07:05 PM.


MobileRead.com is a privately owned, operated and funded community.