08-04-2011, 02:41 AM | #76 |
Junior Member
Posts: 6
Karma: 444
Join Date: May 2011
Device: OYO
|
Einfaches Kopieren von Gutenberg-DE
Ich habe ein AutoPager Skript erstellt, das alle Seiten hintereinander auf den Bildschirm lädt. Damit ist es dann kein Problem alles auf einmal zu kopieren.
Für Gutenberg-DE Code:
<autopager> <site><urlPattern>http://gutenberg.spiegel.de/buch/*</urlPattern> <guid>03E77C9C-6BE2-F813-9EE8-F01B-3E0B-82B5</guid> <margin>3</margin> <owner>Bastian Hepp</owner> <enableJS>false</enableJS> <quickLoad>true</quickLoad> <contentXPath>//div[@id='gutenb']</contentXPath> <testLink>http://gutenberg.spiegel.de/buch/1834/2</testLink> <linkXPath>//div[@id='spArticleColumn']/a[contains(text(),'>>')]</linkXPath> <desc>AutoPager rule for gutenberg.spiegel.de</desc> </site> </autopager> Code:
<autopager> <site><urlPattern>http://www.zeno.org/Literatur/*</urlPattern> <guid>21D6CA09-0BA2-13F6-18D7-E27E-FAB3-99F2</guid> <margin>1</margin> <owner>Bastian Hepp</owner> <enableJS>false</enableJS> <quickLoad>true</quickLoad> <contentXPath>//div[@id='zenoCOText' and @class='zenoCO']/div[@class='zenoCOMain']</contentXPath> <testLink>http://www.zeno.org/Literatur/M/Arnim,+Ludwig+Achim+von/Erz%C3%A4hlungen/Der+Wintergarten</testLink> <linkXPath>//a[@rel='next']</linkXPath> <desc>AutoPager rule for www.zeno.org</desc> </site> <site><urlPattern>http://www.zeno.org/Literatur/*</urlPattern> <guid>BC5A4276-071E-EE2E-4FD6-4F18-C9D7-CFAB</guid> <margin>1</margin> <owner>Bastian Hepp</owner> <enableJS>false</enableJS> <quickLoad>true</quickLoad> <contentXPath>//body</contentXPath> <testLink>http://www.zeno.org/Literatur/M/Arnim,+Ludwig+Achim+von/Erz%C3%A4hlungen/Der+Wintergarten</testLink> <linkXPath>//div[@id='zenoCOText']/div[3]</linkXPath> <desc>AutoPager rule for www.zeno.org</desc> </site> </autopager> Die Regeln finden sich nun auch Online für Autopager. Last edited by Lebewesen; 08-04-2011 at 02:54 AM. |
08-05-2011, 01:29 AM | #77 |
Fidibus
Posts: 440
Karma: 2246533
Join Date: Feb 2010
Device: none
|
Das wird nützlich sein. Danke!
|
08-06-2011, 11:15 AM | #78 |
Wizard
Posts: 3,388
Karma: 14190103
Join Date: Jun 2009
Location: Berlin
Device: Cybook, iRex, PB, Onyx
|
Vielen Dank, Lebewesen, für den tollen Tip. Klappt auch mit dem Opera sehr gut.
|
08-08-2011, 05:42 AM | #79 |
Junior Member
Posts: 6
Karma: 444
Join Date: May 2011
Device: OYO
|
Das ganze dann in ein E-Book umzuwandeln benötigt nur ein bisschen Handarbeit und ein paar Programme. Anschließend hat man ein "perfektes" E-Book.
Hier nur mal ein grober Abriss, wie dies zu machen wäre. Zuerst lässt man Autopager alle Seiten laden, und speichert dann die Seite in eine Datei. Diese nimmt man sich dann mit einem Texteditor wie Notepad2, Notepad++ oder PSPad vor. Die Grundiee die dahinter steckt habe ich in diesem Tutorial beschrieben. Händisch muss man erst einmal den "Vor/Nachspann" von Spiegel entfernen. Über RegEx bekommt man Autopager los: Code:
<div id="apBreakStart.* <div style="display: none;" id="apBreakEnd.* Suchen (S) Ersetzen (E) Code:
S: \s*<h3.*?>(.*)</h3> E: === $1 === h3 Überschriften werden gesucht <h3 danach kann noch was kommen .*? (? nach * => lazy) aber nur bis zu > was nun kommt wird im Ersetzen verwenden (.*) bis es abgeschlossen wird </h3> Ersetzt wird es mit === Was in der Klammer steht === Code:
S: \s*</?p.*?> E: \n Code:
S: \s*<a name="page.*?>.*</a> E: Für die diversen & # 8249 ; und ähnlich muss man einfach in Browser nachschauen was das für Zeichen sind. Für GutenbergDE habe ich jetzt ein Perl Script geschrieben. Wenn alle Seiten geladen sind, speichert man die HTML Datei. Anschließend startet man das Script mit dem Dateinamen der HTML Datei als Option. Anschließend ist nur noch wenig Handarbeit nötig, um ein Valides txt2tags Dokument zu erstellen. Daraus kann man dann diverse Formate erzeugen. Allerdings sollte man das Dokument noch nach verbliebenen Tags (<) durchsuchen. Last edited by Lebewesen; 08-12-2011 at 02:16 AM. Reason: Skript hinzugefügt |
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
Bücher von Gutenberg_de ? | NASCARaddicted | E-Books | 24 | 09-30-2012 07:20 AM |