Register Guidelines E-Books Today's Posts Search

Go Back   MobileRead Forums > Non-English Discussions > Deutsches Forum

Notices

Reply
 
Thread Tools Search this Thread
Old 08-04-2011, 02:41 AM   #76
Lebewesen
Junior Member
Lebewesen has a complete set of Star Wars action figures.Lebewesen has a complete set of Star Wars action figures.Lebewesen has a complete set of Star Wars action figures.Lebewesen has a complete set of Star Wars action figures.Lebewesen has a complete set of Star Wars action figures.
 
Lebewesen's Avatar
 
Posts: 6
Karma: 444
Join Date: May 2011
Device: OYO
Einfaches Kopieren von Gutenberg-DE

Ich habe ein AutoPager Skript erstellt, das alle Seiten hintereinander auf den Bildschirm lädt. Damit ist es dann kein Problem alles auf einmal zu kopieren.

Für Gutenberg-DE
Code:
<autopager>
<site><urlPattern>http://gutenberg.spiegel.de/buch/*</urlPattern>
<guid>03E77C9C-6BE2-F813-9EE8-F01B-3E0B-82B5</guid>
<margin>3</margin>
<owner>Bastian Hepp</owner>
<enableJS>false</enableJS>
<quickLoad>true</quickLoad>
<contentXPath>//div[@id='gutenb']</contentXPath>
<testLink>http://gutenberg.spiegel.de/buch/1834/2</testLink>
<linkXPath>//div[@id='spArticleColumn']/a[contains(text(),'&gt;&gt;')]</linkXPath>
<desc>AutoPager rule for gutenberg.spiegel.de</desc>
</site>
</autopager>
Und auch noch für Zeno.org

Code:
<autopager>
<site><urlPattern>http://www.zeno.org/Literatur/*</urlPattern>
<guid>21D6CA09-0BA2-13F6-18D7-E27E-FAB3-99F2</guid>
<margin>1</margin>
<owner>Bastian Hepp</owner>
<enableJS>false</enableJS>
<quickLoad>true</quickLoad>
<contentXPath>//div[@id='zenoCOText' and @class='zenoCO']/div[@class='zenoCOMain']</contentXPath>
<testLink>http://www.zeno.org/Literatur/M/Arnim,+Ludwig+Achim+von/Erz%C3%A4hlungen/Der+Wintergarten</testLink>
<linkXPath>//a[@rel='next']</linkXPath>
<desc>AutoPager rule for www.zeno.org</desc>
</site>
<site><urlPattern>http://www.zeno.org/Literatur/*</urlPattern>
<guid>BC5A4276-071E-EE2E-4FD6-4F18-C9D7-CFAB</guid>
<margin>1</margin>
<owner>Bastian Hepp</owner>
<enableJS>false</enableJS>
<quickLoad>true</quickLoad>
<contentXPath>//body</contentXPath>
<testLink>http://www.zeno.org/Literatur/M/Arnim,+Ludwig+Achim+von/Erz%C3%A4hlungen/Der+Wintergarten</testLink>
<linkXPath>//div[@id='zenoCOText']/div[3]</linkXPath>
<desc>AutoPager rule for www.zeno.org</desc>
</site>
</autopager>
Man muss einfach nur die AutoPager Grenzen entfernen, und hat dann das ganze Buch.

Die Regeln finden sich nun auch Online für Autopager.

Last edited by Lebewesen; 08-04-2011 at 02:54 AM.
Lebewesen is offline   Reply With Quote
Old 08-05-2011, 01:29 AM   #77
Hokuspokus
Fidibus
Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.Hokuspokus ought to be getting tired of karma fortunes by now.
 
Posts: 440
Karma: 2246533
Join Date: Feb 2010
Device: none
Das wird nützlich sein. Danke!
Hokuspokus is offline   Reply With Quote
Advert
Old 08-06-2011, 11:15 AM   #78
Billi
Wizard
Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.Billi ought to be getting tired of karma fortunes by now.
 
Billi's Avatar
 
Posts: 3,388
Karma: 14190103
Join Date: Jun 2009
Location: Berlin
Device: Cybook, iRex, PB, Onyx
Vielen Dank, Lebewesen, für den tollen Tip. Klappt auch mit dem Opera sehr gut.
Billi is offline   Reply With Quote
Old 08-08-2011, 05:42 AM   #79
Lebewesen
Junior Member
Lebewesen has a complete set of Star Wars action figures.Lebewesen has a complete set of Star Wars action figures.Lebewesen has a complete set of Star Wars action figures.Lebewesen has a complete set of Star Wars action figures.Lebewesen has a complete set of Star Wars action figures.
 
Lebewesen's Avatar
 
Posts: 6
Karma: 444
Join Date: May 2011
Device: OYO
Das ganze dann in ein E-Book umzuwandeln benötigt nur ein bisschen Handarbeit und ein paar Programme. Anschließend hat man ein "perfektes" E-Book.

Hier nur mal ein grober Abriss, wie dies zu machen wäre.

Zuerst lässt man Autopager alle Seiten laden, und speichert dann die Seite in eine Datei. Diese nimmt man sich dann mit einem Texteditor wie Notepad2, Notepad++ oder PSPad vor.

Die Grundiee die dahinter steckt habe ich in diesem Tutorial beschrieben.

Händisch muss man erst einmal den "Vor/Nachspann" von Spiegel entfernen.

Über RegEx bekommt man Autopager los:
Code:
<div id="apBreakStart.*
<div style="display: none;" id="apBreakEnd.*
Die diversen Auszeichnungen von html zu Txt2Tags (PSPad Regex)
Suchen (S)
Ersetzen (E)

Code:
S: \s*<h3.*?>(.*)</h3>
E: === $1 ===
Es wird nach MÖGLICHEN Leerzeichen gesucht \s*
h3 Überschriften werden gesucht <h3
danach kann noch was kommen .*? (? nach * => lazy)
aber nur bis zu >
was nun kommt wird im Ersetzen verwenden (.*)
bis es abgeschlossen wird </h3>

Ersetzt wird es mit === Was in der Klammer steht ===


Code:
S: \s*</?p.*?>
E: \n
hiermit werden Absetze erzeugt.

Code:
S: \s*<a name="page.*?>.*</a>
E:
Entfernung der Anker

Für die diversen & # 8249 ; und ähnlich muss man einfach in Browser nachschauen was das für Zeichen sind.


Für GutenbergDE habe ich jetzt ein Perl Script geschrieben. Wenn alle Seiten geladen sind, speichert man die HTML Datei. Anschließend startet man das Script mit dem Dateinamen der HTML Datei als Option. Anschließend ist nur noch wenig Handarbeit nötig, um ein Valides txt2tags Dokument zu erstellen. Daraus kann man dann diverse Formate erzeugen.

Allerdings sollte man das Dokument noch nach verbliebenen Tags (<) durchsuchen.
Attached Files
File Type: pl GutenbergDE_to_txt2tags.pl (8.1 KB, 352 views)

Last edited by Lebewesen; 08-12-2011 at 02:16 AM. Reason: Skript hinzugefügt
Lebewesen is offline   Reply With Quote
Reply


Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Bücher von Gutenberg_de ? NASCARaddicted E-Books 24 09-30-2012 07:20 AM


All times are GMT -4. The time now is 12:50 PM.


MobileRead.com is a privately owned, operated and funded community.