Das ganze dann in ein E-Book umzuwandeln benötigt nur ein bisschen Handarbeit und ein paar Programme. Anschließend hat man ein "perfektes" E-Book.
Hier nur mal ein grober Abriss, wie dies zu machen wäre.
Zuerst lässt man Autopager alle Seiten laden, und speichert dann die Seite in eine Datei. Diese nimmt man sich dann mit einem Texteditor wie Notepad2, Notepad++ oder PSPad vor.
Die Grundiee die dahinter steckt habe ich in
diesem Tutorial beschrieben.
Händisch muss man erst einmal den "Vor/Nachspann" von Spiegel entfernen.
Über RegEx bekommt man Autopager los:
Code:
<div id="apBreakStart.*
<div style="display: none;" id="apBreakEnd.*
Die diversen Auszeichnungen von html zu Txt2Tags (PSPad Regex)
Suchen (S)
Ersetzen (E)
Code:
S: \s*<h3.*?>(.*)</h3>
E: === $1 ===
Es wird nach MÖGLICHEN Leerzeichen gesucht \s*
h3 Überschriften werden gesucht <h3
danach kann noch was kommen .*?
(? nach * => lazy)
aber nur bis zu >
was nun kommt wird im Ersetzen verwenden (.*)
bis es abgeschlossen wird </h3>
Ersetzt wird es mit === Was in der Klammer steht ===
Code:
S: \s*</?p.*?>
E: \n
hiermit werden Absetze erzeugt.
Code:
S: \s*<a name="page.*?>.*</a>
E:
Entfernung der Anker
Für die diversen & # 8249 ; und ähnlich muss man einfach in Browser nachschauen was das für Zeichen sind.
Für GutenbergDE habe ich jetzt ein Perl Script geschrieben. Wenn alle Seiten geladen sind, speichert man die HTML Datei. Anschließend startet man das Script mit dem Dateinamen der HTML Datei als Option. Anschließend ist nur noch wenig Handarbeit nötig, um ein Valides txt2tags Dokument zu erstellen. Daraus kann man dann diverse Formate erzeugen.
Allerdings sollte man das Dokument noch nach verbliebenen Tags (<) durchsuchen.