View Single Post
Old 02-15-2012, 06:19 PM   #126
fortwienix
Enthusiast
fortwienix is clearly one to watchfortwienix is clearly one to watchfortwienix is clearly one to watchfortwienix is clearly one to watchfortwienix is clearly one to watchfortwienix is clearly one to watchfortwienix is clearly one to watchfortwienix is clearly one to watchfortwienix is clearly one to watchfortwienix is clearly one to watchfortwienix is clearly one to watch
 
Posts: 47
Karma: 10848
Join Date: Mar 2011
Device: 902
Tagesanzeiger

Hallo,

anbei das bereits länger in der Mache befindliche Script für den Tagesanzeiger. Hier gibt ein paar Probleme. Löblich, der Tagesanzeiger hat noch eine spezielle Printversion, die man praktisch über die URL erreicht und nicht per Javascript aufrufen muß. Nachteil, es gibt links einen Block, dessen Anfang man problemlos feststellen kann, das Ende des selbigen aber nicht. Dazu müßte man eigentlich das HTML mit einem XML Parser und nicht per Regex parsen.

Ich hab versucht, diesen Block mittels <div style="display: none"> zu verstecken. Das funktiniert aber zuverläßig nur im Coolreader. Der installierte Browser sowie die beiden fbreader Varianten, die ich installiert habe, zeigen diesen Block trotzdem an. Der Coolreader wiederum kann kein Inhaltsverzeichnis anzeigen.

Prinzipiell wäre es eine Idee, die Scripte mal zu konsolidieren und zu vereinheitlichen. In diesem Zuge könnte man z.B. auch alle <script> Tags u.ä. entfernen. Mir fehlt ein bischen die Zeit um da weiter zu experimentieren, um z.B. eventuell auch Perl oder sowas zum Laufen zu bekommen, was das Parsen der Daten deutlich vereinfachen würde.

Die Scripte folgen alle mehr oder weniger dem gleichen Prinzip.
# es werden die einzelnen rss feeds heruntergeladen
# aus den feeds werden die URLs für einen einzelnen Artikel extrahiert
# Wenn diese Liste steht, wird jeder einzelne Artikel heruntergeladen und umgeformt
# Umbrechen einzelner tags (meistens <div>) auf eine neue Zeile um die folgenden Schritte zu vereinfachen und vor allem um das HTML nicht kaputt zu machen, wenn Teile extrahiert werden.
# finden der Zeile mit dem Artikelanfang
# finden der Zeile mit dem Artikelende
# Ausschneiden des Artikeltextes
# Umformen des Artikeltextes, und dann in die HTML Datei schreiben
# optional: Extra suchen der Überschrift
# optional: suchen der img tags mit den Bildern, um diese herunter zuladen, Anschließend, muß das src Attribut auf den neuen Speicherort der Bilddatei angepaßt werden.
# Damit ein Inhaltsverzeichnis erscheint, müssen die Artikelüberschriften in einem <h1> Tag eingebettet sein. Alle anderen hX Tags werden entfernt.

Suchen und Ersetzen geht mit sed. grep wird nur zum Suchen von Textmustern benutzt.

So wenn ich wieder ein bischen Zeit habe, kann ich mir den Jyllands Posten mal anschauen.

Grüße, fortwienix
Attached Files
File Type: zip tagesanzeiger.zip (2.2 KB, 66 views)
fortwienix is offline   Reply With Quote