View Single Post
Old 12-27-2009, 01:53 PM   #16
Sturgis
Groupie
Sturgis has a complete set of Star Wars action figures.Sturgis has a complete set of Star Wars action figures.Sturgis has a complete set of Star Wars action figures.Sturgis has a complete set of Star Wars action figures.Sturgis has a complete set of Star Wars action figures.
 
Sturgis's Avatar
 
Posts: 165
Karma: 496
Join Date: Nov 2009
Location: Germany
Device: Pocketbook 360, iPodTouch
So... jetzt habe ich mir die Python-Skripte angeschaut mit denen Calibre z.B. das deutsche "Spiegel Online" runterlädt.

Das Skript sieht so aus (ich habe den Originaltitel durch 'Mein Spiegel Online - German' ersetzt):

Quote:
#!/usr/bin/env python

__license__ = 'GPL v3'
__copyright__ = '2009, Darko Miletic <darko.miletic at gmail.com>'
'''
spiegel.de
'''

from calibre.web.feeds.news import BasicNewsRecipe

class Spiegel_ger(BasicNewsRecipe):
title = 'Mein Spiegel Online - German'
__author__ = 'Darko Miletic'
description = "Immer die neueste Meldung auf dem Schirm, sekundenaktuell und uebersichtlich: Mit dem RSS-Angebot von SPIEGEL ONLINE entgeht Ihnen keine wichtige Meldung mehr, selbst wenn Sie keinen Internet-Browser geoeffnet haben. Sie koennen unsere Nachrichten-Feeds ganz einfach abonnieren - unkompliziert, kostenlos und nach Ihren persoenlichen Themen-Vorlieben."
publisher = 'SPIEGEL ONLINE Gmbh'
category = 'SPIEGEL ONLINE, DER SPIEGEL, Nachrichten, News,Dienste, RSS, RSS, Feedreader, Newsfeed, iGoogle, Netvibes, Widget'
oldest_article = 7
max_articles_per_feed = 100
language = 'de'
lang = 'de-DE'
no_stylesheets = True
use_embedded_content = False
encoding = 'cp1252'

conversion_options = {
'comment' : description
, 'tags' : category
, 'publisher' : publisher
, 'language' : lang
}


keep_only_tags = [dict(name='div', attrs={'id':'spArticleContent'})]

remove_tags = [dict(name=['object','link','base','iframe'])]

remove_tags_after = dict(name='div', attrs={'id':'spArticleBody'})

feeds = [(u'Spiegel Online', u'http://www.spiegel.de/schlagzeilen/index.rss')]

def print_version(self, url):
rmt = url.rpartition('#')[0]
main, sep, rest = rmt.rpartition(',')
rmain, rsep, rrest = main.rpartition(',')
purl = rmain + ',druck-' + rrest + ',' + rest
return purl
Laut diesem Skript sollten die Metadaten in Calibre dann so aussehen:

Titel = 'Mein Spiegel Online - German'
Autor = 'Darko Miletic'
Herausgeber = 'SPIEGEL ONLINE Gmbh'
Etiketten = 'SPIEGEL ONLINE, DER SPIEGEL, Nachrichten, News, Dienste, RSS, RSS, Feedreader, Newsfeed, iGoogle, Netvibes, Widget'

Nach dem Laden steht der Feed aber bei mir in Calibre mit folgenden Metadaten:

Titel: 'calibre 0.6.30 FfMvDl recipe out' ???? Wo kommt das her?
Autor: 'unbekannt'
Herausgeber: keiner
Etiketten: 'Nachrichten, Mein Spiegel Online - German' ???? Tag Nachrichten und "Mein"-Titel

Dies ist jetzt der Moment wo ich benötige!

Wer kennt Calibre so weit, dass er mir sagen kann warum das so umgesetzt wird, bzw. wo diese zusätzliche Konvertierung passiert?



Edit: Die ???? Angaben sind Kommentare, die nicht in den Metadaten stehen.

Last edited by Sturgis; 12-27-2009 at 01:57 PM.
Sturgis is offline   Reply With Quote