View Single Post
Old 02-06-2010, 03:00 AM   #12
KLAO
Junior Member
KLAO began at the beginning.
 
Posts: 8
Karma: 10
Join Date: Jan 2010
Device: SONY PRS 600
Pages Sciences du Nouvel OBS

Bonjour,
J'ai essayé de bidouiller une recette pour récupérer les pages sciences du Nouvel Obs en n'hésitant pas à "emprunter" du code à d'autres recettes. Je réussis à télécharger les pages désirées dans Calibre. Malheureusement sur mon PRS 600 le résultat n'est pas très agréable puisque la page créée contient trop de colonnes. Quelle instruction faut-il utiliser pour ne pas télécharger les colonnes latérales (gauche et droite) contenant une liste d'articles ou de la pub?
Voilà le code en question:

class AdvancedUserRecipe1265105283(BasicNewsRecipe):
title = u'NOUVEL OBS SCIENCE'
oldest_article = 20
max_articles_per_feed = 100
feeds = [(u'NOUVEL OBS SCIENCE', u'http://rss.nouvelobs.com/c/32262/f/437916/index.rss')]
def parse_index(self):
articles = []
soup = self.index_to_soup(self.INDEX)
for item in soup.findAll('a', attrs={'class':'story_link_o'}):
if item.has_key('href'):
url = self.INDEX + item['href'].replace('action_id=2','action_id=100')
title = self.tag_to_string(item)
c_date = strftime('%A, %d %B, %Y')
description = ''
articles.append({
'title':title,
'date':c_date,
'url':url,
'description':description
})
return [(soup.head.title.string, articles)]
KLAO is offline   Reply With Quote