![]() |
#1 |
Member
![]() Posts: 22
Karma: 20
Join Date: Aug 2011
Device: Kindle 3
|
Request: Folha de Sao Paulo (Brazil) from UOL portal
It would be very nice if someone could create a recipe for the complete content of Folha de Sao Paulo offered by the UOL (www.uol.com.br/fsp) portal, I would do it but I do not know how to handle the download when there is no rss feed.
Someone? |
![]() |
![]() |
![]() |
#2 |
Wizard
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 4,004
Karma: 177841
Join Date: Dec 2009
Device: WinMo: IPAQ; Android: HTC HD2, Archos 7o; Java:Gravity T
|
|
![]() |
![]() |
Advert | |
|
![]() |
#3 |
Member
![]() Posts: 22
Karma: 20
Join Date: Aug 2011
Device: Kindle 3
|
Talking to a really noob here... where can i find instructions?
|
![]() |
![]() |
![]() |
#4 |
Member
![]() Posts: 22
Karma: 20
Join Date: Aug 2011
Device: Kindle 3
|
Ok, I've found the references for the Calibre manual and I managed to pass the password but I can't understand the parse_index() syntax. I used the NYTimes example from the manual, made some changes, but I guess I have to change something on the soup.findAll() function. I have NO knowledge on programing in python, actually NO knowledge at programing at all. So I need some patience from helpers.
Well, the code I am using is: Code:
import string, re from calibre import strftime from calibre.web.feeds.recipes import BasicNewsRecipe from calibre.ebooks.BeautifulSoup import BeautifulSoup class FSP(BasicNewsRecipe): title = 'Folha de São Paulo UOL' __author__ = 'Luis Fernando' description = 'Notícias Folha de São Paulo' timefmt = ' [%a, %d %b, %Y]' needs_subscription = True remove_tags_before = dict(id='article') remove_tags_after = dict(id='article') remove_tags = [dict(attrs={'class':['articleTools', 'post-tools', 'side_tool', 'nextArticleLink clearfix']}), dict(id=['footer', 'toolsRight', 'articleInline', 'navigation', 'archive', 'side_search', 'blog_sidebar', 'side_tool', 'side_index']), dict(name=['script', 'noscript', 'style'])] encoding = 'cp1252' no_stylesheets = True extra_css = 'h1 {font: sans-serif large;}\n.byline {font:monospace;}' def get_browser(self): br = BasicNewsRecipe.get_browser() if self.username is not None and self.password is not None: br.open('https://acesso.uol.com.br/login.html') br.form = br.forms().next() br['user'] = self.username br['pass'] = self.password br.submit() return br def parse_index(self): soup = self.index_to_soup('http://www1.folha.uol.com.br/fsp/indices/') def feed_title(div): return ''.join(div.findAll(text=True, recursive=False)).strip() articles = {} key = None ans = [] for div in soup.findAll(True, attrs={'class':['section-headline', 'story', 'story headline']}): if div['class'] == 'section-headline': key = string.capwords(feed_title(div)) articles[key] = [] ans.append(key) elif div['class'] in ['story', 'story headline']: a = div.find('a', href=True) if not a: continue url = re.sub(r'\?.*', '', a['href']) url += '?pagewanted=all' title = self.tag_to_string(a, use_alt=True).strip() description = '' pubdate = strftime('%a, %d %b') summary = div.find(True, attrs={'class':'summary'}) if summary: description = self.tag_to_string(summary, use_alt=False) feed = key if key is not None else 'Uncategorized' if not articles.has_key(feed): articles[feed] = [] if not 'podcasts' in url: articles[feed].append( dict(title=title, url=url, date=pubdate, description=description, content='')) ans = self.sort_index_by(ans, {'The Front Page':-1, 'Dining In, Dining Out':1, 'Obituaries':2}) ans = [(key, articles[key]) for key in ans if articles.has_key(key)] return ans def preprocess_html(self, soup): refresh = soup.find('meta', {'http-equiv':'refresh'}) if refresh is None: return soup content = refresh.get('content').partition('=')[2] raw = self.browser.open('http://www1.folha.uol.com.br/fsp/'+content).read() return BeautifulSoup(raw.decode('cp1252', 'replace')) and the page I want to get the index has the following code: Code:
<HTML> <!--noindex--> <head> <title>Folha de S.Paulo - Índice</title> <script language="javascript" type="text/javascript" src="http://www1.folha.uol.com.br/folha/furniture/ads/banners.js"></script> </head> <BODY BACKGROUND="/fsp/images/findice.gif" BGCOLOR="#FFFFFF" TEXT="#000000" LINK="#000000" VLINK="#888888" ALINK="#ffff00"> <!--BARRA_DO_UOL-600--> <table width="600" border="0" cellpadding="0" cellspacing="0"> <tr align="center"><td><script language="javascript" type="text/javascript" src="http://barra.uol.com.br/b/barrain.js"></script></td></tr> </table> <!--/BARRA_DO_UOL-600--> <!--BANNERS--> <table width="600" border="0" cellpadding="0" cellspacing="0"> <tr align="center" valign="middle"><td height="70"> <script language="javascript" type="text/javascript"><!-- folha_ads_show( 'calhau' , '468x60', '1' ) ; //--></script> </td></tr> </table> <!--/BANNERS--> <BR> <table border=0 cellpadding=0 cellspacing=0 width=560> <tr> <td align=right><img src="/fsp/images/fsplogo.gif" border=0> <br><font size=1>São Paulo, Terça-feira, 16 de Agosto de 2011</font></td> </tr> </table> <TABLE width=600 cellpadding=0 cellspacing=0> <TR> <TD WIDTH=100> </TD> <TD><IMG SRC="/fsp/images/barind.gif" WIDTH=500 height="1"></TD> </TR> </TABLE> <!-- Navegação das Editorias ---> <table border=0 cellpadding=0 cellspacing=0 width=560> <tr> <td align=right> <font size=-1> <!-- ATUALIZAR A DATA DO INDEX --> <A HREF="/fsp/">capa</A> | <A HREF="#opiniao">opini�o</A> | <A HREF="#poder">poder</A> | <A HREF="#mundo">mundo</A> | <A HREF="#ciencia">ci�ncia</A> | <A HREF="#mercado">mercado</A> | <A HREF="#cotidian">cotidiano</A> | <A HREF="#saude">sa�de</A> | <A HREF="#esporte">esporte</A> | <A HREF="#ilustrad">ilustrada</A> | <A HREF="#quadrin">quadrinhos</A> | <A HREF="#campinas">campinas</A> | <A HREF="#corrida">folha corrida</A> | <A HREF="#ribeirao">ribeir�o</A> | <A HREF="#equilibrio">equil�brio</A> | <!-- <A HREF="#especial">especial</A> | --> <A HREF="/fsp/cp16082011.htm">fac-símile da Primeira Página</A> | <A HREF="/fsp/arquivo.htm">arquivo</A> </font> </td> </tr> </table> <br> <table width = 500> <tr><td width=100></td> <td width=400> <!--- Aqui começa a parte automática ----> <BR><BR> <table width=400><tr><td width=350> <A Name = "opiniao"><img src="/fsp/images/opiniao.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B>Editoriais:<a href="/fsp/opiniao/fz1608201101.htm"> A imagem de Dilma</a><BR></B> <B>Editoriais:<a href="/fsp/opiniao/fz1608201102.htm"> Orgulho vetado<br></a><BR></B> <B>São Paulo - Fernando de Barros e Silva:<a href="/fsp/opiniao/fz1608201103.htm"> Quanto vale a Agricultura?</a><BR></B> <B>Brasília - Eliane Cantanhêde:<a href="/fsp/opiniao/fz1608201104.htm"> Escolinha do professor Fred</a><BR></B> <B>Rio de Janeiro - Carlos Heitor Cony:<a href="/fsp/opiniao/fz1608201105.htm"> Juízo final</a><BR></B> <B>Vladimir Safatle:<a href="/fsp/opiniao/fz1608201106.htm"> Colapso moral<br></a><BR></B> <B>TENDÊNCIAS/DEBATES<br>Boaventura de Sousa Santos:<a href="/fsp/opiniao/fz1608201107.htm"> O caos da ordem</a><BR></B> <B>Rogério Cezar de Cerqueira Leite:<a href="/fsp/opiniao/fz1608201108.htm"> Por uma revisão da legislação patentária<br></a><BR></B> <B><a href="/fsp/opiniao/fz1608201109.htm">Painel do Leitor</a><BR></B> <B><a href="/fsp/opiniao/fz1608201110.htm">Erramos</a><BR></B> <BR><BR> <table width=400><tr><td width=350> <A Name = "poder"><img src="/fsp/images/poder.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/poder/po1608201101.htm">Painel</a><BR></B> <B><a href="/fsp/poder/po1608201102.htm">Agricultura teve licitações "corrompidas", diz servidor</a><BR></B> <DD><a href="/fsp/poder/po1608201103.htm">Frases</a><BR> <DD>Outro lado:<a href="/fsp/poder/po1608201104.htm"> Ministro afirma que funcionário precisa exibir "nomes e provas"</a><BR> <DD><a href="/fsp/poder/po1608201105.htm">Servidor é alvo de processo na Agricultura</a><BR> <DD>Agricultura:<a href="/fsp/poder/po1608201106.htm"> Homem de confiança de Mantega é o novo número 2 da pasta</a><BR> <B>Janio de Freitas:<a href="/fsp/poder/po1608201107.htm"> O crime na frente</a><BR></B> <B><a href="/fsp/poder/po1608201108.htm">Convênio suspeito do Turismo foi assinado em tempo recorde</a><BR></B> <DD>ONGs:<a href="/fsp/poder/po1608201109.htm"> Embratur vai suspender convênios</a><BR> <B><a href="/fsp/poder/po1608201110.htm">Dilma critica "abusos" em investigações</a><BR></B> <DD><a href="/fsp/poder/po1608201111.htm">Senadores cobram "faxina mais ampla" no governo</a><BR> <B><a href="/fsp/poder/po1608201112.htm">General afirma que Jobim "já foi tarde"</a><BR></B> <B>Foco:<a href="/fsp/poder/po1608201113.htm"> Boeing instala simulador de voo para atrair congressistas</a><BR></B> <B>Ex-presidente:<a href="/fsp/poder/po1608201114.htm"> Instituto Lula terá participação de dois ministros do governo Dilma</a><BR></B> <B><a href="/fsp/poder/po1608201115.htm">Alta do petróleo e dólar barato elevam lucro da Petrobras</a><BR></B> <B><a href="/fsp/poder/po1608201116.htm">Governo teme projetos que elevam gastos</a><BR></B> <B><a href="/fsp/poder/po1608201117.htm">Dilma veta proposta de aumento real a aposentado</a><BR></B> <B><a href="/fsp/poder/po1608201118.htm">Economistas defendem cautela para baixar juros</a><BR></B> <BR><BR> <table width=400><tr><td width=350> <A Name = "mundo"><img src="/fsp/images/mundo.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/mundo/ft1608201101.htm">Gigantismo de ação para salvar Espanha e Itália surpreende</a><BR></B> <B><a href="/fsp/mundo/ft1608201102.htm">Obama lança turnê em tom de campanha e é alvo de críticas</a><BR></B> <DD><a href="/fsp/mundo/ft1608201103.htm">Embaixador dos EUA assume cargo em Washington</a><BR> <B>Análise/De novo, a crise:<a href="/fsp/mundo/ft1608201104.htm"> Juros baixos não bastam para compradores</a><BR></B> <B><a href="/fsp/mundo/ft1608201105.htm">Série de ataques no Iraque deixa 60 mortos</a><BR></B> <B><a href="/fsp/mundo/ft1608201106.htm">Paquistão fica em alerta após voo dos EUA</a><BR></B> <DD><a href="/fsp/mundo/ft1608201107.htm">País acelerou produção de ogivas nucleares</a><BR> <B>Clóvis Rossi:<a href="/fsp/mundo/ft1608201108.htm"> Populismo vive, viva o populismo?</a><BR></B> <B><a href="/fsp/mundo/ft1608201109.htm">Bolivianos protestam contra obra brasileira</a><BR></B> <B><a href="/fsp/mundo/ft1608201110.htm">Fragilidade da oposição ajuda Cristina em primárias</a><BR></B> <B>Minha História - Abdirizak Ali Mohamed, 22:<a href="/fsp/mundo/ft1608201111.htm"> Medicina de alto risco</a><BR></B> <BR><BR> <table width=400><tr><td width=350> <A Name = "ciencia"><img src="/fsp/images/ciencia.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/ciencia/fe1608201101.htm">FOLHA.com</a><BR></B> <B><a href="/fsp/ciencia/fe1608201102.htm">Amazônia é a galinha dos ovos de ouro do agronegócio brasileiro</a><BR></B> <DD><a href="/fsp/ciencia/fe1608201103.htm">Frase</a><BR> <DD>Raio-X:<a href="/fsp/ciencia/fe1608201104.htm"> Thomas Lovejoy, 69</a><BR> <BR><BR> <table width=400><tr><td width=350> <A Name = "mercado"><img src="/fsp/images/mercado.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/mercado/me1608201101.htm">Mercado Aberto</a><BR></B> <B><a href="/fsp/mercado/me1608201102.htm">Cotações/Ontem</a><BR></B> <B><a href="/fsp/mercado/me1608201103.htm">Google compra Motorola e desafia Apple</a><BR></B> <DD>Análise:<a href="/fsp/mercado/me1608201104.htm"> Além das patentes, Google busca trunfo na disputa por royalty</a><BR> <DD>E eu com isso?:<a href="/fsp/mercado/me1608201105.htm"> Disputa com Apple pode reduzir preços</a><BR> <B><a href="/fsp/mercado/me1608201106.htm">País tem R$ 300 mi em moedas perdidas</a><BR></B> <B>Vinicius Torres Freire:<a href="/fsp/mercado/me1608201107.htm"> Dilma, efeito Obama, chá e lama</a><BR></B> <B>Foco:<a href="/fsp/mercado/me1608201108.htm"> Byafra 'espanta' ladrão em vídeo e vira sucesso na web</a><BR></B> <B>Telefonia:<a href="/fsp/mercado/me1608201109.htm"> Oi lucra R$ 354 mi no 2� trimestre, queda de 14%</a><BR></B> <B>Commodities:<a href="/fsp/mercado/me1608201110.htm"> Marfrig estuda comprar parte da BR Foods</a><BR></B> <DD><a href="/fsp/mercado/me1608201111.htm">Conta de luz pode ficar R$ 1 tri menor em 20 anos, diz FIESP</a><BR> <DD>Análise/Commodities:<a href="/fsp/mercado/me1608201112.htm"> Fundamentos econômicos sólidos mantêm o milho em alta</a><BR> <B>Vaivém - Mauro Zafalon:<a href="/fsp/mercado/me1608201113.htm"> Preço do feijão sobe com perdas no Nordeste</a><BR></B> <B><a href="/fsp/mercado/me1608201114.htm">Projeto limita atuação de correspondente bancário</a><BR></B> <B>Balanço:<a href="/fsp/mercado/me1608201115.htm"> BNDESPar engorda lucro no 1� semestre com venda de ações</a><BR></B> <B><a href="/fsp/mercado/me1608201116.htm">FOLHA.com</a><BR></B> <B>Benjamin Steinbruch:<a href="/fsp/mercado/me1608201117.htm"> Não perder o afã</a><BR></B> <B><a href="/fsp/mercado/me1608201118.htm">Nordeste deve puxar setor de conveniência</a><BR></B> <DD><a href="/fsp/mercado/me1608201119.htm">Faturamento de posto com loja é 35% maior</a><BR> <BR><BR> <table width=400><tr><td width=350> <A Name = "cotidian"><img src="/fsp/images/cotidian.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/cotidian/ff1608201101.htm">Fiscalização pró-pedestre multa 378 por dia</a><BR></B> <DD><a href="/fsp/cotidian/ff1608201102.htm">PM aplicou 469 autuações em três dias</a><BR> <DD><a href="/fsp/cotidian/ff1608201103.htm">Professora foi atropelada na faixa, afirmam testemunhas</a><BR> <DD><a href="/fsp/cotidian/ff1608201104.htm">Semáforo é instalado e já tem pane</a><BR> <B>Jairo Marques:<a href="/fsp/cotidian/ff1608201105.htm"> Você sabe mexer com um PC?</a><BR></B> <B><a href="/fsp/cotidian/ff1608201106.htm">A cidade é sua</a><BR></B> <B><a href="/fsp/cotidian/ff1608201107.htm">Atmosfera</a><BR></B> <B><a href="/fsp/cotidian/ff1608201108.htm">Há 90 Anos</a><BR></B> <B>Foco:<a href="/fsp/cotidian/ff1608201109.htm"> Prefeitura planeja demolir viaduto na av. Nove de Julho</a><BR></B> <B><a href="/fsp/cotidian/ff1608201110.htm">Alckmin recicla meta em plano para metrô</a><BR></B> <DD><a href="/fsp/cotidian/ff1608201111.htm">Frase</a><BR> <B><a href="/fsp/cotidian/ff1608201112.htm">Lojistas cercam Kassab e pedem abertura da Feira da Madrugada</a><BR></B> <DD><a href="/fsp/cotidian/ff1608201113.htm">Frase</a><BR> <B>Lixo:<a href="/fsp/cotidian/ff1608201114.htm"> São Paulo recebe primeiro contêiner e coleta mecanizada</a><BR></B> <B><a href="/fsp/cotidian/ff1608201115.htm">Juíza temia processo de policial, diz família</a><BR></B> <DD><a href="/fsp/cotidian/ff1608201116.htm">Família da juíza critica atitude do governo</a><BR> <DD>Opinião:<a href="/fsp/cotidian/ff1608201117.htm"> Implementação do programa estadual de proteção é urgente</a><BR> <B><a href="/fsp/cotidian/ff1608201118.htm">Mortes</a><BR></B> <DD>José Saldanha Menezes Sobrinho (1918-2011):<a href="/fsp/cotidian/ff1608201119.htm"> Zé Saldanha, o "repórter das rimas"</a><BR> <B><a href="/fsp/cotidian/ff1608201120.htm">No último mês, Vila Cruzeiro teve quatro arrastões</a><BR></B> <DD><a href="/fsp/cotidian/ff1608201121.htm">Frases</a><BR> <DD><a href="/fsp/cotidian/ff1608201122.htm">Jovens de classe média roubam em clube</a><BR> <B>Foco:<a href="/fsp/cotidian/ff1608201123.htm"> Umidade relativa do ar atinge níveis de deserto em Brasília</a><BR></B> <B><a href="/fsp/cotidian/ff1608201124.htm">Segurança de casa noturna espanca rapaz, diz família</a><BR></B> <B><a href="/fsp/cotidian/ff1608201125.htm">FOLHA.com</a><BR></B> <B><a href="/fsp/cotidian/ff1608201126.htm">Número de divórcios dispara em SP após lei</a><BR></B> <DD><a href="/fsp/cotidian/ff1608201127.htm">Frase</a><BR> <B><a href="/fsp/cotidian/ff1608201128.htm">Governo cria comitê para gerenciar aeroportos</a><BR></B> <B>Vacinação:<a href="/fsp/cotidian/ff1608201129.htm"> São Paulo prorroga campanha contra paralisia infantil</a><BR></B> <B><a href="/fsp/cotidian/ff1608201130.htm">Parquinho no Rio já teve outra morte</a><BR></B> <DD><a href="/fsp/cotidian/ff1608201131.htm">Frases</a><BR> <DD>Depoimento:<a href="/fsp/cotidian/ff1608201132.htm"> "Quando dei por mim, já estava com a cabeça ensanguentada"</a><BR> <B>Araçatuba:<a href="/fsp/cotidian/ff1608201133.htm"> Garota de 11 anos é achada bêbada na rua</a><BR></B> <B>Homofobia:<a href="/fsp/cotidian/ff1608201134.htm"> Homens agridem transexual após acidente</a><BR></B> <B>Facção criminosa:<a href="/fsp/cotidian/ff1608201135.htm"> Rota prende acusado de sete assassinatos</a><BR></B> <BR><BR> <table width=400><tr><td width=350> <A Name = "saude"><img src="/fsp/images/saude.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/saude/sd1608201101.htm">Químio aquecida causa polêmica nos EUA</a><BR></B> <DD><a href="/fsp/saude/sd1608201102.htm">Tratamento está se disseminando no país</a><BR> <BR><BR> <table width=400><tr><td width=350> <A Name = "esporte"><img src="/fsp/images/esporte.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/esporte/fk1608201101.htm">Painel FC</a><BR></B> <B><a href="/fsp/esporte/fk1608201102.htm">Alvo</a><BR></B> <DD><a href="/fsp/esporte/fk1608201103.htm">Presidente diz ter recusado oferta do PSG por Ganso</a><BR> <B>São Paulo:<a href="/fsp/esporte/fk1608201104.htm"> Após cirurgia, Luis Fabiano festeja já conseguir andar normalmente</a><BR></B> <B>Palmeiras:<a href="/fsp/esporte/fk1608201105.htm"> Diretoria admite interesse em emprestar Pierre ao Atlético-MG</a><BR></B> <B><a href="/fsp/esporte/fk1608201106.htm">Peso pesados</a><BR></B> <DD><a href="/fsp/esporte/fk1608201107.htm">Inter já admite perder atletas no novo cenário</a><BR> <DD><a href="/fsp/esporte/fk1608201108.htm">Somos líderes por sorte, diz goleiro</a><BR> <B><a href="/fsp/esporte/fk1608201109.htm">Cartola faz explodir dívida do Barcelona</a><BR></B> <DD><a href="/fsp/esporte/fk1608201110.htm">Polícia apura gastos e lucro de partida no DF</a><BR> <B>Seleção:<a href="/fsp/esporte/fk1608201111.htm"> Amistoso com Egito deverá ser cancelado</a><BR></B> <B>Los gringos - Paul Doyle:<a href="/fsp/esporte/fk1608201112.htm"> Finais infelizes</a><BR></B> <B>Entrevista - Eduardo de Rose:<a href="/fsp/esporte/fk1608201113.htm"> Não tenho contato nem contrato, não defendo o atleta</a><BR></B> <DD><a href="/fsp/esporte/fk1608201114.htm">O doping de Solberg / perguntas e respostas</a><BR> <B><a href="/fsp/esporte/fk1608201115.htm">Laboratório não é consultado e pede explicações a federação</a><BR></B> <B><a href="/fsp/esporte/fk1608201116.htm">Bellucci se perde em Grand Slams</a><BR></B> <DD><a href="/fsp/esporte/fk1608201117.htm">Tenista lamenta irregularidade</a><BR> <B>Indy:<a href="/fsp/esporte/fk1608201118.htm"> Prova de SP vai ressarcir torcida</a><BR></B> <B>Inglês:<a href="/fsp/esporte/fk1608201119.htm"> Agüero anota 2 gols na estreia</a><BR></B> <BR><BR> <table width=400><tr><td width=350> <A Name = "ilustrad"><img src="/fsp/images/ilustrad.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/ilustrad/fq1608201101.htm">Astrologia</a><BR></B> <B>José Simão:<a href="/fsp/ilustrad/fq1608201102.htm"> UEBA! Algema só de sex shop!</a><BR></B> <B>Televisão/Outro Canal - Keila Jimenez:<a href="/fsp/ilustrad/fq1608201103.htm"> Globo quer exibir show do Rei em 3D</a><BR></B> <DD><a href="/fsp/ilustrad/fq1608201104.htm">Melhor do dia</a><BR> <DD>Crítica:<a href="/fsp/ilustrad/fq1608201105.htm"> 'Gloria, a Mulher' é remake que não quis bater o filme original</a><BR> <DD><a href="/fsp/ilustrad/fq1608201106.htm">Acidente de carro é ponto de partida da minissérie 'Collision'</a><BR> <DD><a href="/fsp/ilustrad/fq1608201107.htm">Programação de TV</a><BR> <B><a href="/fsp/ilustrad/fq1608201108.htm">Mônica Bergamo</a><BR></B> <B><a href="/fsp/ilustrad/fq1608201109.htm">A princesinha das artes</a><BR></B> <DD><a href="/fsp/ilustrad/fq1608201110.htm">Pai e filha divergem sobre a presidência</a><BR> <B>Tecnologia:<a href="/fsp/ilustrad/fq1608201111.htm"> Prêmio Sergio Motta anuncia os 12 indicados</a><BR></B> <B><a href="/fsp/ilustrad/fq1608201112.htm">FOLHA.com</a><BR></B> <B>Minha História - Andrew Zingg, 21:<a href="/fsp/ilustrad/fq1608201113.htm"> Esqueceram de mim</a><BR></B> <B><a href="/fsp/ilustrad/fq1608201114.htm">Cinemateca celebra a partir de hoje o "Chaplin latino"</a><BR></B> <B><a href="/fsp/ilustrad/fq1608201115.htm">Vanguart reinventa o neofolk em 'Boa Parte de Mim Vai Embora'</a><BR></B> <DD><a href="/fsp/ilustrad/fq1608201116.htm">Roqueiros sensíveis se opõem aos tipos malvados de 2000</a><BR> <DD>Crítica/POP:<a href="/fsp/ilustrad/fq1608201117.htm"> Segundo CD mantém atmosfera retrô e não cede a versos fáceis</a><BR> <BR><BR> <table width=400><tr><td width=350> <A Name = "quadrin"><img src="/fsp/images/quadrin.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/quadrin/f31608201101.htm">Chiclete com Banana</a><BR></B> <B><a href="/fsp/quadrin/f31608201102.htm">Piratas do Tietê</a><BR></B> <B><a href="/fsp/quadrin/f31608201103.htm">Bifaland, a cidade maldita</a><BR></B> <B><a href="/fsp/quadrin/f31608201104.htm">Daiquiri</a><BR></B> <B><a href="/fsp/quadrin/f31608201105.htm">Níquel Náusea</a><BR></B> <B><a href="/fsp/quadrin/f31608201106.htm">Mundo Monstro</a><BR></B> <B><a href="/fsp/quadrin/f31608201107.htm">Macanudo</a><BR></B> <BR><BR> <table width=400><tr><td width=350> <A Name = "campinas"><img src="/fsp/images/campinas.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/campinas/cm1608201101.htm">ACONTECE<br>Cinema - Sinopses</a><BR></B> <B><a href="/fsp/campinas/cm1608201102.htm">Endereços</a><BR></B> <BR><BR> <table width=400><tr><td width=350> <A Name = "corrida"><img src="/fsp/images/corrida.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/corrida/cr1608201101.htm">Após nova lei, divórcios aumentam 286% em SP</a><BR></B> <B><a href="/fsp/corrida/cr1608201102.htm">Rápidas</a><BR></B> <B><a href="/fsp/corrida/cr1608201103.htm">Amanhã na Folha</a><BR></B> <B><a href="/fsp/corrida/cr1608201104.htm">5 Minutos</a><BR></B> <B><a href="/fsp/corrida/cr1608201105.htm">+Colunas</a><BR></B> <B><a href="/fsp/corrida/cr1608201106.htm">Frases do dia</a><BR></B> <B><a href="/fsp/corrida/cr1608201107.htm">Folha.com</a><BR></B> <BR><BR> <table width=400><tr><td width=350> <A Name = "ribeirao"><img src="/fsp/images/ribeirao.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B><a href="/fsp/ribeirao/ri1608201101.htm">Recreativa sofre roubo durante matinê</a><BR></B> <DD><a href="/fsp/ribeirao/ri1608201102.htm">Clube pretende reavaliar locação de seu salão</a><BR> <B><a href="/fsp/ribeirao/ri1608201103.htm">Novo camelódromo sairá com ao menos um ano de atraso</a><BR></B> <B><a href="/fsp/ribeirao/ri1608201104.htm">Toque de recolher só vale após Festa do Peão</a><BR></B> <B>Saúde:<a href="/fsp/ribeirao/ri1608201105.htm"> Sindicato dos propagandistas rejeita proposta da Prefeitura de Ribeirão</a><BR></B> <B><a href="/fsp/ribeirao/ri1608201106.htm">Dois juízes de Ribeirão recebem escolta</a><BR></B> <B>Bicicletas roubadas:<a href="/fsp/ribeirao/ri1608201107.htm"> Adolescente de 17 anos se apresenta à Polícia Civil</a><BR></B> <B>Parque:<a href="/fsp/ribeirao/ri1608201108.htm"> Com carrapatos, Maurilio Biagi é fechado por um dia</a><BR></B> <B>Pós-acidente:<a href="/fsp/ribeirao/ri1608201109.htm"> Depois de cirurgia no pé, Dárcy Vera volta ao trabalho</a><BR></B> <B>Trânsito:<a href="/fsp/ribeirao/ri1608201110.htm"> Promotoria entra com ação para que Transerp pare de multar</a><BR></B> <BR><BR> <table width=400><tr><td width=350> <A Name = "equilibrio"><img src="/fsp/images/equilibrio.gif" border=0></A> </td> <td width=50> <A HREF="#top"><img src="/fsp/images/topfsp.gif" border=0></A> <BR> </td></tr></table> <B>Outras ideias - Anna Veronica Mautner:<a href="/fsp/equilibrio/eq1608201101.htm"> Mudanças no cotidiano</a><BR></B> <B><a href="/fsp/equilibrio/eq1608201102.htm">Tudo em três tempos</a><BR></B> <B><a href="/fsp/equilibrio/eq1608201103.htm">Comente, pergunte</a><BR></B> <B>Roda e avisa:<a href="/fsp/equilibrio/eq1608201104.htm"> Produtos, serviços e ideias para o corpo e o espírito</a><BR></B> <B><a href="/fsp/equilibrio/eq1608201105.htm">É uma tristeza</a><BR></B> <DD><a href="/fsp/equilibrio/eq1608201106.htm">Frases</a><BR> <DD><a href="/fsp/equilibrio/eq1608201107.htm">É depressão ou melancolia?</a><BR> <DD>Análise:<a href="/fsp/equilibrio/eq1608201108.htm"> Uma bela visão do apocalipse</a><BR> <DD><a href="/fsp/equilibrio/eq1608201109.htm">Produtividade melancólica</a><BR> <B><a href="/fsp/equilibrio/eq1608201110.htm">Bonsai-terapia</a><BR></B> <DD><a href="/fsp/equilibrio/eq1608201111.htm">Cuide do seu</a><BR> <B>Neuro - Suzana Herculano-Houzel:<a href="/fsp/equilibrio/eq1608201112.htm"> Palavras, palavrinhas e palavrões</a><BR></B> <B>Rosely Sayão:<a href="/fsp/equilibrio/eq1608201113.htm"> Criança não sabe brincar</a><BR></B> <!-- Aqui termina a parte automática ----> <!-- Começa o Rodapé ---> <BR><BR> </td></tr></table> </table> |
![]() |
![]() |
![]() |
#5 |
Member
![]() Posts: 22
Karma: 20
Join Date: Aug 2011
Device: Kindle 3
|
Here is an example of a specific page:
Code:
<!-- Página criada com o WebAssist 4.0 / Para uso do Universo Online e parceiros / WA4EPA036@UOL --> <html> <head> <title>Folha de S.Paulo - Dilma corta gastos de ministros aliados e poupa áreas do PT - 21/08/2011</title> <meta name="section" content="Folha de S.Paulo - Poder"> <meta name="title" content="Dilma corta gastos de ministros aliados e poupa áreas do PT"> <meta name="date" content="2h30 21/08/2011"> <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> <meta http-equiv="Pragma" content="no-cache"> <meta http-equiv="Expires" content="Thu, 01 Jan 1970 00:00:00 GMT"> <meta http-equiv="Cache-Control" content="no-store"> <script language="javascript" type="text/javascript" src="http://www1.folha.uol.com.br/folha/furniture/ads/banners.js"></script> </head> <BODY BACKGROUND="images/fbrasil.gif" TEXT="#000000" LINK="#000000" VLINK="#888888" ALINK="#FFFF00" style="margin:0 auto; width: 600px; background:#fff;"> <!--BARRA_DO_UOL-600--> <table width="600" border="0" cellpadding="0" cellspacing="0"> <tr align="center"><td><script language="javascript" type="text/javascript" src="http://barra.uol.com.br/b/barrain.js"></script></td></tr> </table> <!--/BARRA_DO_UOL-600--> <a href="/fsp/inde21082011.shl"><IMG SRC="../images/linkfsp.gif" border=0></A> <a href="/fsp/indices/inde21082011.htm"><IMG SRC="../images/linkindice.gif" border=0></A><BR> <!--BANNERS--> <table width="600" border="0" cellpadding="0" cellspacing="0"> <tr align="center" valign="middle"><td height="70"> <script language="javascript" type="text/javascript"><!-- folha_ads_show( 'jornal.brasil' , '468x60', '1' ) ; //--></script> </td></tr> </table> <!--/BANNERS--> <br> <TABLE BORDER=0 WIDTH=570 cellpadding=0 cellspacing=0> <TR><TD ALIGN=RIGHT><font size=1>São Paulo, domingo, 21 de agosto de 2011</font> <IMG SRC="images/brasil.gif" hspace=10></TD></TR></TABLE> <TABLE width=600 cellpadding=0 cellspacing=0> <TR><TD WIDTH=100> </TD> <TD align=right><IMG SRC="images/brabar.gif" WIDTH=500><BR> </td></tr></table> <table width = 500> <tr><td width=100></td> <td width=400> <!--NOTICIA--> <!--DATA:21/08/2011--> <!--TITULO:Dilma corta gastos de ministros aliados e poupa áreas do PT--><a href="po2108201101.htm">Texto Anterior</a> | <a href="po2108201103.htm">Próximo Texto</a> | <a href="inde21082011.htm">Índice</a> | <a href="http://tools.folha.com.br/feedback?url=referrer">Comunicar Erros</a> <BR><BR> <!--TITLE--><font size=5><b> Dilma corta gastos de ministros aliados e poupa áreas do PT </b></font><br><br><!--/TITLE--> <!--LINE--><b> Investimentos de petistas cresceram 13,7%, mas pastas de outros partidos investiram 4,8% menos que em 2010<br> <br> Impacto desigual do aperto fiscal contribui para alimentar tensão na base de apoio ao governo no Congresso</b><br> <!--/LINE--> <br> <!--Fotografia/Auto/Inicio--> <!--FOTO--> <table width="350"><tr> <td><font size="-2">Apu Gomes/Folhapress</font><br><img src="../images/n2108201101.jpg" BORDER="0" ></td> <td valign="bottom"></td> </tr></table><font size="-1"><i>Obra em Jandira feita com recursos do Ministério do Turismo, mas sem nenhuma relação com a área</i></font> <br><br> <!--/FOTO--> <!--Fotografia/Auto/Final--> <!--BYLINE--><b> GUSTAVO PATU</b><br> <!--/BYLINE--> <!--ORIGIN--> <font size=-1> DE BRASÍLIA </font><br><br> <!--/ORIGIN--> O controle de gastos promovido pelo governo Dilma Rousseff poupou ministérios controlados pelo PT e atingiu com mais força os que estão nas mãos dos outros partidos que apoiam o governo, contribuindo para alimentar a tensão na base de sustentação do Palácio do Planalto.<BR> Uma análise detalhada das contas do Tesouro Nacional mostra que, nas dez pastas entregues no início do governo a PMDB, PR, PSB, PP, PDT, e PC do B, os investimentos caíram 4,8% no primeiro semestre deste ano.<BR> O desempenho contrasta com o dos 13 ministérios da cota petista: em conjunto, eles investiram 13,7% a mais do que na primeira metade do ano eleitoral de 2010, sem considerar as cifras modestas do apartidário Itamaraty e das secretarias especiais vinculadas à Presidência.<BR> Embora sejam teoricamente prioritários para o Executivo federal, os investimentos -obras de infraestrutura e compras de equipamentos destinadas a ampliar a capacidade produtiva da economia- viraram o principal alvo do ajuste fiscal.<BR> Trata-se do único grande grupo de despesas federais que sofreu redução real neste ano, depois de considerada a variação da inflação.<BR> Há razões técnicas para a queda: são gastos não obrigatórios e sujeitos a atrasos. Mas são razões políticas que explicam o aperto desigual na Esplanada.<BR> Pelo modelo de repartição de poder iniciado no governo Lula e reforçado por Dilma, o PT ocupa pastas de mais relevo, como Fazenda, Planejamento, Saúde e Educação.<BR> Os demais partidos ficam com a maior parte das verbas que movimentam as negociações com o Congresso.<BR> Ministérios como Cidades (comandado pelo PP), Integração Nacional (PSB), Turismo (PMDB) e Esporte (PC do B) concentram ações incluídas por deputados e senadores no Orçamento por meio de emendas parlamentares.<BR> São, na maioria, obras paroquiais típicas de prefeituras, como a recuperação de ruas e a construção de quadras esportivas, mas igualmente classificadas como investimentos -e vítimas preferenciais do corte de gastos.<BR> Não por acaso, o governo promete agora liberar R$ 1,7 bilhão em emendas para atenuar a insatisfação dos partidos e facilitar as próximas votações no Congresso.<BR> Entre os ministérios controlados por partidos aliados, dois registraram alta significativa nos investimentos neste ano, mas ambos passaram por crises e trocaram recentemente de mãos.<BR> O PR foi varrido dos Transportes após acusações de corrupção e desligou-se da base governista. O PMDB teve de substituir o bombardeado Wagner Rossi na Agricultura, na semana passada.<BR> Uma das pastas petistas que mais investiram é a Educação. Seu titular, Fernando Haddad, quer ser candidato à Prefeitura de São Paulo nas eleições de 2012 e conta com programas para a criação e a expansão de escolas e universidades.<BR> Entre as pastas petistas, apenas o Desenvolvimento Agrário teve queda expressiva do investimento.<BR> <BR><BR>Texto Anterior: <a href="po2108201101.htm">Painel</a><BR>Próximo Texto: <a href="po2108201103.htm">Turismo destina R$ 352 mi a cidades que não têm turistas</a><BR><a href="inde21082011.htm">Índice</a> | <a href="http://tools.folha.com.br/feedback?url=referrer">Comunicar Erros</a> </p> <!--/NOTICIA--> </td></tr></table> <br> <table width="600" border="0" cellpadding="0" cellspacing="0"> <tr> <td align="center"> <hr> <font size="1" face="arial">Copyright Empresa Folha da Manhã S/A. Todos os direitos reservados. É proibida a reprodução do conteúdo desta página em qualquer meio de comunicação, eletrônico ou impresso, sem autorização escrita da <a href="mailto:pesquisa@folhapress.com.br">Folhapress</a>.</font> </td> </tr> </table> </body> </html> |
![]() |
![]() |
Advert | |
|
![]() |
#6 | |
Wizard
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() Posts: 4,004
Karma: 177841
Join Date: Dec 2009
Device: WinMo: IPAQ; Android: HTC HD2, Archos 7o; Java:Gravity T
|
Quote:
1) find the links on your pages. 2) Figure out how to identify them with BeautifulSoup 3) Use Python string handling to build the article links If you have problems ask questions here, but start by finding each of the links to articles on your page that you want parse_index to identify, and figure out how to locate them all by tag name, class attribute, etc. If you explain in words, we can help you write the code. |
|
![]() |
![]() |
![]() |
#7 |
Member
![]() Posts: 15
Karma: 10
Join Date: Apr 2011
Device: Kindle
|
please check: https://www.mobileread.com/forums/sho....php?t=148578&
|
![]() |
![]() |
![]() |
|
![]() |
||||
Thread | Thread Starter | Forum | Replies | Last Post |
Upgrade recipe for Folha de São Paulo and Estadão with cover | euleralves | Recipes | 4 | 03-31-2011 01:02 AM |
Request Feature Request: A developer portal. | Dingoinde | enTourage Archive | 2 | 04-26-2010 07:43 PM |
Hello from Sao Paulo, Brazil | jglerner | Introduce Yourself | 8 | 02-17-2010 01:33 PM |
Hi from Sao Paulo! | lorisgirl | Introduce Yourself | 4 | 03-18-2009 12:08 PM |
Paulo Coelho gives 'em for free | ricdiogo | News | 4 | 01-26-2008 10:57 AM |