北方天空下

i am not a man of too many faces,the mask i wear is one...

Avatar

爬虫甲

之前尝试找个feed43帮我爬信息,结果发现它有时候不靠谱,昨天自己试了一把,弄个虫出来。
demo:把cnbeta首页的新闻标题抓下来。

import urllib2
from BeautifulSoup import BeautifulSoup
log=open("1.log","w")
page = urllib2.urlopen("http://www.cnbeta.com/")
soup = BeautifulSoup(page)
for incident in soup.findAll('dt', attrs={"class":"topic"}):
    news=incident.contents[0].contents[0].contents[0]
    news = news.encode("ISO-8859-1") 
    print news
    print >> log,news+'\r\n'
log.close()


使用了python的一个第三方库BeautifulSoup
期间也遇到了点问题,即不同网页的编码是不同的,有的是utf-8有的是gb2312,开始有时候抓下来的新闻是乱码,问了位同事后用"ISO-8859-1"先解决了,这一块内容还没太搞懂。。继续研究。。

cnbeta有feed,所以不用我去抓,后续打算搞些实用的。。

评论已关闭