爬虫甲 / 北方天空下

爬虫甲

之前尝试找个feed43帮我爬信息，结果发现它有时候不靠谱，昨天自己试了一把，弄个虫出来。
demo：把cnbeta首页的新闻标题抓下来。

import urllib2
from BeautifulSoup import BeautifulSoup
log=open("1.log","w")
page = urllib2.urlopen("http://www.cnbeta.com/")
soup = BeautifulSoup(page)
for incident in soup.findAll('dt', attrs={"class":"topic"}):
    news=incident.contents[0].contents[0].contents[0]
    news = news.encode("ISO-8859-1") 
    print news
    print >> log,news+'\r\n'
log.close()

使用了python的一个第三方库BeautifulSoup。
期间也遇到了点问题，即不同网页的编码是不同的，有的是utf-8有的是gb2312，开始有时候抓下来的新闻是乱码，问了位同事后用"ISO-8859-1"先解决了，这一块内容还没太搞懂。。继续研究。。

cnbeta有feed，所以不用我去抓，后续打算搞些实用的。。