HTML取得＆解析をするPythonスクリプト

ついでにPythonでもYahoo!Japanのトピックス一覧を取得するやつをやってみる。
使用ライブラリは標準添付のurllib2 と easy_installでインストールした lxml

test.py

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib2
import lxml.html

# urlを指定する
url = 'http://www.yahoo.co.jp'
# IE8のフリをする
user_agent = 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)'

req = urllib2.Request(url, None, {'User-Agent':user_agent})
res = urllib2.urlopen(req)

html = lxml.html.fromstring(res.read())
for elm in html.cssselect('#topicsfb li'):
    print elm.text_content()

実行結果

$ date
2010年  6月  8日 火曜日 00:51:45 JST

$ python -V
Python 2.4.3

$ python test.py
農水相に山田副大臣昇格へ写真NEW
口蹄疫 運搬車が感染経路か
北 最高人民会議で首相が交代写真
飲料市場 水からゼロ炭酸へ写真
果皮からポリフェノール生産
楽天「内野5人」もサヨナラ負け写真
キンコン西野 本売れたら解散写真
うの別居報道 事務所離婚否定写真
昨日の話題（61件）
一覧