HTML取得&解析をするPythonスクリプト
ついでにPythonでもYahoo!Japanのトピックス一覧を取得するやつをやってみる。
使用ライブラリは標準添付のurllib2 と easy_installでインストールした lxml
test.py
#!/usr/bin/env python # -*- coding:utf8 -*- import urllib2 import lxml.html # urlを指定する url = 'http://www.yahoo.co.jp' # IE8のフリをする user_agent = 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)' req = urllib2.Request(url, None, {'User-Agent':user_agent}) res = urllib2.urlopen(req) html = lxml.html.fromstring(res.read()) for elm in html.cssselect('#topicsfb li'): print elm.text_content()
実行結果
$ date 2010年 6月 8日 火曜日 00:51:45 JST $ python -V Python 2.4.3 $ python test.py 農水相に山田副大臣昇格へ写真NEW 口蹄疫 運搬車が感染経路か 北 最高人民会議で首相が交代写真 飲料市場 水からゼロ炭酸へ写真 果皮からポリフェノール生産 楽天「内野5人」もサヨナラ負け写真 キンコン西野 本売れたら解散写真 うの別居報道 事務所離婚否定写真 昨日の話題(61件) 一覧