XPath

RSS1.0を検索する際の名前空間の指定

ここ最近Pythonのlxmlモジュールを試していて、RSS1.0形式のデータをXPathで検索する場合は名前空間を指定しなければならないことを知った。 例えば、RSSから各記事のタイトル部分を取得したいとして RSS2.0の場合、「 /rss/channel/item/title 」でOKなのだ…

lxmlモジュールでXPathプリコンパイルの効果

前回の記事で使用したPythonのlxmlモジュールについて調べていたら、XMLデータの検索に用いるXPath式をプリコンパイルできるらしいことが分かったので、どのくらい速度が向上するのか試してみた。 テストデータは前回のものと同じ。 $ ls -hl | grep yahoo_l…

XPathの書き方でどのくらい速度に影響するのか

pythonのlxmlを使ってXML文書内を検索するとき、XPathの書き方でどのくらい速度に影響するのか、簡単に試してみた。 まず、検索対象とするテストデータとして、Yahooからrssをダウンロードした。 $ wget -q http://blogs.yahoo.co.jp/rss.xml && mv rss.xml …