続・久しぶりにmechanizeを使ってみる

前回の続き

from mechanize import Browser
from BeautifulSoup import BeautifulSoup

br = Browser()

br.set_handle_robots(False)

br.open("http://code.google.com/p/django-logging/source/list")

html = br.response().read()

soup = BeautifulSoup(html)

ここからは、位置の確認のため非効率的な方法を。
効率的な方法はドキュメントを確認して今後。

#revisionがあるテーブルを取得
table = soup.find All('table')[4]

rev = table.findAll('tr')[1]

#revision取得
rev.findAll('td')[0]
>>><td class="id"><a href="detail?r=21">r21</a></td>

#更新説明
rev.findAll('td')[1]
>>><td onclick="if (!cancelBubble) _goDetail(21)"><div><a href="detail?r=21">Updated copyright year in the licence file.</a></div></td>

#更新日取得
rev.findAll('td')[2]
>>><td onclick="if (!cancelBubble) _goDetail(21)" title="Wed Mar 12 12:50:49 2008" nowrap="nowrap"><a onclick="cancelBubble=true" href="detail?r=21">Mar 12, 2008</a></td>

こんな感じ。


今日はBeautifulSoupのサイトが調子が良いようなので、ローカルにドキュメントを保存しておこう。