続・久しぶりにmechanizeを使ってみる
前回の続き
from mechanize import Browser from BeautifulSoup import BeautifulSoup br = Browser() br.set_handle_robots(False) br.open("http://code.google.com/p/django-logging/source/list") html = br.response().read() soup = BeautifulSoup(html)
ここからは、位置の確認のため非効率的な方法を。
効率的な方法はドキュメントを確認して今後。
#revisionがあるテーブルを取得 table = soup.find All('table')[4] rev = table.findAll('tr')[1] #revision取得 rev.findAll('td')[0] >>><td class="id"><a href="detail?r=21">r21</a></td> #更新説明 rev.findAll('td')[1] >>><td onclick="if (!cancelBubble) _goDetail(21)"><div><a href="detail?r=21">Updated copyright year in the licence file.</a></div></td> #更新日取得 rev.findAll('td')[2] >>><td onclick="if (!cancelBubble) _goDetail(21)" title="Wed Mar 12 12:50:49 2008" nowrap="nowrap"><a onclick="cancelBubble=true" href="detail?r=21">Mar 12, 2008</a></td>
こんな感じ。
今日はBeautifulSoupのサイトが調子が良いようなので、ローカルにドキュメントを保存しておこう。