Re: [問題]我寫的爬蟲只會爬到第一個符合條件的

作者: Seudo (進擊的三笠)   2014-12-20 18:15:28
※ 引述《elmo56 (小樹芽)》之銘言:
: 大家好
: 我的問題主要是在爬資料的時候
: 設定好要抓的tag後 只會抓第一筆
: pagelink=url.strip()
: request_get=requests.get(pagelink)
: soup_post=BeautifulSoup(request_get.text.encode('utf-8'))
: data = h.unescape(soup_post.find('td',{'itemprop':'actor'}).text) +',' +
: h.unescape(soup_post.find('td',{'class':'character'}).text)
: 要抓的頁面中符合這個tag的有非常多筆
: 但只會抓到最上面的第一筆
: 就跳出
: 接下來要怎麼寫呢
: 謝謝大家
我猜你是要爬imdb
要抓多筆資料可以用findAll
先抓上一層tr 再抓演員跟角色tag
data = [ h.unescape(case.find('td',{'itemprop':'actor'}).text) +',' +
h.unescape(case.find('td',{'class':'character'}).text)
for case in soup_post.find('table',{'class':'cast_list'}).findAll('tr')]
作者: kobenein (哈哈哈)   2014-12-23 00:31:00
如果是imdb 網路上很多現成的api

Links booklink

Contact Us: admin [ a t ] ucptt.com