[問題] 用beautifulsoup抓網頁中的表格

作者: cawaiilulu (across)   2017-08-04 03:50:07
要抓一個wiki page中的表格以計算
但是我只會作到抓下整個html碼
接下來就不知道怎麼作
https://en.wikipedia.org/wiki/World_Series_television_ratings
像以上這樣
請問我要怎麼樣才能夠只抓下 1984~年的收視率表格?
Television ratings by year, 1984 – present
python3 謝謝
作者: ntumath (math mad)   2017-08-04 08:30:00
bf = Beautiful(url,'html.parser')target = bf.findAll('table')[1]想做計算可以用pandas,先熟悉用bf抓contents吧
作者: coeric ( )   2017-08-04 11:14:00
樓上的湯被偷了........pandas很強,但也很雞肋 遇到一些很亂的網頁時所要的資訊盡亂塞在表格很奇怪的地方 而且還是分開的我就放棄pandas,改回歸原始的美麗的湯不過,用美麗的湯,也是得突破千萬難關 才有辦法抵達就是同你說的 ("div", {class}:...昨天在撈統聯客運的訊息時,差點沒吐血........就你說的 一樣是看html找標籤按F12 進到開發人員模式去看
作者: ntumath (math mad)   2017-08-04 21:24:00
要是只抓這種一頁的資訊,怕麻煩就用xpath或css一鍵複製會用到特別標注id,class這種的 通常是需要抓同個架構下差不多的內容,但是怕重新request的時候改變xpath的那種

Links booklink

Contact Us: admin [ a t ] ucptt.com