[問題] 爬蟲剔除不必要標籤

作者: m87dd05 (八八里阿巴)   2019-03-12 10:57:35
小弟是爬蟲新手
想請問各位前輩
我目前已經針對網頁爬到如附圖之資訊了(利用 find + find_all 搭配for迴圈)
使用find_all("th", attrs={"data-XXXXXX: ""})
最後可以爬到如下圖之資訊
https://imgur.com/a/8FTeXMM
但因<th>包住<span>,但<span>的內容我不需要,我只需要 Time
試過如果我在這個時候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 會
得到
作者: rexyeah (ccccccc)   2019-03-12 11:33:00
find_all("th" attrs=lambda x: x and "whatever" in x)沒測過... 不過常用類似的方法去篩選抓回來的東西
作者: nini200 (200妮妮)   2019-03-12 13:57:00
直接給網址
作者: art1 (人,原來不是人)   2019-03-12 22:26:00
使用.contents[0]看看

Links booklink

Contact Us: admin [ a t ] ucptt.com