[問題] 爬蟲剔除不必要標籤 m87dd05 PTT批踢踢實業坊

[問題] 爬蟲剔除不必要標籤

作者: m87dd05 (八八里阿巴) 2019-03-12 10:57:35

小弟是爬蟲新手
想請問各位前輩
我目前已經針對網頁爬到如附圖之資訊了(利用 find + find_all 搭配for迴圈)
使用find_all("th", attrs={"data-XXXXXX: ""})
最後可以爬到如下圖之資訊

但因<th>包住<span>，但<span>的內容我不需要，我只需要 Time
試過如果我在這個時候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 會
得到

作者: rexyeah (ccccccc) 2019-03-12 11:33:00

find_all("th" attrs=lambda x: x and "whatever" in x)沒測過... 不過常用類似的方法去篩選抓回來的東西

作者: nini200 (200妮妮) 2019-03-12 13:57:00

直接給網址

作者: art1 (人，原來不是人) 2019-03-12 22:26:00

使用.contents[0]看看

繼續閱讀

[討論] 爬蟲在ptt的應用?nini200 [問題] 環境該如何設定yehsc0806 [問題] 誤調環境變數的系統變數tokyo291 [問題] kmode套件使用問題BlgAtlfans [問題] Django多worker爬蟲如何做shared memoryMinarai [問題] Pandas 擷取部分excel欄位並合併nanokevin [問題] 請問這個問題是如何記e79829 Re: [問題] 初學該選哪一本書？liton [問題] 請問我為何無法建立檔案物件alubasteve [討論] 急徵Python家教casio8

Contact Us: admin [ a t ] ucptt.com