[已解決] 網路爬蟲抓不到標籤<img>的src屬性 bugbug777 PTT批踢踢實業坊

[已解決] 網路爬蟲抓不到標籤<img>的src屬性

作者: bugbug777 (sil) 2018-11-11 19:03:16

大家好，小魯是個網路爬蟲新手
最近想來寫一個下載圖片的網路爬蟲
這裡附上簡短的程式碼
>>> import requests, bs4
>>> url = 'https://v.comicbus.com/online/comic-103.html?ch=924'
>>> r = requests.get(url)
>>> r.raise_for_status()
>>> soup = bs4.BeautifulSoup(r.text)
>>> img_tag = soup.find('img', id='TheImg')
>>> img_tag
<img border="0" id="TheImg" name="TheImg"/>
似乎抓不到src的這個屬性，請問這是為什麼？
圖示8comic的海賊王924話圖片

作者: ckc1ark (偽物) 2018-11-11 19:07:00

檢測器看到的是前端處理後的DOM 可能page source沒這張圖

作者: zo6596001 (超帥肥宅) 2018-11-11 19:10:00

把HTML輸出成一個txt檔，然後檢查跟Google看到的一不一樣如果不一樣的話，那就只能用Selenium了可以Google一下Ajax這個東西，應該就是這個技術在搞鬼其實就是網頁分成2種，動態跟靜態。requests之類的只能抓靜態網頁" target="_blank" rel="nofollow">

你要抓的東西好像是透過這行從伺服器抓過來的" target="_blank" rel="nofollow">

反白的是航海王的圖檔，我在requests回來的資料找不到這串還是改用Selenium吧..." target="_blank" rel="nofollow">

作者: dhec10701p (doublej) 2018-11-11 20:26:00

重點是要render javascript

作者: zo6596001 (超帥肥宅) 2018-11-11 20:26:00

偷偷貼我寫的爬蟲～其實Selenium也很簡單的～抓了幾十萬張圖片，現在硬碟正絕讚爆滿中～

作者: TakiDog (多奇狗) 2018-11-11 21:18:00

有能力就用requests找出規則爬，seleniumu效能太QQ

作者: eight0 (æ¬¸XD) 2018-11-12 16:15:00

用 requrests + node_vm2 https://is.gd/AfRc8h

繼續閱讀

[問題] tkinter print另一個執行中的py檔的方法st40182 [問題] 有關dict用法 (DFS找有向圖中的cycle)skyHuan [問題] if 的判斷是否有特殊限制?jasonhsu14 [問題]python爬蟲中html選取元素問題cscscs56 [問題] 簡單面試問題jkkert [問題] 如何安裝另一個anaconda promptbewilderment [問題] xlwings excel插圖透明化caron0225 [問題]爬蟲-匯率運算問題cscscs56 [問題] python正規表示式如何做？han999 [問題] 固定seed去eval tf.random仍不同值 znmkhxrw

[已解決] 網路爬蟲 抓不到標籤<img>的src屬性

[已解決] 網路爬蟲抓不到標籤<img>的src屬性