[已解決] 網路爬蟲 抓不到標籤<img>的src屬性

作者: bugbug777 (sil)   2018-11-11 19:03:16
大家好,小魯是個網路爬蟲新手
最近想來寫一個下載圖片的網路爬蟲
這裡附上簡短的程式碼
>>> import requests, bs4
>>> url = 'https://v.comicbus.com/online/comic-103.html?ch=924'
>>> r = requests.get(url)
>>> r.raise_for_status()
>>> soup = bs4.BeautifulSoup(r.text)
>>> img_tag = soup.find('img', id='TheImg')
>>> img_tag
<img border="0" id="TheImg" name="TheImg"/>
似乎抓不到src的這個屬性,請問這是為什麼?
圖示8comic的海賊王924話圖片
https://imgur.com/ccnRjKr
作者: ckc1ark (偽物)   2018-11-11 19:07:00
檢測器看到的是前端處理後的DOM 可能page source沒這張圖
作者: zo6596001 (超帥肥宅)   2018-11-11 19:10:00
把HTML輸出成一個txt檔,然後檢查跟Google看到的一不一樣如果不一樣的話,那就只能用Selenium了可以Google一下Ajax這個東西,應該就是這個技術在搞鬼其實就是網頁分成2種,動態跟靜態。requests之類的只能抓靜態網頁https://imgur.com/4wUewbD.jpg你要抓的東西好像是透過這行從伺服器抓過來的https://imgur.com/7jHyB8J.jpg反白的是航海王的圖檔,我在requests回來的資料找不到這串還是改用Selenium吧...https://imgur.com/lsp28eH.jpg
作者: dhec10701p (doublej)   2018-11-11 20:26:00
重點是要render javascript
作者: zo6596001 (超帥肥宅)   2018-11-11 20:26:00
偷偷貼我寫的爬蟲~ 其實Selenium也很簡單的~抓了幾十萬張圖片,現在硬碟正絕讚爆滿中~
作者: TakiDog (多奇狗)   2018-11-11 21:18:00
有能力就用requests找出規則爬,seleniumu效能太QQ
作者: eight0 (欸XD)   2018-11-12 16:15:00
用 requrests + node_vm2 https://is.gd/AfRc8h

Links booklink

Contact Us: admin [ a t ] ucptt.com