[問題] 新手爬蟲requests_selenium

作者: ShawnHsia (new ID)   2022-04-17 21:42:10
大家好
我是完全沒有任何程式資訊背景的老人家,純網頁自學,很多基本東西不懂
只想試著爬資料,還請鞭小力些~
以下狀況描述
1
有成功爬取此網頁資料
https://www.samr.gov.cn/zw/wjfb/index.html
程式碼就抄抄改改網路教學
https://pastebin.com/wgppME9S
2
後來想爬下面這個網頁,request就會出現412的error code
http://www.nhc.gov.cn/wjw/gfxwjj/list.shtml
想要學著用看看selenium但是一開始要打開網頁就有問題
(用edge不太打的開,用chrome就可以,用selenium操控chrome又打不開)
程式碼如下
https://pastebin.com/3mSJA6w1
3
試著使用chrome的外掛程式automa
https://www.automa.site/
則可以正確獲取單頁資料(標題+日期),然而不會設定迴圈或自定網址來爬完85頁的資料
想要請教狀況2
我該往什麼方向學習或者請告訴我要看哪些資料
(https://blog.csdn.net/bcfdsagbfcisbg/article/details/121741801)
有查過可能的原因(上面連結)但或許因為沒有相關基礎知識無法解決﹑也沒有方向
,卡了很幾天
還是有版友可以教我使用automa感覺也不錯,是菜鳥新手的另一種解決方案
以上問題還請版友不吝指教~~先謝過了~~
作者: singleflying (餡餅)   2022-04-20 17:29:00
試了一下這篇,把headers加進去就可以了https://reurl.cc/yrZDNM
作者: wang0424 (FFFFFF)   2022-04-20 20:11:00
推一樓好心
作者: ShawnHsia (new ID)   2022-04-21 11:41:00
謝謝樓上版友回覆,header中加入cookie我試過就是短暫可以,一段時間後又變412,目前還無法自行完成解決方案
作者: atrisk (atrisk)   2022-05-09 17:33:00
試了用較簡單的requests和beautifulsoup4組合似乎也可以。selenium一般我都是沒招時才會拿來用,例如對付javascript

Links booklink

Contact Us: admin [ a t ] ucptt.com