Re: [問題] python 爬取pchome資料 BigBank PTT批踢踢實業坊

Re: [問題] python 爬取pchome資料

作者: BigBank ( ) 2016-08-06 00:28:50

各位前輩好，最近也在嘗試爬pchome，雖然知道是javascript，但還是不太能解決
爬文後很幸運挖到這篇也照了這不是ptt大的code測試
推 Thisisnotptt: 剛剛試了一下，應該是JS的問題，所以我改用selenium 04/11 13:38
→ Thisisnotptt: 之後就搞定了 http://codepad.org/QeZAV5HO 04/11 13:39
但同樣的code 執行好多次才能成功一次是我的電腦業障重嗎OAQQ
其餘的失敗也沒什麼訊息就是只抓回空殼 (我猜應該是沒有成功執行js?)
我目前要做的是已經有一堆pchome網址想要從網址爬回對應商品
發現雖然head裡的meta就有了但也不知道該如何簡單的只抓回這個部分
所以總結想請問各位前輩：
1.沒辦法每次都抓回網頁，是pchome的防範機制嗎？該何解QQ
2.還是說有更簡單的方法可以只抓回head那個部分，覺得抓回整個網站有點overkilled
但現在就連硬要抓整個網站回來都做不到...(￣▽￣＃)﹏﹏
感謝各位前輩指點迷津OTZ

作者: Thisisnotptt (這不是PTT) 2015-04-11 13:38:00

剛剛試了一下，應該是JS的問題，所以我改用selenium之後就搞定了 http://codepad.org/QeZAV5HO

作者: ripple0129 (perry tsai) 2016-08-06 05:00:00

其實就很單純的觀察封包偽裝成瀏覽器送封包到server

作者: Thisisnotptt (這不是PTT) 2016-08-06 20:46:00

假如是偶爾成功那可能是要加入延遲讓網頁跑完讓javascript的內容被載入之後才抓得到因為se是個瀏覽器要給他點時間處理試試看加這個 http://tinyurl.com/he7h8aa 讓他完全載入之後再進行抓取假如要擺脫 se 可以用post request的方式直接抓取內容但是我之前對pchome採post/request的方式都一不太成功 se 搞起來比較方便就是了缺點就是慢跟肥剛剛試了一下 request 的方式 OK了不曉得之前是什麼問題卡住總之應該還行一樣要加點delay會比較穩http://codepad.org/25lxbLvn

繼續閱讀

[問題] dict 在迴圈裡 update的問題ek0519 [問題] 新手爬蟲抓資料blueandy Re: [問題] 新手解LeetCode:Swap Nodes in Pairss06yji3 [問題] 徵求專業接案者 - Python GUI Appl.SophieFluid [問題] 變數資料型態as840507 [問題] 新手解LeetCode:Swap Nodes in Pairsiwantstronge Re: [問題] OpenCV addweighted() ErrorPHONm [問題] OpenCV addweighted() ErrorPHONm [問題] 字串中符號處理問題NikonD800E [問題] sqlite3 的效能很差嗎？aaaba