Re: [問題] python 爬取pchome資料

作者: wsybu (%小步步%)   2018-12-26 10:32:55
※ 引述《BigBank ( )》之銘言:
: 各位前輩好,最近也在嘗試爬pchome,雖然知道是javascript,但還是不太能解決
: 爬文後很幸運挖到這篇 也照了這不是ptt大的code測試
: 推 Thisisnotptt: 剛剛試了一下,應該是JS的問題,所以我改用selenium 04/11 13:38
: → Thisisnotptt: 之後就搞定了 http://codepad.org/QeZAV5HO 04/11 13:39
: 但同樣的code 執行好多次才能成功一次 是我的電腦業障重嗎OAQQ
: 其餘的失敗也沒什麼訊息 就是只抓回空殼 (我猜應該是沒有成功執行js?)
: 我目前要做的 是已經有一堆pchome網址 想要從網址爬回對應商品
: 發現雖然head裡的meta就有了 但也不知道該如何簡單的只抓回這個部分
: 所以總結想請問各位前輩:
: 1.沒辦法每次都抓回網頁,是pchome的防範機制嗎?該何解QQ
: 2.還是說有更簡單的方法可以只抓回head那個部分,覺得抓回整個網站有點overkilled
: 但現在就連硬要抓整個網站回來都做不到...( ̄▽ ̄#)﹏﹏
: 感謝各位前輩指點迷津OTZ
想借這篇回一下..
pchome24hr頁面是不是不能用 selenium + chrome(headless)了?
只要打開headless,頁面都是
"目前因網路連線問題無法造訪網站,正在處理中,請您耐心稍候。"
(不開headless都可以正常抓取)
不知道pchome是怎樣在主機端偵測到的
作者: wsybu (%小步步%)   2018-12-26 10:58:00
自問自答..發現ua被改成HeadlessChrome了XD

Links booklink

Contact Us: admin [ a t ] ucptt.com