[問題] 網頁爬蟲問題

作者: senso ( )   2018-08-08 23:40:42
大家好,小弟在用python抓網頁遇到點問題
有些網頁的內容是透過js宣染畫出來的
所以我使用chromedriver的headless方式去抓取
抓pchome的商品清單,我可以抓到資料,
輸出的商品清單.html裡可看到商品
可是商品明細頁卻無法,只看到像是基本的base from
我有爬過momo,yahoo,博客萊都有成功,就只有pchome會這樣
不曉得問題出在哪裡
請大大幫忙,謝謝
附上source code
https://github.com/godanimalsenso/PyWebTtest
作者: s860134 (s860134)   2018-08-09 00:51:00
加個 sleep 等 ajax 把網頁渲染完成商品明細頁面資料是用 js 拉後台資料庫的資料再顯示上去所以你只等 html load 完直接跑 page_source 就啥都沒當然要聰明一點可以加個 code 去檢查 js load 完了沒
作者: senso ( )   2018-08-09 03:42:00
沒想到會是這樣的問題@@我加了time.sleep(1)確實有出來了我會再去找檢查js load ,謝謝
作者: b24333666 (比飛笨)   2018-08-09 07:13:00
pchom 要去看network的hxr 裡面有一個文件滿滿的json格式
作者: coeric ( )   2018-08-09 09:37:00
推樓上,有json
作者: senso ( )   2018-08-09 19:46:00
抓xhr是比較快,不過我四個站都是css selector抓指定欄位

Links booklink

Contact Us: admin [ a t ] ucptt.com