[問題] 網頁爬蟲問題 senso PTT批踢踢實業坊

[問題] 網頁爬蟲問題

作者: senso ( ) 2018-08-08 23:40:42

大家好，小弟在用python抓網頁遇到點問題
有些網頁的內容是透過js宣染畫出來的
所以我使用chromedriver的headless方式去抓取
抓pchome的商品清單，我可以抓到資料，
輸出的商品清單.html裡可看到商品
可是商品明細頁卻無法，只看到像是基本的base from
我有爬過momo，yahoo，博客萊都有成功，就只有pchome會這樣
不曉得問題出在哪裡
請大大幫忙，謝謝
附上source code
https://github.com/godanimalsenso/PyWebTtest

作者: s860134 (s860134) 2018-08-09 00:51:00

加個　sleep 等 ajax 把網頁渲染完成商品明細頁面資料是用　js 拉後台資料庫的資料再顯示上去所以你只等 html load 完直接跑　page_source 就啥都沒當然要聰明一點可以加個　code 去檢查　js load 完了沒

作者: senso ( ) 2018-08-09 03:42:00

沒想到會是這樣的問題@@我加了time.sleep(1)確實有出來了我會再去找檢查js load ，謝謝

作者: b24333666 (比飛笨) 2018-08-09 07:13:00

pchom 要去看network的hxr 裡面有一個文件滿滿的json格式

作者: coeric ( ) 2018-08-09 09:37:00

推樓上，有json

作者: senso ( ) 2018-08-09 19:46:00

抓xhr是比較快，不過我四個站都是css selector抓指定欄位

繼續閱讀

[問題] import失敗honoYang [問題] Django admin widget問題kalapon [問題] 新手Python 一些問題rxs80087 [問題] ImportErrorcallmejohn [問題] python 學習的方向ching4562 [問題] spyder沒有out跑出來@@?silverair [問題] 直方圖重疊不疊加pig98520 [問題] 資料合併問題unknown [問題] Google登入aa12twtwaa [問題] vscode lost sys.stdinaa4s5d6z7x8c