[問題] python淘寶爬蟲 dondondie PTT批踢踢實業坊

[問題] python淘寶爬蟲

作者: dondondie (東東納命來) 2015-02-15 16:56:37

這問題可能不是單純和python有關
不過還是在這邊問問看
最近在研究使用淘寶爬蟲
不過剛開始就遇到了一點困難
http://0rz.tw/acJsC A網址
http://0rz.tw/inzfh B網址
上面兩個都是淘寶的網址
當直接看原始檔時兩個都可以看到一個名為g_page_config
含有完整網頁內容的json表格
不過當我使用urllib2.urlopen去抓的時候
A網址可以抓到g_page_config的資料
但B網址抓回來的似乎是完全不同的東西
只要是商品搜尋的頁面似乎都會得到這樣的結果
但我不太懂為什麼A可以B卻不行
這樣是否代表淘寶有特別阻擋商品搜尋頁面?
只能使用模擬瀏覽器行為的方式去把網頁json都load進來後才抓?
或者有沒有方式可以達到同樣的目的?

作者: jimmytzeng (jimmytseng) 2015-02-20 14:18:00

他們有用http header的user-agent擋?

作者: dondondie (東東納命來) 2015-02-23 15:14:00

我是有帶user-agent下去抓啦但不確定參數夠不夠完整

作者: starengine (EricWei) 2015-02-24 13:38:00

有些資料可能用javascript產生的，要模擬瀏覽器才可以

作者: ianleu (小英) 2015-02-26 10:00:00

http://www.cnblogs.com/asmblog/archive/2013/05/07/3063

作者: eight0 (æ¬¸XD) 2015-02-27 11:06:00

我沒看到 g_page_config

繼續閱讀

[問題] 關於tkinter的RadioButtonwowlin Re: [問題] c調用py產生的exe有辦法包入py檔嗎?LiloHuang [問題] ConfigObjErrorsteve2003121 [問題] c調用py產生的exe有辦法包入py檔嗎?opengood5566 [問題] 新手問題Senlong [問題] template 問題gn00618777 Re: [問題]scrapy如何把抓到的資料存成這樣格式? ccwang002 [問題] python 範例gn00618777 [問題] pyDev設定執行的問題 eclipseverdd [問題] twisted 如何知道資料收完？zha0