PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Python
[問題] python 爬取pchome資料
作者:
kobe52072200
(喂,我蜜歐啦)
2016-04-11 11:42:43
大家好 小弟最近剛開始學網路爬蟲 剛好看到有老師在網路上教學 教學連結如下
http://www.largitdata.com/course/9/
由於範例影片是用淘寶舉例 我就想說那改來爬Pchome 最近剛好想買電動刮鬍刀
於是在Pchome首頁搜尋電動刮鬍刀 跑出項目後寫以下的程式
import requests
import bs4 from BeautifulSoup as bs
res =
requests.get('
http://ecshweb.pchome.com.tw/search/v3.3/?q=%E9%9B%BB%E5%8B%95%E5%88%AE%E9%AC%8D%E5%88%80')
soup = bs(res.text, "html.parser")
print soup
想說先看一下soup列印出來後有沒有包含網業上的品項資訊 但卻沒有
之後的步驟也不知道怎麼進行下去了
上述的網址是在搜尋頁面按右鍵→檢查→Network→類型選擇Doc 得到的url
不知道有沒有版友爬過Pchome 可以教教小弟嗎 謝謝大家~~
作者:
Yshuan
(倚絃)
2016-04-11 13:34:00
我看是在<dd id="ItemContainer">裡面 撈不到嗎?
作者:
Thisisnotptt
(這不是PTT)
2016-04-11 13:38:00
剛剛試了一下,應該是JS的問題,所以我改用selenium之後就搞定了
http://codepad.org/QeZAV5HO
pip 可以直接裝,然後抓這個放入在同目錄:
http://phantomjs.org/download.html
作者:
kobe52072200
(喂,我蜜歐啦)
2016-04-11 16:41:00
謝謝T大回答 我現在出現錯誤訊息'phantomjs' executable needs to be in PATH我不知道要把載下來的selenium丟到哪裡 ~再麻煩T大了 謝謝 ~說錯是phantomjs~
作者:
Thisisnotptt
(這不是PTT)
2016-04-11 20:51:00
耶? 解壓縮之後會是一個資料夾對吧? 裡面有bin資料夾,裡面有phantomjs。 把路徑改成他就可以了,或是把這個phantomjs抓出來放在同木錄下他就會找得到了應該有這個就搞得定了。
繼續閱讀
terminal上列出目錄內所有檔案選取做input
proud
[問題] pyinotify 錯誤求解
girl5566
Re: [問題] 關於使用for迴圈挖掘資料時出錯-換頁問題
Neisseria
[問題] 如何被網頁阻擋後,過幾秒重連線?
kiloxx
[問題] python存取變數
Anny19
Re: [問題]一個 遞迴的 return問題
micangela
[問題] 隨機排序
shuian88
[問題] 空白消除不掉?
kiloxx
Re: [問題] 網頁分析之print問題
MOONY135
Re: [問題] 網頁分析之print問題
MOONY135
Links
booklink
Contact Us: admin [ a t ] ucptt.com