[問題] 爬蟲網頁圖表資料問題 be00148 PTT批踢踢實業坊

[問題] 爬蟲網頁圖表資料問題

作者: be00148 (ThirtyCentimeter) 2020-07-01 22:40:59

各位高手大大晚安
我想抓取下圖的資料檔
https://i.imgur.com/tmpyyZy.jpg
已經知道圖表的資料是從這個網址匯入
https://i.imgur.com/znv2SKe.jpg
但是我直接把這段網址貼到瀏覽器會說找不到網頁
https://i.imgur.com/PRKcbtJ.jpg
不曉得是哪裡有放過濾機制
因為如果後面參數不要放那麼多
是可以抓到股價資料
但是主力,券商買賣家數怎麼試就是沒辦法
不曉得有沒有經驗的大大指點一下
卡了2天了QQ
https://histock.tw/stock/main.aspx?no=2330

作者: cuteSquirrel (松鼠) 2020-07-01 23:04:00

GET裡面的header要設定user-agent和referer所要的資訊可以在原本截圖Response Headers裡面找到

作者: alvinlin (林矜業) 2020-07-01 23:21:00

和回neiltsang的一樣, 用https://curl.trillworks.com/

作者: be00148 (ThirtyCentimeter) 2020-07-01 23:23:00

@cuteSquirrel 之前我只有加 user-agent原來還要加referer 不過要如何判斷header應該加哪些資料?@cuteSquirrel 真的謝謝了受小弟一拜<O>

作者: alvinlin (林矜業) 2020-07-01 23:25:00

https://i.imgur.com/0pakzBg.jpg

作者: cuteSquirrel (松鼠) 2020-07-01 23:29:00

就從常見的幾個開始試吧爬蟲滿常遇到這些情況不客氣~

作者: alvinlin (林矜業) 2020-07-01 23:31:00

其實沒有一定。通常都是用上述方法後一個個刪減到最少。這都是爬多了就會知道了。懶得刪也ok。

作者: be00148 (ThirtyCentimeter) 2020-07-01 23:33:00

A大謝謝試到最後只留referer就好XD

作者: alvinlin (林矜業) 2020-07-01 23:36:00

^^great！我的理解是這完全取決於伺服器端怎麼做的。

作者: be00148 (ThirtyCentimeter) 2020-07-01 23:39:00

我可以再問一個問題嗎抓下來的資料看起來像json 讀取後資料的部分變成字串有什麼方式可以快速轉換為list嗎

作者: cuteSquirrel (松鼠) 2020-07-01 23:47:00

可以用response.json()拿到python dict用dev tool看到的key去抓字串，再用re去擷取

作者: alvinlin (林矜業) 2020-07-01 23:52:00

嗯。再import json;json.loads()https://i.imgur.com/qm5Vt8A.jpg如上圖。K就變成list了https://i.imgur.com/m6iwnAk.jpg

作者: be00148 (ThirtyCentimeter) 2020-07-02 00:03:00

針對"[[a,1],[b,2]]"這種字串型態資料用json.loads() 就可以轉成list 謝謝了

作者: alvinlin (林矜業) 2020-07-02 00:23:00

^^。順便也可以去參考skcom 0.9.4嗯..最近好像到0.96了。

繼續閱讀

[問題] 關於遞迴的回傳值feather2 [問題] 如何確保opendata抓到最新資料fghdfh [問題] 輸出成pdf 結果打的東西變不一樣了mack [問題] 條件扣減金額及消訂單rounders [問題] 特徵選取使用Relief 問題ariel777 [問題] 請問爬蟲 bs4的擷取方法?neiltsang [問題] 兩個表格合併MAGICXX Re: [問題] 影像辨識追蹤MasterChang [問題] 爬蟲新手座標圖抓資料(解決)joeyen0546 [問題] 爬蟲下載影片愈到權限問題neiltsang