[問題] 爬蟲網頁圖表資料問題

作者: be00148 (ThirtyCentimeter)   2020-07-01 22:40:59
各位高手大大晚安
我想抓取下圖的資料檔
https://i.imgur.com/tmpyyZy.jpg
已經知道圖表的資料是從這個網址匯入
https://i.imgur.com/znv2SKe.jpg
但是我直接把這段網址貼到瀏覽器會說找不到網頁
https://i.imgur.com/PRKcbtJ.jpg
不曉得是哪裡有放過濾機制
因為如果後面參數不要放那麼多
是可以抓到股價資料
但是主力,券商買賣家數怎麼試就是沒辦法
不曉得有沒有經驗的大大指點一下
卡了2天了QQ
https://histock.tw/stock/main.aspx?no=2330
作者: cuteSquirrel (松鼠)   2020-07-01 23:04:00
GET裡面的header要設定user-agent和referer所要的資訊可以在原本截圖Response Headers裡面找到
作者: alvinlin (林矜業)   2020-07-01 23:21:00
和回neiltsang的一樣, 用https://curl.trillworks.com/
作者: be00148 (ThirtyCentimeter)   2020-07-01 23:23:00
@cuteSquirrel 之前我只有加 user-agent原來還要加referer 不過要如何判斷header應該加哪些資料?@cuteSquirrel 真的謝謝了 受小弟一拜<O>
作者: alvinlin (林矜業)   2020-07-01 23:25:00
作者: cuteSquirrel (松鼠)   2020-07-01 23:29:00
就從常見的幾個開始試吧 爬蟲滿常遇到這些情況不客氣~
作者: alvinlin (林矜業)   2020-07-01 23:31:00
其實沒有一定。通常都是用上述方法後一個個刪減到最少。這都是爬多了就會知道了。懶得刪也ok。
作者: be00148 (ThirtyCentimeter)   2020-07-01 23:33:00
A大 謝謝 試到最後 只留referer就好XD
作者: alvinlin (林矜業)   2020-07-01 23:36:00
^^great!我的理解是這完全取決於伺服器端怎麼做的。
作者: be00148 (ThirtyCentimeter)   2020-07-01 23:39:00
我可以再問一個問題嗎 抓下來的資料看起來像json 讀取後資料的部分變成字串 有什麼方式可以快速轉換為list嗎
作者: cuteSquirrel (松鼠)   2020-07-01 23:47:00
可以用response.json()拿到python dict用dev tool看到的key去抓字串,再用re去擷取
作者: alvinlin (林矜業)   2020-07-01 23:52:00
嗯。再import json;json.loads()https://i.imgur.com/qm5Vt8A.jpg如上圖。K就變成list了https://i.imgur.com/m6iwnAk.jpg
作者: be00148 (ThirtyCentimeter)   2020-07-02 00:03:00
針對"[[a,1],[b,2]]"這種字串型態資料用json.loads() 就可以轉成list 謝謝了
作者: alvinlin (林矜業)   2020-07-02 00:23:00
^^。順便也可以去參考skcom 0.9.4嗯..最近好像到0.96了。

Links booklink

Contact Us: admin [ a t ] ucptt.com