Re: [問題] 爬取網站的excel檔案 jn8029 PTT批踢踢實業坊

Re: [問題] 爬取網站的excel檔案

作者: jn8029 (宅男8029) 2019-04-03 07:19:42

※ 引述《yshihyu (yshihyu)》之銘言：
: https://gist.github.com/shihyu/cafbf8feeb1dbb821084504fcd2c544b // 目前程式碼
: 我想爬取 http://mopsfin.twse.com.tw/ 網站的excel 文件
: 目前是從 requests.post 出來結果不是chrome分析的那個頁面
: 想請問一下可能原因是？
: 我看chrome 分析會有 jsessionid ? 是要產生這個才可以嘛？
: Request URL:
: http://mopsfin.twse.com.tw/compare/data;jsessionid=948EF4B129CCA4E8F4FA1A8991AC72F8
: 還有我看點選excel 下載好像是javascript 功能有辦法透過直接下載嘛？
: 還是說javascript 必須要用 selenium？
: 謝謝
剛試了一下可以直接下載
jsessionid你可以先get首頁之後抓
他藏這
<link rel="icon" type="image/png" href="/resources/images/favicon-32x32.png;
jsessionid=F353143C92325BE0902E08030FE14F71" sizes="32x32">
然後下載excel的url是/export/data 不是compare/data
你可以用chrome的developer tool看一下你按下載excel之後他的payload有啥
把payload放對 url放/export/data 然後jsessionid放進去
就可以了不用selenium

繼續閱讀

[問題] 爬取網站的excel檔案yshihyu [問題] 取得計算影片或mp3的音量大小ptoyhawinf [問題] 控制小數點p2p8ppp [問題] 乘除順序互換答案不同@@ASSA [問題] 新手學爬蟲(#的問題)j884232001 [心得] 分享論文閱讀小幫手-smartcopy自動段落調整jiyu520 [問題] for中的[:]影響kagari [問題] meshgrid memory error 做smooth?tsopk45168 [問題] LSTM+AR(2) model的問題yarfa [問題] pycocotools 安裝問題Billeve