[問題] selenium爬蟲抓表格資料(已解決 crazystyle63 PTT批踢踢實業坊

[問題] selenium爬蟲抓表格資料(已解決

作者: crazystyle63 (crazystyle63) 2021-05-06 00:26:58

先謝謝您點進來。
小弟原本使用bs4來抓取網站表格資料
但發現時常多抓幾次之後就無法抓到資料。
https://histock.tw/stock/brokerprofit.aspx?bno=1470
(欲抓取以上表格)
但後來發現可能是動態資料問題，或需要登入資料(如果是一個月的資料)
所以改用selenium來操作。
先付上我的程式碼

一直到38行都還算相當順利
但是到了41~44行，是查找了其他資訊所得的結果
但是44行卻因為網站資料的attribute為空白
遭遇無法抓到表格上資料的問題
請問該如何解決(或有更簡易的表格抓取方式)
非常感謝
***更新***
目前確定問題出在登入。若僅使用當日資料，是確定可以抓到資料
(網頁上也不用登入即可)
一旦查詢當月資料，則需要登入才可。(否則抓到的內容沒有登入後的資料)
但是這裡遇到另一個問題，就是cookie的使用方式
目前也已參照書本的用法
卻還是找不到資料

請問該如何修改呢?
謝謝您

作者: TakiDog (多奇狗) 2021-05-06 09:47:00

確認回應 ststus code跟內容

作者: poototo (poototo) 2021-05-06 16:46:00

用session登入，不必特別處理cookie登入成功後，session就直接打你要的頁面ss = requests.Session()用ss.get 或 post....

作者: TakiDog (多奇狗) 2021-05-06 16:52:00

看到你在其他地方po ，再回一下好了同樓上，用requests.session去處理登入，並且寫好登入requests可以做到，用不到selenium除了status code還是看內容，才能去檢查response是不是有登入成功了，畢竟status code亂傳的網頁不少:D

繼續閱讀

Re: [問題] 請教vscode裡查看python版本的問題ddavid [問題] 請教vscode裡查看python版本的問題chin2049 [問題] 抓PTT資料有辦法不要透過ptt網頁版嗎chin2049 [問題] VSCode 的啟動 python 搜尋路徑leondemon Re: [問題] pyquerypoototo [問題] 線性方程式最適解hardandhard [問題] 新手問題：批量讀取wav檔作PCA（主成分kl2991 [問題] pyquerybchoice Re: [問題] Python進階語法學習purplvampire [問題] php call pythonlccf