[閒聊] 想跟 Web Scraping 高手請益自動化技術~ adwx1973 PTT批踢踢實業坊

[閒聊] 想跟 Web Scraping 高手請益自動化技術~

作者: adwx1973 (adwx1973) 2018-09-21 11:31:35

As title,
之前網路上看了些 Python 爬蟲基本教學，
正試著從證交所爬蟲建立財報/股價資料庫。
但沒多久就發現幾個問題：
1. 每天爬取公司股價，經常性斷線，
加上 Header; time.sleep(); 之類的都用上了，
想請益更有效率，穩定自動斷點續傳的技術。
2. 財報 PDF 想要自動化下載，
因為隱藏網址似乎是 jsoncallback 產生的，
並且網址當中一部分是隨機數 or 現在時刻(時分秒)，
這方面沒辦法突破。
也有試過 selenium + firefox webdriver，
不過也是卡在多個頁面切換的操作無法 Loop。
想請益版上這方面的高手，這些部分怎麼用 code 實現，
如果人在高雄有時間也可以約出來，我可以請你吃飯~
非常感謝!!

作者: f496328mm (為什麼會流淚) 2018-09-21 12:58:00

crontab 排程自動化

作者: supisces (被~~~切~~~八~~~段) 2018-09-21 15:54:00

反爬蟲？

作者: areyo (沒有名字的怪物) 2018-09-23 23:28:00

推同在高雄

作者: totte (totte) 2018-09-25 04:56:00

1證交所股價下載還蠻穩的丫我幾乎沒出過問題你是下載json?2財報為何要下載pdf? 印象中有csv之類的原始資料可下也史容易分析

作者: adwx1973 (adwx1973) 2018-09-25 10:59:00

http://www.twse.com.tw/zh/page/trading/exchange/STOC是在個股日成交資訊那邊抓，持續一段時間後會斷公開資訊觀測站有IFRS的財報XBRL，可是有些會計科目的細項不在那裏面，必須要去原始的PDF檔裡面找

繼續閱讀

Re: [問題] 爬蟲自動更新程式Hsins [問題] 爬蟲自動更新程式WENroger [問題] 樞紐分析+排序buyoption [問題] 在MAC 上用pycharm執行Djangoabcd012345 [問題] 無法成功取字串前4碼neil24 [問題] 請問http digest 認證wisdoms0817 [問題] youtube記錄觀看人數tinasfishs [範例] tensorflow問題在那?g318 [閒聊] 台北贈送python教學書alfven [問題] python tensorflow spyder啟動問題dinosaur8484