[問題] 大量爬蟲的問題 Supershero PTT批踢踢實業坊

[問題] 大量爬蟲的問題

作者: Supershero (æ‹‰æ‹‰) 2021-05-21 05:41:11

有一個需要大量爬蟲的project
目標是一個新聞網的所有新聞
假設主網址是https://abc.com
我要爬的是https://abc.com/articles/202105200001.html
時間從2000年到今年
每一天都會有編號1到9999
但實際上可能只有一千篇是有內容的
目前是用tor來慢慢一篇一篇爬避免被鎖
但要整個網站爬完可以要耗費非常久的時間
在尋找更快的方法的時候看到一些所謂的「扒站軟件」
似乎是可以把整個網站下載下來
不知道有沒有人用過
針對這樣的例子是可行的嗎？
還是能請問有沒有其他方法可以更快的爬蟲？
（有試過multi threading,但穩定的proxies 不夠, project也不給經費買QQ)
感謝！

作者: x94fujo6 2021-05-21 10:26:00

假設像google搜尋結果有分頁...把每一頁的結果裡符合的網址存起來索引完之後再抓

作者: atrisk (atrisk) 2021-05-21 20:19:00

試著把程式移植到scrapy框架上跑跑看，不清楚會回不會被鎖

繼續閱讀

[問題] 鉅亨網爬蟲日期輸入snakei14702 [問題] Linux打包exe，竟然超過600Mte1e1 [問題] pycharm免費版有沒有auto run可以使用chin2049 [問題] 請教hdf5讀取速度問題kakar0to [問題] selenium 開新分頁使用threading 控制kiey [問題] linebot圖片接收問題jack155861 [問題] 在目標高負載下的請求失敗問題touge [問題] 使用pip檢視,更新和解除安裝套件(已解決)s4340392 [問題] 新手問個pandas修改問題W5566DerD1 Re: [問題] pyptt遇到的問題已詢問作者但無解ddavid