爬蟲專家請進

作者: a114514 (a114514)   2025-11-26 19:11:49
代po
我使用 Playwright 或 requests 來爬取美國政府財報網站 SEC Filings 的資料,設定下
載速率大約為每秒一個檔案。但在下載過程中,電腦網路連線進行到一半時遭到封鎖,導致
流程中斷。
只是對於他們防爬機制還不瞭解
robots.txt 的內容是存在的,允許部分靜態資源,禁止管理與系統目錄。你看不到是因為
速率過快被伺服器擋住,不是因為檔案不存在。
目前平均一分鐘爬90個檔案沒鎖,但只是聽說有人一分鐘可以爬200到300個
所以這裡有精通網頁爬蟲的專家嗎

Links booklink

Contact Us: admin [ a t ] ucptt.com