[問題] 使用selenium爬蟲被偵測為機器人 xyz6206a PTT批踢踢實業坊

作者: xyz6206a (xyz6206a) 2016-06-30 11:58:45

各位前輩大家好!
我日前使用selenium寫爬蟲時
遇到網頁偵測為機器人而跳出
需要寫認證碼阻擋，而我自己使用
time.sleep()去延遲下載時間
好像也沒法阻止機器人偵測
請問這個原因是?
請問一下有其他解決方法嗎?
下圖為我遇到的狀況

作者: xyz6206a (xyz6206a) 2016-07-04 19:20:00

r大是指要用辨識程式去辨別嗎？

作者: Neisseria (Neisseria) 2016-06-30 12:07:00

改 user agent 看看？我笨了，不好意思 = =...

作者: yf9000555 (所以我說那個媽媽如何) 2016-06-30 12:38:00

如果那個網站當初設計，是採用同Ip請求次數來阻擋的話，剛好你電腦為浮動IP的話，用系統命令斷線重連就可以避開了

作者: xyz6206a (xyz6206a) 2016-06-30 12:44:00

這個網站要求一定要用學校IP，所以不知道是否可以用斷線方式

作者: cybelia (@@) 2016-06-30 13:03:00

原po要爬的站跟你們學校的合約，確定是允許「使用軟體大量下載」的嗎？

作者: IAMPF (PF) 2016-06-30 13:17:00

你也可以去找大量的proxy或是用tor來避開這個問題

作者: xyz6206a (xyz6206a) 2016-06-30 15:41:00

其實我也不確定是否允許大量下載這是老師的計畫

作者: tj386 (最愛歐陽三姊妹♥♥♥) 2016-06-30 18:43:00

換個作業系統看看少用win

作者: ripple0129 (perry tsai) 2016-06-30 22:21:00

看有沒有猜captcha次數限制，沒的話寫OCR來破解，這個captcha看起來不難解

繼續閱讀