[問題] 使用selenium爬蟲被偵測為機器人

作者: xyz6206a (xyz6206a)   2016-06-30 11:58:45
各位前輩大家好!
我日前使用selenium寫爬蟲時
遇到網頁偵測為機器人而跳出
需要寫認證碼阻擋,而我自己使用
time.sleep()去延遲下載時間
好像也沒法阻止機器人偵測
請問這個原因是?
請問一下有其他解決方法嗎?
下圖為我遇到的狀況
http://imgur.com/CyfWI5k
作者: xyz6206a (xyz6206a)   2016-07-04 19:20:00
r大是指要用辨識程式去辨別嗎?
作者: Neisseria (Neisseria)   2016-06-30 12:07:00
改 user agent 看看?我笨了,不好意思 = =...
作者: yf9000555 (所以我說那個媽媽如何)   2016-06-30 12:38:00
如果那個網站當初設計,是採用同Ip請求次數來阻擋的話,剛好你電腦為浮動IP的話,用系統命令斷線重連就可以避開了
作者: xyz6206a (xyz6206a)   2016-06-30 12:44:00
這個網站要求一定要用學校IP,所以不知道是否可以用斷線方式
作者: cybelia (@@)   2016-06-30 13:03:00
原po要爬的站跟你們學校的合約,確定是允許「使用軟體大量下載」的嗎?
作者: IAMPF (PF)   2016-06-30 13:17:00
你也可以去找大量的proxy或是用tor來避開這個問題
作者: xyz6206a (xyz6206a)   2016-06-30 15:41:00
其實我也不確定是否允許大量下載這是老師的計畫
作者: tj386 (最愛歐陽三姊妹♥♥♥)   2016-06-30 18:43:00
換個作業系統看看 少用win
作者: ripple0129 (perry tsai)   2016-06-30 22:21:00
看有沒有猜captcha次數限制,沒的話寫OCR來破解,這個captcha看起來不難解

Links booklink

Contact Us: admin [ a t ] ucptt.com