[問題] ig爬蟲問題

作者: yoz4ni (yoooooz)   2020-06-05 23:43:42
請問一下
爬了好幾頁都正常,但在請求時突然會蹦出這個錯誤(正確的話是會回傳一大串 jasn 的格式)
js_data : {'message': 'rate limited', 'status': 'fail'}
但是我把網址貼到瀏覽器上面是正常的,程式裡執行卻讀不出來
請問該如何是好?
困擾我好久了
作者: max36067 (圍巾喵)   2020-06-06 00:24:00
你有加header嗎? 可能會擋爬蟲
作者: alvinlin (林矜業)   2020-06-06 01:20:00
建議用API。facebook的或舊的instgramAPI。但舊的很快就不能用了https://tinyurl.com/yb755osg
作者: ddavid (謊言接線生)   2020-06-06 07:38:00
message都說rate limited了啊,你爬的速度太快了,他限制你不可以爬那麼快,遇到這種情況就是sleep一段時間繼續sleep要多久就看它的限制,或記錄一下次數時間來估計一下他的速限來加以調整
作者: vi000246 (Vi)   2020-06-06 09:59:00
作者: yoz4ni (yoooooz)   2020-06-06 20:13:00
我有加 header,加了會被擋住???我是沒用 API 啦,自己寫出來,用 API 會比較好嗎?sleep 我會再去看一下~
作者: ddavid (謊言接線生)   2020-06-07 00:50:00
原Po,反正就是速限問題,不管你用哪個方法,看起來基本上就是你同一個來源衝太快它就是會擋你sleep就只是休息一段時間不抓而已,沒啥特別的就上面連結來看,你一小時只能call 200次,所以如果你call200次只花了5分鐘,接下來你就得sleep(3300)把剩下的55分鐘休息掉,不然同一個程式來源怎麼試都是被擋實作上也不用算這麼精確,反正抓到message跟你說上限到了,程式就sleep個10分鐘再起來重抓,還是限就再sleep,以上loop就可以自動搞定了
作者: vi000246 (Vi)   2020-06-07 16:26:00
你可以測他是怎麼擋的 想辦法繞過
作者: yoz4ni (yoooooz)   2020-06-08 01:02:00
好的 感謝各位 我後來用 sleep 的方式繞過的話可能還要在去研究遺下
作者: salmon12706 (Ellen)   2020-06-29 16:17:00
工研院人工智慧課程推薦https://reurl.cc/4RDRaK

Links booklink

Contact Us: admin [ a t ] ucptt.com