[問題] ig爬蟲問題 yoz4ni PTT批踢踢實業坊

[問題] ig爬蟲問題

作者: yoz4ni (yoooooz) 2020-06-05 23:43:42

請問一下
爬了好幾頁都正常，但在請求時突然會蹦出這個錯誤(正確的話是會回傳一大串 jasn 的格式)
js_data : {'message': 'rate limited', 'status': 'fail'}
但是我把網址貼到瀏覽器上面是正常的，程式裡執行卻讀不出來
請問該如何是好?
困擾我好久了

作者: max36067 (圍巾喵) 2020-06-06 00:24:00

你有加header嗎？可能會擋爬蟲

作者: alvinlin (林矜業) 2020-06-06 01:20:00

建議用API。facebook的或舊的instgramAPI。但舊的很快就不能用了https://tinyurl.com/yb755osg

作者: ddavid (謊言接線生) 2020-06-06 07:38:00

message都說rate limited了啊，你爬的速度太快了，他限制你不可以爬那麼快，遇到這種情況就是sleep一段時間繼續sleep要多久就看它的限制，或記錄一下次數時間來估計一下他的速限來加以調整

作者: vi000246 (Vi) 2020-06-06 09:59:00

http://t.ly/9RaO

作者: yoz4ni (yoooooz) 2020-06-06 20:13:00

我有加 header，加了會被擋住???我是沒用 API 啦，自己寫出來，用 API 會比較好嗎?sleep 我會再去看一下~

作者: ddavid (謊言接線生) 2020-06-07 00:50:00

原Po，反正就是速限問題，不管你用哪個方法，看起來基本上就是你同一個來源衝太快它就是會擋你sleep就只是休息一段時間不抓而已，沒啥特別的就上面連結來看，你一小時只能call 200次，所以如果你call200次只花了5分鐘，接下來你就得sleep(3300)把剩下的55分鐘休息掉，不然同一個程式來源怎麼試都是被擋實作上也不用算這麼精確，反正抓到message跟你說上限到了，程式就sleep個10分鐘再起來重抓，還是限就再sleep，以上loop就可以自動搞定了

作者: vi000246 (Vi) 2020-06-07 16:26:00

你可以測他是怎麼擋的想辦法繞過

作者: yoz4ni (yoooooz) 2020-06-08 01:02:00

好的感謝各位我後來用 sleep 的方式繞過的話可能還要在去研究遺下

作者: salmon12706 (Ellen) 2020-06-29 16:17:00

工研院人工智慧課程推薦https://reurl.cc/4RDRaK

繼續閱讀

[問題] 關鍵字條件ayaniji [問題] 新手問題，定義函數的問題kslman [問題] ndarray 寫入 dataframectr1 [問題] 想問如何對爬到的網頁送出form submitchin2049 [問題] Pandas一欄變多欄liquidbox [問題] matplotlib的savefig問題nicha115 Re: [問題] Numpy shape問題skyconquer [問題] Numpy shape問題s90104123 [問題] 兩個介面資料傳輸顯示asahua Re: [問題] 新手學習Python的開發環境alvinlin