不好意思,想藉這個標題問一下
如果爬商業網站的話
寫通知信或是告知信需要給哪個部門?
還是寫給客服信箱才可以?
不然到時候我怕實驗爬蟲程式
搞到最後被反制或是列為黑名單ip就糟糕了
謝謝!
ocr無用,我試過很多 ocr 方案,他們都只能對印刷字體有辨識力,手寫字和扭曲的captcha無法辨識
作者:
alihue (wanda wanda)
2021-02-04 21:00:00幹嘛寫 難道人家會為了你去申請這個 ip 列白名單嗎
作者:
knives 2021-02-04 21:04:00寫什麼,太閒
作者: mercurycgt68 (發芽的吉它手) 2021-02-04 21:58:00
小夫我要進來了
作者: EPGo 2021-02-04 22:01:00
怕的話也可以買 IP
作者: pumapupa 2021-02-05 01:05:00
可能就看一下robots.txt吧?
作者:
taipoo (要成功要積極)
2021-02-05 02:23:00定時間換ip就可以解決這個問題了
作者:
gs8613789 (Shang6029)
2021-02-05 07:02:00爬蟲的樂趣不就是攻防嗎
作者:
spfy (spfy)
2021-02-05 07:51:00現在還能看到請謝謝對不起的有禮鄉民真的少見
作者:
oncemore (超級喜歡林瑋恩)
2021-02-05 09:44:00寫了你直接被吉
我通常request前都sleep一下,不要造成人家主機負擔,當個友善的網路公民
作者:
yam276 ('_')
2021-02-05 10:32:00從此在暗網的角落,流傳著現代怪盜基德的傳說……
作者:
liujh (集氣!)
2021-02-05 11:07:00不會在黑名單太久,防火牆記憶體有限不要同時平行跑太多工作,對方都沒什麼感覺最暴力的爬蟲是 Google Bot,你很難像他那麼兇狠
作者:
rahit (水元素)
2021-02-05 13:00:00把爬的速度放慢到跟user差不多然後放著做別的事
作者:
Bujo (部長)
2021-02-05 13:02:00你直接請他給你database 帳密比較快
作者:
ian90911 (xopowo)
2021-02-05 14:34:00fb的我覺得也很兇...
作者:
andrew5106 (撿到一百塊雷~)
2021-02-05 16:41:00寫個random sleep阿,防止ban ip也有很多方法吧
目前爬蟲遇到無法克服的障礙就是captcha, 有人知道有什麼工具嗎?
作者:
james852 (james852)
2021-02-05 20:53:00回樓上 OCR
captcha是大坑喔 要學openCV ML 看圖片難易度
作者:
OrzOGC (洞八達人.拖哨天王)
2021-02-05 21:48:00V3現在不用了不是?
作者:
art1 (人,原來不是人)
2021-02-06 07:41:00看過有人寫程式產生資料集然後訓練一個 ocr model 來解決
笑死 你有聽過小偷偷東西前還先告知屋主我要偷了哦?被黑單掛個vpn再戰
作者: chkea380 2021-02-06 20:53:00
captcha隨便套個cnn model就可以了
作者:
sarsman (DeNT15T♠)
2021-02-07 06:09:00有禮貌爬蟲
作者: uncleben006 (uncleben006) 2021-02-08 19:38:00
推有禮貌蟲蟲