Re: [請益] 大家爬蟲都爬什麼好玩?

作者: mejichoco (UoU)   2021-02-04 20:28:12
不好意思,想藉這個標題問一下
如果爬商業網站的話
寫通知信或是告知信需要給哪個部門?
還是寫給客服信箱才可以?
不然到時候我怕實驗爬蟲程式
搞到最後被反制或是列為黑名單ip就糟糕了
謝謝!
作者: accessdenied (存取違規)   2021-02-06 02:31:00
ocr無用,我試過很多 ocr 方案,他們都只能對印刷字體有辨識力,手寫字和扭曲的captcha無法辨識
作者: alihue (wanda wanda)   2021-02-04 21:00:00
幹嘛寫 難道人家會為了你去申請這個 ip 列白名單嗎
作者: knives   2021-02-04 21:04:00
寫什麼,太閒
作者: DarkIllusion (′・ω・‵)   2021-02-04 21:35:00
告知後直接進黑名單
作者: mercurycgt68 (發芽的吉它手)   2021-02-04 21:58:00
小夫我要進來了
作者: EPGo   2021-02-04 22:01:00
怕的話也可以買 IP
作者: vi000246 (Vi)   2021-02-04 23:04:00
你可以反制他的反制啊 寫爬蟲就是這樣 見不得光
作者: kurtsgm   2021-02-05 00:30:00
XD 金勾追
作者: Virness   2021-02-05 00:47:00
XD 怪盜基德嗎 我晚上9點要進來囉
作者: viper9709 (阿達)   2021-02-05 00:53:00
推三樓
作者: pumapupa   2021-02-05 01:05:00
可能就看一下robots.txt吧?
作者: taipoo (要成功要積極)   2021-02-05 02:23:00
定時間換ip就可以解決這個問題了
作者: aidansky0989 (alta)   2021-02-05 06:55:00
先爬500個代理ip之後隨便你玩
作者: gs8613789 (Shang6029)   2021-02-05 07:02:00
爬蟲的樂趣不就是攻防嗎
作者: spfy (spfy)   2021-02-05 07:51:00
現在還能看到請謝謝對不起的有禮鄉民真的少見
作者: oncemore (超級喜歡林瑋恩)   2021-02-05 09:44:00
寫了你直接被吉
作者: devilkool (對貓毛過敏的貓控)   2021-02-05 09:46:00
怪盜基德www
作者: mychiux413 (小邱)   2021-02-05 10:02:00
我通常request前都sleep一下,不要造成人家主機負擔,當個友善的網路公民
作者: yam276 ('_')   2021-02-05 10:32:00
從此在暗網的角落,流傳著現代怪盜基德的傳說……
作者: liujh (集氣!)   2021-02-05 11:07:00
不會在黑名單太久,防火牆記憶體有限不要同時平行跑太多工作,對方都沒什麼感覺最暴力的爬蟲是 Google Bot,你很難像他那麼兇狠
作者: rahit (水元素)   2021-02-05 13:00:00
把爬的速度放慢到跟user差不多然後放著做別的事
作者: Bujo (部長)   2021-02-05 13:02:00
你直接請他給你database 帳密比較快
作者: wahaha279 (哇哈哈:3)   2021-02-05 13:15:00
發個request 睡個五秒,然後你去睡一覺
作者: ian90911 (xopowo)   2021-02-05 14:34:00
fb的我覺得也很兇...
作者: Darkword1987 (黑字)   2021-02-05 15:47:00
太溫良恭儉讓了吧
作者: andrew5106 (撿到一百塊雷~)   2021-02-05 16:41:00
寫個random sleep阿,防止ban ip也有很多方法吧
作者: jimmily   2021-02-05 17:16:00
大哥你也太可愛了吧XD
作者: accessdenied (存取違規)   2021-02-05 18:55:00
目前爬蟲遇到無法克服的障礙就是captcha, 有人知道有什麼工具嗎?
作者: james852 (james852)   2021-02-05 20:53:00
回樓上 OCR
作者: vi000246 (Vi)   2021-02-05 21:39:00
captcha是大坑喔 要學openCV ML 看圖片難易度
作者: OrzOGC (洞八達人.拖哨天王)   2021-02-05 21:48:00
V3現在不用了不是?
作者: aidansky0989 (alta)   2021-02-05 22:32:00
現在不都是滑塊?還有驗證碼喔
作者: art1 (人,原來不是人)   2021-02-06 07:41:00
看過有人寫程式產生資料集然後訓練一個 ocr model 來解決
作者: TheOneisNEO (Thomas Anderson)   2021-02-06 10:45:00
自幹的OCR應該也很難堪用吧
作者: new122851 (未若柳絮因風起)   2021-02-06 12:34:00
笑死 你有聽過小偷偷東西前還先告知屋主我要偷了哦?被黑單掛個vpn再戰
作者: chkea380   2021-02-06 20:53:00
captcha隨便套個cnn model就可以了
作者: LittleYueh (岳)   2021-02-06 22:59:00
怪盜基德超好笑哈哈哈哈
作者: sarsman (DeNT15T♠)   2021-02-07 06:09:00
有禮貌爬蟲
作者: b85040312 (萬年newman)   2021-02-07 15:29:00
你應該有長鬍子
作者: uncleben006 (uncleben006)   2021-02-08 19:38:00
推有禮貌蟲蟲
作者: pringles27 (拉拉)   2021-02-15 23:13:00
爬ptt股版即時資訊,並透過line來通知

Links booklink

Contact Us: admin [ a t ] ucptt.com