請益Request爬蟲

作者: andy22543 (andy22543)   2023-01-19 20:03:51
最近接到一個專案要爬購物網站存mySQL
爬分類裡面各產品資訊+內頁詳細資訊
目前已經使用selenium+multithreading寫完
可惜速度不夠快
所以正改用request改寫
但發現不管用什麼方法(session、cookie、payload)都沒辦法取得首頁的商品資訊
已經把網路上能看的解決方式都看過一遍還是無解
另外也試過network的event(貌似是api?
把相關資訊post上去爆出ConnectionError: ('Connection aborted.'
所有能試解法都試過還是無法
有沒有精通的高手幫看一下還有甚麼辦法呢
附上連結
https://www.hktvmall.com/hktv/zh/%E8%B6%85%E7%B4%9A%E5%B7%BF%E5%A0%B4/%E8%B6%85%E7%B4%9A%E5%B8%82%E5%A0%B4/%E5%86%B7%E5%87%8D-%E6%80%A5%E5%87%8D%E9%A3%9F%E5%93%81/main/search?page=0&q=%3Arelevance%3Astreet%3Amain%3Acategory%3AAA11110000000
作者: keel90135 (尼可)   2023-01-19 20:13:00
標題分類跟縮網址都不會嗎...
作者: Hsins (翔)   2023-01-19 20:23:00
非親非故又問的不清不楚,願意幫忙的人可能不多:(
作者: MoonCode (MoonCode)   2023-01-19 20:40:00
你瀏覽器看得到用爬蟲至少能抓個幾次(後續可能被擋)不要放棄
作者: alihue (wanda wanda)   2023-01-19 22:01:00
直接回到完成的版本,然後複製多份同時跑,每支爬的範圍指定一下
作者: victor21813 (OHYEAH)   2023-01-19 22:40:00
先縮網址再說
作者: chuchutaro (啾啾太郎)   2023-01-20 00:03:00
dynamic websites?
作者: wayne5668944 (wayne5668944)   2023-01-20 00:25:00
印象中好像如果是spa爬蟲抓不到(?)
作者: vi000246 (Vi)   2023-01-20 00:33:00
如果你是女生 幫的人可能會多一點只能給你關鍵字 用wireshark或fiddler看request的rawdata 想辨法模擬出一個一模一樣的request這是get的raw data https://imgur.com/EViD6Ld我網路亂抓的圖 我比較常用fiddler 你可以找個順手的
作者: becca945 (頻果芽子)   2023-01-20 01:03:00
你很不想問問題?
作者: Murasaki0110 (麥當勞歡樂送)   2023-01-20 01:19:00
問chatGPT
作者: kanahela (卡娜赫拉)   2023-01-20 07:38:00
你給的這個網址,超級市場分類商品,點進去就timeout了
作者: andy22543 (andy22543)   2023-01-20 09:17:00
不好意思第一次在本版發文感謝各位指教
作者: surimodo (好吃棉花糖)   2023-01-20 10:07:00
selenium 笑死 怎麼可能快
作者: HybridSC (VisionS)   2023-01-20 15:44:00
建議先去搞懂request的運作方式,不然以後也是一個頁面問一次
作者: vi000246 (Vi)   2023-01-20 16:41:00
這兩本書我沒讀過 不過看目錄應該有你要的東西https://www.tenlong.com.tw/products/9787301322697https://www.tenlong.com.tw/products/9787115528735看反爬蟲那個章節就好
作者: brucetu (sec)   2023-01-20 20:29:00
selenium不夠快你不會多開幾台?你在那邊破解反爬蟲的成本絕對夠你多開好幾台
作者: vi000246 (Vi)   2023-01-21 00:34:00
多開幾台治標不治本 又浪費效能 學好request才是正解
作者: andy22543 (andy22543)   2023-01-21 11:04:00
謝謝各位意見,小弟再回去多研究request
作者: ReverieKai (ReveErieKai)   2023-01-21 17:48:00
你要先了解request和Selenium兩個爬出來的網頁差異還有運作原理
作者: secretfly (☠鬼滅·之喵喵)   2023-01-22 01:00:00
網路上能看的解決方式都看過一遍???你可以看兩遍
作者: B0988698088 (廢文少女小円♥)   2023-01-22 12:30:00
連縮網址都不會你回去報資測會比較快
作者: MoonCode (MoonCode)   2023-01-22 19:19:00
作者: john0312 (Chen John L)   2023-01-22 19:57:00
有些反爬蟲技術就不是requests學好就能解決的
作者: Belieeve (芥末拿鐵)   2023-01-23 06:30:00
弱弱問一下,用爬蟲進行商業行為(外包),這樣不違法嗎…?
作者: vi000246 (Vi)   2023-01-23 20:07:00
爬蟲大部份都是違法的 請低調使用
作者: Hsins (翔)   2023-01-23 20:17:00
之前請益過,有一說是真的要起訴的話,可能需要舉證爬蟲的運作造成的實際損失。有些爬蟲比如是電商販售物品,沒有公開 API 又希望第三方行銷團隊或是其他平台想要同步銷售而去爬取資料,好像就比較難判斷。建議還是了解一下對方意圖會比較好
作者: ripple0129 (perry tsai)   2023-01-24 14:30:00
真的不行就headless,慢了一點但是在背景慢慢爬,太快有時候反而也會被擋
作者: Belieeve (芥末拿鐵)   2023-01-25 08:10:00
謝謝大家的解說
作者: s25g5d4 (function(){})()   2023-01-25 14:54:00
這種通常要另外打 API 拿到資料,如果習慣爬蟲寫法可以考慮 jsdom,比 headless 再更輕量點
作者: superpandal   2023-01-25 22:44:00
如上推文 爬蟲是灰色地帶 慢不一定是壞事 別人不讓你爬事小 告你事大 要快也不是不行 不論你用不用合法的方式還是要付錢 直接跟購物網站接洽比較好
作者: MonyemLi (life)   2023-01-26 00:58:00
快速就是固定時間增加request數量,小型點的就營運會卡了。

Links booklink

Contact Us: admin [ a t ] ucptt.com