[請益] js有辨法寫爬蟲嗎

作者: vi000246 (Vi)   2020-07-18 19:31:10
打算寫一支591爬蟲
有符合條件的新物件就跳出通知
因為懶得架server跟DB 想用chrome extension來做
稍微做了研究
發現要取得房屋列表json
需要先進到591頁面
取得cookie的591_new_session跟html裡面<meta>中的csrf-token
分別放到get reqeust中的header跟cookie
才能取到我要的資料
想問用js能做得到嗎 還是一定要後端語言呢
如果要做成後端 要能設定定時執行
還要考慮跨電腦同步db問題 只打算存物件id用來判斷重複物件
想到就覺得麻煩...
好像還沒看過有人用純js寫爬蟲的?
作者: diabloevagto (wi)   2020-07-18 19:33:00
可以
作者: milktea736 (milktea)   2020-07-18 19:34:00
應該可以用 nodejs 試試?
作者: alihue (wanda wanda)   2020-07-18 19:35:00
JS 會先處理 CORS 到爆
作者: dreamnook (亞龍)   2020-07-18 19:51:00
可以 查apify啊 不過我抓的是靜態頁面 可能不符
作者: MOONY135 (談無慾)   2020-07-18 19:54:00
非常討厭CORSpython他不香嗎db跟server 用docker不就幫你裝好了
作者: yahooc (更想要)   2020-07-18 19:57:00
真香
作者: x123356 (x123356)   2020-07-18 20:00:00
我覺得你可以先搞懂為什麼會有CORS存在 還有api gateway
作者: leo5916267 (小葉)   2020-07-18 20:40:00
不然直接去591客服問怎麼爬你們家的網頁
作者: MOONY135 (談無慾)   2020-07-18 20:59:00
https://reurl.cc/9Elgea + cron 給我香起來
作者: guanting886 (Guanting)   2020-07-18 21:41:00
....
作者: seal0112   2020-07-18 21:43:00
用node.js寫 不會很難 用js browser會因為cors擋
作者: BlacksPig (Black Handsome s Pig)   2020-07-18 21:43:00
11樓意見不錯,已笑翻
作者: fantasychese (林阿宅)   2020-07-18 23:35:00
最近剛好在學 你須要的是Puppeteer
作者: Ayukawayen (亞布里艾爾發芽>//<)   2020-07-18 23:51:00
extension在background發XHR應該就不會被CORS擋不過要先在manifest的permissions把目標網域加進去
作者: Mamann (嘛嘛)   2020-07-19 00:21:00
直接nodejs不用cors啦
作者: zxc8899546 (GC)   2020-07-19 00:23:00
用cheerio處理html 抓取你要的部分就好
作者: vi000246 (Vi)   2020-07-19 01:21:00
大家講的都是node.js 看來只能用後端寫了
作者: TakiDog (多奇狗)   2020-07-19 01:31:00
在瀏覽器執行一定撞cors,載片我都寫Python直接把連結用 書籤放js丟給python後端XD
作者: leo5916267 (小葉)   2020-07-19 02:31:00
cors可以關掉瀏覽器的cors看看,或是你webpack用proxy繞過去,但就只是自己用爽的而已
作者: vi000246 (Vi)   2020-07-19 02:57:00
我打算用python寫了 買個便宜主機設定cron job資料庫用jsonbin 應該能解決我的問題
作者: kewang (652公車)   2020-07-19 09:50:00
SSR 還好,如果你是 CSR 的話就一定要用後端處理了,puppeteer 操作萬解
作者: apotatostory (卍煞氣a帥勾勾卍)   2020-07-19 12:17:00
前端我用angular 框架 用proxy 啟動不會cors哦
作者: qq076qq076 (小小菜鳥)   2020-07-19 15:15:00
樓上,ng就是幫你起了一個本地的node伺服器做proxy啊...
作者: chatnoir (對不起)   2020-07-19 15:57:00
有proxy當然不會有cors啊 =_=
作者: Hsins (翔)   2020-07-19 19:07:00
GitHub Actions 就能搞定的東西,為什麼要自己租伺服器?
作者: Hitmear (屍殌化液)   2020-07-20 14:46:00
591我之前用python直接打request,一下就搞定了放在heroku上也免費
作者: jihon2002 (公館沒有鹿)   2020-07-21 01:26:00
這樣找租屋變好方便XD
作者: jobintan (Robin Artemstein)   2020-07-21 08:02:00
Heroku免費的應該有限制吧!還是去官網看一下比較好。
作者: vi000246 (Vi)   2020-07-21 08:57:00
heroku我記得一天要休眠6小時 沒人戳也會自動休眠
作者: infixman (松下問童子)   2020-07-22 09:58:00
heroki不是綁信用卡就不用休眠?*heroku
作者: aa06697 (todo se andarà)   2020-07-23 14:33:00
11樓XD

Links booklink

Contact Us: admin [ a t ] ucptt.com