[問題] google search 爬蟲

作者: jackjenny (痛苦)   2024-02-03 06:58:45
我只想在對google search 爬取文章
例如 [email protected] 有多少業者
https://imgur.com/a/kLSId6D
會對結果收集並存放到excel
一筆資料會有五個欄位
1.網域
2.完整網域
3.主標題
4.內文
5.圖片網址
對我發現一個問題
每個物件用BS4的class都是隨機亂碼,
造成不保證後續都可以用同個class去抓
我自己用了幾次 目前都是同個物件class(亂碼)沒變
但我覺得可能過幾天就會更換
Q1.請問google search 結果的html class似乎都是亂碼取名該怎應對?
Q2.class=VwiC3b yXK7lf lVm3ye r025kc hJNv6b Hdw6tb
這怎class該怎抓阿 名稱太長且中間有空格,一直抓失敗..
作者: abcd (ABCD)   2024-02-03 14:17:00
我是沒有仔細受研究 但你可以用XPath抓抓看 我也不確定可不可以
作者: JerryChungYC (JerryChung)   2024-02-04 02:02:00
往下找有個 var m = {} 有存那些資訊 可以看看
作者: jackjenny (痛苦)   2024-02-04 03:45:00
J大 不懂意思 找不到耶
作者: AndCycle (AndCycle)   2024-02-10 21:52:00
你乖乖付錢就有api可以用, 你這樣爬很快會被擋

Links booklink

Contact Us: admin [ a t ] ucptt.com