[問題] 請問爬蟲 bs4的擷取方法? neiltsang PTT批踢踢實業坊

[問題] 請問爬蟲 bs4的擷取方法?

作者: neiltsang (CatLulu) 2020-06-29 21:38:52

如題目
用原始碼會是一片這樣
logged_user = false;
var static_id_cdn = 2;
var html5player = new HTML5Player('html5video', '25522515');
if (html5player) {
html5player.setVideoTitle(');
html5player.setSponsors([{}]);
html5player.setVideoUrlLoW...........
其實還滿整齊的
我所要的網址都擺在了html5player.setVideoUrlLow裡面
使用bs4是好選擇嗎?該如何操作?

作者: mychiux413 (小邱) 2020-06-30 00:03:00

bs4不能解析js，如果re能抓出來就re吧，下策就selenium

作者: alvinlin (林矜業) 2020-06-30 01:36:00

嗯。通常是去看js完後它把資料丟哪去了。然後去抓那個結果建議可以po個網址來看看省時間

作者: aidansky0989 (alta) 2020-07-01 08:25:00

請問碰到html會先用xpath還是bs4？兩個不太會選

作者: alvinlin (林矜業) 2020-07-01 13:26:00

bs4有css也有xpath.如果用parsel(scrapy)只有xpath.所以bs4有個參數有html.parser/lxml/html5lib但只是速度不同或你也可以用html.parser模組的HTMLParser類自己刻一個或用html2text模組不parse自己去找內容所以bs4和xpath不是對比的選擇.而是xpath是bs4的選項之1bs4不能解析js是因為js需要瀏覽器才能跑(除非是node.js)

作者: OrzOGC (洞八達人.拖哨天王) 2020-07-01 15:01:00

我都爬出來找,xpath直接放棄...XD

作者: aidansky0989 (alta) 2020-07-01 15:20:00

感謝大大解答

作者: alvinlin (林矜業) 2020-07-06 23:24:00

^^如果還是說明不清楚可以說通常是css和xpath混用吧看哪一個可以達到目標

繼續閱讀

[問題] 兩個表格合併MAGICXX Re: [問題] 影像辨識追蹤MasterChang [問題] 爬蟲新手座標圖抓資料(解決)joeyen0546 [問題] 爬蟲下載影片愈到權限問題neiltsang [問題] dataframe使用replace的疑問jasonhsu14 [問題] 有小數點的數字關鍵字ayaniji [問題] 菜雞問題求助FrockYu [問題] 請問 astype 指令內 copy 的意思happy95oya Re: 請問如何計算回歸方程式refusekkk Re: 請問如何計算回歸方程式mychiux413