[問題] 請問爬蟲 bs4的擷取方法?

作者: neiltsang (CatLulu)   2020-06-29 21:38:52
如題目
用原始碼會是一片這樣
logged_user = false;
var static_id_cdn = 2;
var html5player = new HTML5Player('html5video', '25522515');
if (html5player) {
html5player.setVideoTitle(');
html5player.setSponsors([{}]);
html5player.setVideoUrlLoW...........
其實還滿整齊的
我所要的網址都擺在了html5player.setVideoUrlLow裡面
使用bs4是好選擇嗎?該如何操作?
作者: mychiux413 (小邱)   2020-06-30 00:03:00
bs4不能解析js,如果re能抓出來就re吧,下策就selenium
作者: alvinlin (林矜業)   2020-06-30 01:36:00
嗯。通常是去看js完後它把資料丟哪去了。然後去抓那個結果建議可以po個網址來看看省時間
作者: aidansky0989 (alta)   2020-07-01 08:25:00
請問碰到html會先用xpath還是bs4?兩個不太會選
作者: alvinlin (林矜業)   2020-07-01 13:26:00
bs4有css也有xpath.如果用parsel(scrapy)只有xpath.所以bs4有個參數有html.parser/lxml/html5lib但只是速度不同或你也可以用html.parser模組的HTMLParser類自己刻一個或用html2text模組不parse自己去找內容所以bs4和xpath不是對比的選擇.而是xpath是bs4的選項之1bs4不能解析js是因為js需要瀏覽器才能跑(除非是node.js)
作者: OrzOGC (洞八達人.拖哨天王)   2020-07-01 15:01:00
我都爬出來找,xpath直接放棄...XD
作者: aidansky0989 (alta)   2020-07-01 15:20:00
感謝大大解答
作者: alvinlin (林矜業)   2020-07-06 23:24:00
^^如果還是說明不清楚可以說通常是css和xpath混用吧看哪一個可以達到目標

Links booklink

Contact Us: admin [ a t ] ucptt.com