[問題] Selenium與BeautifulSoup有什麼不同?

作者: peace9527 (謝謝你9527)   2016-02-15 18:04:39
各位前輩大家好
目前正在學習python來當網路爬蟲
之前用BS成功抓取table的資料
也知道BS的強大
後來發現BS還是有他的瓶頸
因為他不是瀏覽器 他無法幫我們選取按鈕或觸發AJAX
後來爬文後發現selenium好像可以實現這些行為
透過觸發後 就可以獲得BS原本無法得到的資訊
例如要onclick後才會出現的網址或按鈕
我只要用selenium去觸發onclick 就可以獲得網址
然後再用BS去分析這個網址
看起來我自己好像已經講完了
但其實我不是很肯定我的理解對不對
希望各位大神能幫我解答 看看是否正確
如果方便的話 也麻煩大家提醒我 我的理解還有哪些不足
感謝大家!
作者: Thisisnotptt (這不是PTT)   2016-02-15 19:25:00
bs只是用來處理你抓下來的網頁文字檔,所以selenium跟bs應該是不衝突的
作者: MOONY135 (談無慾)   2016-02-15 21:59:00
不衝突 要做動作的話request好像也可以
作者: xlk (深深)   2016-02-16 00:57:00
一般用selenium+css/xpath selector抓element text, 除非需要複雜互動再考慮混用。高效應該還是BS only抓已知網址內容。request data/url/selector當然就靠browser developer tool功能找出來
作者: blc (Anemos)   2016-02-16 14:08:00
叫做 Headless browser 的樣子。
作者: xlk (深深)   2016-03-05 22:32:00
selenium可以用phantomjs的ghostdriver是headless的…前面說的不太對.selenium適合需要複雜互動時用 一般BS就夠

Links booklink

Contact Us: admin [ a t ] ucptt.com