[問題] selenium爬取不了完整頁面資訊 swwy1661 PTT批踢踢實業坊

[問題] selenium爬取不了完整頁面資訊

作者: swwy1661 (小玉米) 2019-06-14 17:10:23

各位大大好，小弟是自學爬蟲新手，請多多指教！
小弟有2個問題想詢問~
第一個問題是，小弟目前在練習爬取視頻，
遇到了一個網頁，是需要點擊撥放，跳到專屬的撥放器，才會跳出真實的網頁地址
如verystream!
所以小弟就使用selenium進行以下的操作
browser.find_element_by_xpath('//*[@id="btn2"]').send_keys(Keys.ENTER)
time.sleep(10)
page_source = browser.page_source
print(page_source)
browser.quit()
selenium確實轉換到VS之撥放器，且網頁內容也加載了mp4的url
但抓取page_sourece還是沒有獲得此地址，希望有大大可以幫忙解、解答
第二個問題，小弟想問，有些網址，不論是用request或selenium都無法獲取全部的元素
是甚麼原因呢?有甚麼關鍵字能找到學習這類類似反爬蟲相關的文章嗎?
以上,拜託大大們幫忙解答或提供思路了,謝謝

作者: bugbug777 (sil) 2019-06-14 23:49:00

我也是有點興趣不過你要附一下圖片還是網頁的網址不然看不懂

作者: s860134 (s860134) 2019-06-15 15:23:00

通常頁面播放器都是走 JS 你要抓的話可能要撈 network

作者: TakiDog (多奇狗) 2019-06-17 02:15:00

現在看到 hmm 你的verysteam不知道是不是跟我做的一樣我做過直到目前還能使用 https://reurl.cc/Qkj5p只是自己在用的命名就:)

作者: swwy1661 (小玉米) 2019-06-22 19:58:00

謝T大，但無法使用，我的那個網站沒辦法直接找到真實地址，後來通過selenium點擊其他網站，達成找到真實目標，完成爬蟲。

繼續閱讀

[問題] csv寫入問題(包含逗號寫入同一欄)sshc [分享] 2019 PIXNET 黑客松 (更新資訊)chaos012 [資訊] 6/29-30六日Python網路爬蟲課程徵團報alienpiga Re: [問題] Python新手 for迴圈問題safyrose Re: [問題] Python新手 for迴圈問題jordan0740 Re: [問題] Python新手 for迴圈問題TuCH [問題] Python新手 for迴圈問題a172545056 [問題] 回到前面已執行的某一個步驟A601B8 Re: [問題] 抓 google 網頁的搜尋回傳結果purplvampire [問題] DBSCAN是否可以直接處理時空資料lh1122