[問題] 爬蟲只抓得到標籤名,但內容抓不到

作者: bckkt (bckkt)   2018-04-26 19:28:23
大家好
這是我想爬的網站https://web2.sa8888.net/
https://imgur.com/x6VhTMT
在<div id="scheduleMiddle">下面的表格就是我想抓的資料
以下是我的程式碼
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://web2.sa8888.net/")
pageSource = driver.page_source
driver.close()
soup = BeautifulSoup(pageSource, "html.parser")
print(soup)
https://imgur.com/VBeZQjp
<div id="scheduleMiddle">下面顯示不出來任何表格
就算print(soup.find_all('div',id="scheduleMiddle"))
也只會出現[<div id="scheduleMiddle"></div>]
請教大家有沒有什麼想法?
作者: eri820503 (snoopyahoo)   2018-04-26 20:06:00
在這網站按ctrl+U你會發現找不到比分因為這網頁是用POST的方式所以應該是要去抓有table資料的那個網頁用request.post抓看看
作者: bckkt (bckkt)   2018-04-26 20:23:00
用requests.post(Url2,headers=headers2).text 好像沒差出來一樣的結果
作者: ThxThx (洗洗睡)   2018-04-26 21:32:00
可以trace一下source code它只有minify過我大概看一下 它是用websocket去抓資料
作者: vi000246 (Vi)   2018-04-26 21:37:00
看起來是先把資料抓出來 再用js動態產生的你可以研究一下資料是何時載進來的你在左邊的頁籤隨便按一下 會發現scheduleMiddle有變化但是沒有任何request 可能資料是一開始就載好了
作者: shadowjohn (轉角遇到愛)   2018-04-27 10:04:00
作者: bckkt (bckkt)   2018-04-27 12:03:00
TO樓上 我有看到WS有彈出很像資料的部分 我研究研究一下

Links booklink

Contact Us: admin [ a t ] ucptt.com