[問題] 爬蟲問題

作者: Mutibil (nujabes)   2017-11-27 14:56:18
用beautifulsoup想爬steam 上對遊戲的關鍵字評論
網址如下
http://steamcommunity.com/games/dota2/announcements/detail/1449457773770927103
comment 一頁十筆,在爬的時候只能抓取得到第一頁的內容
第二頁的評論以後不知從何爬起,不是很了解資料放在哪
另外
這部分有推薦用書可以查嗎
感覺不知道網頁怎麼寫,要爬資料問題一堆
又毫無頭緒....
謝謝
作者: ckc1ark (偽物)   2017-11-27 15:03:00
從developer panel可以看ajax url怎麼下他是包在json的comment_html欄位
作者: Mutibil (nujabes)   2017-11-27 15:06:00
又麻煩你了orz 一堆報告要爬蟲分析...
作者: ckc1ark (偽物)   2017-11-27 15:11:00
看起來沒有特別檢查 https://tinyurl.com/y8kbxrar改start就可以撈別頁了
作者: vi000246 (Vi)   2017-11-27 17:04:00
用F12看Netwrok頁籤 看翻頁時會執行的request
作者: s960405s (記羽)   2017-11-28 13:43:00
用selenium吧
作者: Mutibil (nujabes)   2017-11-28 13:48:00
因為覺得有些筆數很大 selenium會慢了些

Links booklink

Contact Us: admin [ a t ] ucptt.com