[問題] Google Play 內容隨機變動問題

作者: chan15 (ChaN)   2018-03-20 14:39:05
各位好,小弟要抓取分析 Google Play 頁面的星星數做分析
https://play.google.com/store/apps/details?id=jp.naver.line.android
以上面那個例子為例,要抓取如下方圖示的位置
https://i.imgur.com/1dqIYT1.png
HTML 會像是 <span class="bar-number" aria-label="評分次數:30,554">30,554</span>
所以我是取 .bar-number 的部份,後來發現一個大問題
就是 Google 會隨機的變更內容,會變成類似
<span class="UfW5d" aria-label="6,397,222 則評分">6,397,222</span>
用網頁刷也是同樣的情況,而用無痕就可以固定顯示正確的 class
已經使用過無痕的 request header 也無效,不知道怎樣讓爬蟲正確的抓到內容
作者: s860134 (s860134)   2018-03-22 02:27:00
樹狀結構是穩定的,你找固定的文字作定位 xpath 相對路徑打個比方 <h2 class="Rm6Gwb">評論</h2>

Links booklink

Contact Us: admin [ a t ] ucptt.com