[討論] 秀泰影城爬蟲

作者: students (無敵風火輪)   2017-12-20 11:53:16
最近在練習寫爬蟲,決定把全台灣影城的電影時刻表當作爬蟲的練習對象。
第一次爬了威秀影城,比較簡單,搞定了。
第二次爬了環球影城,雖然似乎只能爬到當日的時刻表,但也沒什麼問題。
第三次挑戰秀泰影城,發現他的時刻表資訊沒有秀在前端HTML上?
https://www.showtimes.com.tw/events?corpId=8
仔細觀察,他在載入網頁時,會轉一個「請稍候」然後才顯示內容。
於是我使用Chrome的右鍵「檢查」工具。
發現兩個問題:
1.為什麼在網頁上點右鍵顯示原始碼,出現的是隱藏資訊的原始碼,然後在「檢查」工具
中的 Elements 欄位會顯示比較詳細的原始碼呢?
但偏偏,我使用BeautifulSoup抓上面那個連結時,他抓的是「顯示網頁上右鍵原始碼版
本」的。
所以我怎麼印都印不出來我想要的那個「電影時刻」。
2.更進一步,我在「檢查」工具中的Network欄位中觀察,選擇XHR,看看有沒有相關的AP
I,果然被我找到了!
示意圖 https://i.imgur.com/UYEZs3b.png
https://capi.showtimes.com.tw/1/events/listForCorporation/8?date=2017-12-20&li
mit=2000
但是在使用線上JSON工具檢查後,發現資訊不是我要的。
示意圖 https://i.imgur.com/tH12ulr.png
有大大找過秀泰影城的時刻資訊嗎?
#他隱藏得太深,我找得好苦。
#覺得秀泰在躲我。
作者: tedwu2001   2017-12-20 12:14:00
events裡面的startedAt就是時刻,只是要自己換成GMT+8底下programs對應影片,venues對應廳號就想辦法mapping
作者: dododavid006 (朔雪)   2017-12-20 12:18:00
關於 1 原始碼那個是直接抓 html 下來 但是 Element那頁會包含 js 執行完的結果 所以會比較多東西應該說 Element 那頁會反應目前網頁的狀態
作者: students (無敵風火輪)   2017-12-20 12:26:00
原來如此,謝謝兩位大大

Links booklink

Contact Us: admin [ a t ] ucptt.com