[問題] 機票網站爬蟲問題

作者: haru97724 (haruru)   2018-05-26 17:16:43
大家安安~~
我最近開始學python,想要爬機票的資料
因為不是資工相關科系的學生,所以我目前都是看網路上的教學學的
我目前是用selenium爬ctrip的網站
https://www.ctrip.com.hk/flights/
按下搜尋後,在檢查的network那邊會有機票的資料被存在SearchFlights的XHR裡面
這裡會有兩個都是叫SearchFlights的XHR
有一個是一開始就有,但他只有頭幾筆資料
另一個要等一陣子,這個才有全部資料
http://i.imgur.com/VrVUUB5.jpg
我用selenium打開之後,對他requests.post
因為request的url都一樣,所以出來都只給我頭幾筆資料的那個
在他請求的參數裡面是有seaechToken不一樣
但改了之後,回給我的資料還是只有頭幾筆
所以想問各位大大,遇到這種會延遲的該怎麼爬??
有沒有辦法讓他回傳所有機票資料
因為讓他sleep也沒用...
不好意思,麻煩大家了
・゚・(。>Д<。)・゚・
・゚・(。>Д<。)・゚・
作者: tlaceruse   2018-05-27 10:07:00
兩階段post的參數一樣嗎
作者: TakiDog (多奇狗)   2018-05-27 17:18:00
檔案要等,會在網頁元素中出現就寫個迴圈等元素載入完,或是考慮純封包別用selenium搞不好簡單的多

Links booklink

Contact Us: admin [ a t ] ucptt.com