[問題] 爬蟲資料格式及處理

作者: unhumanWu (阿文)   2017-10-25 22:12:28
大家好,初學爬蟲
透過以下程式抓到文字資料
https://imgur.com/mGAOY9I
https://imgur.com/GwWX8f3
想問一下這是哪種資料類型阿?
有像html之於BeautifulSoup的library可以處理嗎?
感恩!
import requests
user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5)'
headers = {'User-Agent': user_agent,
'Referer':'http://www.family.com.tw/marketing/inquiry.aspx'}
response = requests.get("http://api.map.com.tw/net/familyS"
"hop.aspx?searchType=ShopList&type="
"&city=%E5%9F%BA%E9%9A%86%E5%B8%82"
"&area=%E4%BB%81%E6%84%9B%E5%8D%80&"
"road=&fun=showStoreList&key=6F30E8"
"BF706D653965BDE302661D1241F8BE9EBC"
, headers=headers)
response.text
作者: stucode   2017-10-25 22:23:00
看起來是 JSON,Python 有內建函數庫。
作者: ssdoz2sk (眷戀著提拉米蘇的風采~)   2017-10-25 22:23:00
你把前面的 showStoreList( 去掉,還有最後的 ) 去掉,就可以用 json.loads 讀取 JSON
作者: ckc1ark (偽物)   2017-10-25 22:27:00
JSONP 用來繞過same origin policy的
作者: vi000246 (Vi)   2017-10-26 00:39:00
你網址裡面有一串key參數 這應該是csrf token吧get的時候要記得更新這個key還有個fun參數 應該是用來決定回傳的資料格式你可以研究一下怎麼讓他直接傳回json
作者: rexyeah (ccccccc)   2017-10-26 08:41:00
eval(response.text.strip()) probably get a dict樓上說的沒錯 要把showStoreList去掉才eval得出東西
作者: TitanEric (泰坦)   2017-10-26 15:13:00
JSON

Links booklink

Contact Us: admin [ a t ] ucptt.com