[問題] 半桶水請問一個爬蟲post問題

作者: coeric ( )   2016-12-15 13:34:43
單純想爬保險公司營業處的資訊
為何傳回來的都是空值?
import urllib,urllib2
import re
from time import *
url="https://www.nanshanlife.com.tw/NanshanWeb/branches/query"
request = urllib2.Request(url)
request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X
10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106
Safari/537.36")
request.add_header("Referer","https://www.nanshanlife.com.tw/NanshanWeb/branches/74")
form_data = {
"county":'台北市',
"town":'信義區'
}
form_data = urllib.urlencode(form_data)
response = urllib2.urlopen(request,data=form_data)
html=response.read()
print html
作者: orafrank (法蘭克 )   2016-12-15 15:03:00
對阿 到底少了什麼 ? cookie?
作者: Kagami (かがみ)   2016-12-15 17:59:00
作者: sky800507 (B翰)   2016-12-15 21:51:00
http://pastebin.com/qtLrs2u2抓下來是json格式唷
作者: coeric ( )   2016-12-15 22:37:00
感謝各位大大.............少了一行"Content-Type"之前在爬全家店舖時,也發生過類似的狀況.. 看得到 吃不到少一行Referer.........那是否每次乾脆都把Request Headers的訊息都附上去?
作者: shadowjohn (轉角遇到愛)   2016-12-16 15:51:00
有的網站就是會龜毛的檢查某一頁header至少能擋掉一堆不會爬的之前就有網站檢查 HTTP_ACCEPT_LANGUAGE你沒附抓到三次就ban整天...盡可能完整的偽造成瀏覽器的格式直接cut curl的內容來改也行
作者: coeric ( )   2016-12-16 22:23:00
所以 我就是那個被擋在外面的............XDDDD

Links booklink

Contact Us: admin [ a t ] ucptt.com