[問題] 半桶水請問一個爬蟲post問題 coeric PTT批踢踢實業坊

[問題] 半桶水請問一個爬蟲post問題

作者: coeric ( ) 2016-12-15 13:34:43

單純想爬保險公司營業處的資訊
為何傳回來的都是空值？
import urllib,urllib2
import re
from time import *
url="https://www.nanshanlife.com.tw/NanshanWeb/branches/query"
request = urllib2.Request(url)
request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X
10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106
Safari/537.36")
request.add_header("Referer","https://www.nanshanlife.com.tw/NanshanWeb/branches/74")
form_data = {
"county":'台北市',
"town":'信義區'
}
form_data = urllib.urlencode(form_data)
response = urllib2.urlopen(request,data=form_data)
html=response.read()
print html

作者: orafrank (法蘭克 ) 2016-12-15 15:03:00

對阿到底少了什麼 ? cookie?

作者: Kagami (かがみ) 2016-12-15 17:59:00

https://goo.gl/xqZkVv https://goo.gl/S44yt8

作者: sky800507 (B翰) 2016-12-15 21:51:00

http://pastebin.com/qtLrs2u2抓下來是json格式唷

作者: coeric ( ) 2016-12-15 22:37:00

感謝各位大大.............少了一行"Content-Type"之前在爬全家店舖時，也發生過類似的狀況.. 看得到吃不到少一行Referer.........那是否每次乾脆都把Request Headers的訊息都附上去？

作者: shadowjohn (轉角遇到愛) 2016-12-16 15:51:00

有的網站就是會龜毛的檢查某一頁header至少能擋掉一堆不會爬的之前就有網站檢查 HTTP_ACCEPT_LANGUAGE你沒附抓到三次就ban整天...盡可能完整的偽造成瀏覽器的格式直接cut curl的內容來改也行

作者: coeric ( ) 2016-12-16 22:23:00

所以我就是那個被擋在外面的............XDDDD

繼續閱讀

[問題] 關於聊天 Socket 伺服器相互溝通的問題herbacin [問題] socket接收資料時會不完整hardman1110 [討論] Python Telegram 群組HANASE [問題] python取得htmlaa12twtwaa [討論] Python Line 群組Lucy0 [問題]Python新手問題-DataFrameforeverex [問題] 想請問更換ip的問題a20913126 [問題] django 免費雲端主機？frank910138 [問題] python 編碼問題soul810707 [問題]執行.py 時指定不同的config.ini檔cerebellum