[問題] pandas爬蟲被擋下來

作者: pig98520 (CheinFeng)   2018-02-22 14:30:38
各位版大好,剛接觸python爬蟲沒多久,想要嘗試抓取網站表格,
隨便找了個股票網站,http://stock.nlog.cc/b/1101
原本是使用bs4來爬,但是後來發現有pandas可以抓取表格,
因此想要嘗試使用pandas,
程式碼如下:
import pandas
url='http://stock.nlog.cc/b/1101'
pd=pandas.read_html(url)
print(pd)
但是卻出現了
ConnectionResetError: [WinError 10054] 遠端主機已強制關閉一個現存的連線。
這樣的文字,但是我嘗試抓別的網站,卻都沒有問題,
想問一下這是甚麼狀況?是被擋下來了嗎?該怎麼解決?
先謝謝各位了~
作者: ckc1ark (偽物)   2018-02-22 16:21:00
他會檢查是否有傳User-Agent的樣子
作者: OnePiecePR (OPPR)   2018-02-22 19:39:00
from fake_useragent import UserAgent
作者: pig98520 (CheinFeng)   2018-02-22 23:33:00
我加上了header仍然會出現同樣的問題耶~
作者: WunoW (WunoW)   2018-02-23 01:38:00
我有讀到,但產生另一個問題是回傳的結果非常非常難看這可能反而是需要花更多時間的地方建議不好用的方法就不要用
作者: Kazimir (Kazimir)   2018-02-23 09:49:00
其實我是建議你先用req拿回來再給pandas讀啦這樣速度也會提升不少
作者: pig98520 (CheinFeng)   2018-02-23 19:44:00
好的 謝謝~
作者: a830307119 (天生我材必有用)   2018-03-03 07:11:00
作者: ar54971   2018-03-06 03:39:00

Links booklink

Contact Us: admin [ a t ] ucptt.com