[問題] python 爬蟲遇到big5擴充字亂碼 pig98520 PTT批踢踢實業坊

[問題] python 爬蟲遇到big5擴充字亂碼

作者: pig98520 (CheinFeng) 2018-11-26 12:54:45

大家好,又上來打擾了,最近在爬蟲的時候遇到這個詞:
"宏碁電腦",發現爬下來時候會變成亂碼,
https://imgur.com/ZSV4gAe
經爬文查詢後發現這樣的問題：
https://blog.hoamon.info/2008/05/python-big5.html
不過該解法似乎不能應用在python3.7
想問一下有沒有類似的情況該怎麼解＠＠？
補上網站：
https://tw.stock.yahoo.com/news/%E5%A4%96%E8%B3%87-%E8%B3%A3%E8%B6%85%E8%82%A1-%E5%AE%8F-%E7%A2%81-%E9%B4%BB-234706227.html
程式碼：
import requests
from bs4 import BeautifulSoup
url='https://tw.stock.yahoo.com/news/%E5%A4%96%E8%B3%87-%E8%B3%A3%E8%B6%85%E8%82%A1-%E5%AE%8F-%E7%A2%81-%E9%B4%BB-234706227.html'
req=requests.get(url)
bs=BeautifulSoup(req.text,'html.parser')
print(bs.find('h1').text)

作者: acer1832a (Mike) 2018-11-26 13:20:00

請問是爬哪個網頁，沒有網頁沒辦法幫你看是不是網頁編碼轉換上的問題，能提供程式碼更好

作者: TakiDog (多奇狗) 2018-11-26 13:22:00

有big5哦，requests有encoding的參數

作者: ckc1ark (偽物) 2018-11-26 13:39:00

req=requests.get(url)後加一行req.encoding = 'cp950'

作者: pig98520 (CheinFeng) 2018-11-26 14:55:00

可以了～不過請問為何不能用big5?

作者: ckc1ark (偽物) 2018-11-26 15:21:00

你貼的文章有提有7個擴充字是big5沒有的

作者: pig98520 (CheinFeng) 2018-11-26 17:05:00

了解但是用utf-8又會亂碼＠＠所以也不能用utf-8囉

作者: eight0 (æ¬¸XD) 2018-11-26 19:35:00

用哪個 encoding 編碼，就用哪個 encoding 解碼

作者: justoncetime (台北叢林好冷~) 2018-11-26 20:08:00

你可以去g一下CP950和Big5的關係啊

作者: pig98520 (CheinFeng) 2018-11-27 10:27:00

了解了～謝謝解惑

繼續閱讀

[問題] pycharm 編寫問題juust [問題] tensorflow的activation function問題chinsun [問題] opencv的安裝問題ggbast [問題] 打包EXE的icon無法變換 biboSnake [問題] sqlite3與迴圈應用的問題instar7 [問題](已解決)從github上讀取檔案ntpuisbest Re: [問題] groupby 找出可能的值benson415 [問題] return裡面可以用換行嗎？andrew5106 [問題] mac jupyter更換預設路徑pig98520 [問題] 如何解決Seanborn和pyplot的圖重疊johnmayer1