[問題] Unicode Decode Error

作者: suhang (suhang)   2014-10-29 13:28:18
我寫了一個crawler爬網頁
按照view page source <meta content="text/html; charset=Big5">
我用Big5 解碼回傳的 byte string
Python卻回應某些byte無法解碼
UnicodeDecodeError: illegal multibyte sequence
1
瀏覽器也是設定Big5解碼
那為什麼瀏覽器可以正確的顯現所有內容?
2
我試著用utf8瞎猜去解碼,一樣有error
請問我該如何處理這個錯誤而能顯示我所抓下來的網頁?
作者: LPH66 (-6.2598534e+18f)   2014-10-29 22:10:00
什麼網頁?
作者: mmis1000 (秋月戀楓)   2014-10-30 02:05:00
python內建的decoder很suck,不會略過錯誤的字元幾乎無法使用,去找替代的lib如何?好吧,其實有忽視錯誤的參數http://goo.gl/DQnZw7

Links booklink

Contact Us: admin [ a t ] ucptt.com