[問題] Unicode Decode Error

作者: suhang (suhang)   2014-10-29 13:29:15
我寫了一個crawler爬網頁
http://pastie.org/9682499#16,18
按照view page source <meta content="text/html; charset=Big5">
我用Big5 解碼回傳的 byte string
Python卻回應某些byte無法解碼
UnicodeDecodeError: 'big5' codec can't decode byte 0x82 in position 983:
illegal multibyte sequence
1
瀏覽器也是設定Big5解碼
那為什麼瀏覽器可以正確的顯現所有內容?
2
我試著用utf8瞎猜去解碼,一樣有error
請問我該如何處理這個錯誤而能顯示我所抓下來的網頁?
作者: alibuda174 (阿哩不達)   2014-10-29 13:41:00
please provide more info, code, and error messages0x82處於Big5編碼的使用者造字區裡 看來Python的Big5 codec不支援這些東西 瀏覽器可正常顯示是因為它們也擴充支援那些字元了(Unicode補完計畫?)嗯 或許可以呼叫外部程式(能從Big5轉成utf8)或參考 https://gist.github.com/andycjw/5617496

Links booklink

Contact Us: admin [ a t ] ucptt.com