[問題] 爬蟲 jsp網頁 亂碼

作者: aaa7513231 (渾沌與秩序)   2016-03-14 21:03:26
大家好
這幾天再爬一個jsp的網頁
但爬到的內容中文部分都是亂碼
不管我怎樣編譯都沒辦法辨識(轉utf-8)
我在想是不是jsp的編碼比較特別?
大概長這樣
ªZc ÷ºXÄ¥c ±
我爬了一堆文,想破頭也對python的編碼快搞混了
想請大家幫忙想想,不知道問題是出在哪一段上
如果是用瀏覽器看網頁是正常中文的
作者: hsnusonic (sonic)   2016-03-14 21:17:00
要看那個網頁用什麼encoding
作者: aaa7513231 (渾沌與秩序)   2016-03-14 21:31:00
Accept-Encoding:gzip, deflate 應該是這個吧?我有嘗試編譯gzip 但一樣亂碼....
作者: kenduest (小州)   2016-03-15 13:06:00
可能交代一下抓取的方式,要不然很難猜你的問題另外要確認一下你所在的環境是在 windows or linux 上windows cmd 上一般預設編碼都是 big5, 而 linux 上目前環境一般都 utf8, 終端機的編碼也直接是 utf8若你抓取要顯示的文字編碼與工作顯示環境編碼不同會亂碼至於1,2 說那個是壓縮,我想應該是要問 charset 編碼
作者: aaa7513231 (渾沌與秩序)   2016-03-17 00:42:00
感謝K大!!! 我是使用windows環境的 所以是big5之前一直被utf-8給誤導,以為都是使用他去編碼的

Links booklink

Contact Us: admin [ a t ] ucptt.com