※ 引述《tripleleft (連續中離)》之銘言:
: 最近因為某些軟體的風波
: 所以想自己寫個連接PTT的軟體
: 目前的寫法是開一個新的Thread跑socket
: socket = new Socket(host, port);
:
: 然後參考版上讀取的方法
: in = new BufferedReader(new InputStreamReader(socket.getInputStream()));
: in.readLine();
: 不過編碼一直出問題
: (使用String S = new String(in.readLine().getBytes(),"BIG5");)
: 所以把他拆開來讀取
: byte[] data = in.readLine().getBytes();
: for迴圈跑S+= Byte.toString(data[num]) + ",";
: 然後把他印出來
: System.out.println(S);
: 然後就發現只要遇到中文字或全形符號他的編碼就會變成-17 -65 -67(0xEF 0xBF 0xBD)
: (甚至不是偶數的倍數到底是怎麼回事)
: 想問問到底是我寫的問題有問題還是我編碼的方式不對
new String(in.readLine().getBytes(),"BIG5");
這行看起來沒什麼問題,可能要直接把原始的 bytes 印出來才知道為什麼不能轉。
byte[] byteArray = new byte[] {(byte) 0xA4, (byte) 0xA4};
try {
String s = new String(byteArray, "Big5");
System.out.println(s);
System.out.println("length of s: " + s.length());
} catch (UnsupportedEncodingException e) {
}
上面可以印出:
中
1
參考 Big5 的 spec http://bit.ly/1GNtEO0
雙色字需要特別處理。
以上面「中」的編碼 0xA4A4 為例,
高位字節 A4 與低位字節 A4 在 Big5 的定義區間,
因此 new String(byteArray, "Big5") 這行會拿 0xA4A4 去 Big5 碼表查對應的字。
而雙色字,如「中」,當程式在解析 byte array 時,
遇到第一個 0xA4,因為 0xA4 不在 ASCII 編碼中,
且符合 Big5 的高位字節,
所以預期下一個 byte 會符合 Big5 的低位字節。
但是下一個 byte 是 0x1B (ESC),
這不符合低位字節,
此時就會跳進特別的處理,
容錯率高一點的話,
他可能會把 0xA4 0x1B 當成兩個不可視的字元,
結果就是整個 array 轉完後,不會有「中」這個字。
嚴謹一點來看,0xA4 0x1B 既不是合法的 Big5 編碼,也不是合法的 ASCII 編碼,
因此發生 exception 也是很合理的。
此外雙色字並不存在於 Unicode 中也是一個問題。
new String(byteArray, "Big5") 這行會轉兩次碼,
第一次去查 0xA4A4 是什麼字,查到是「中」之後,
要作為 String 放在記憶體中,
此時會再查一次「中」在 Unicode 的編碼是什麼,
並在 String instance 中存入該 Unicode 編碼。
另外 Byte.toString(byteArray[i]) 這樣看不到是什麼字很正常,
因為這樣只是把 byte 轉成 10 進位的數字再轉成字串而已。
這樣不會把 0xA4A4 當成一個字,只會當成 2 個 byte。