Re: [問題] 一個奇怪的漢字編碼問題(Unihan?)

作者: flu (Crazy Rhythm)   2015-08-07 03:35:01
※ 引述《herculus6502 (金麟豈是池中物)》之銘言:
: 在考選部公佈的考畢試題 pdf 檔案中,如果出現"流行"這個詞
: 在 grep 的時候都會找不到
: 仔細檢查後發現,在 linux 上這兩個字比起用輸入法打出來的字"略小",字碼亦不同
: 但在 windows 上似乎刻意地都顯示為較大的"流行"二字
: 實際上的例子我找到這個網頁 http://cs.sungshin.ac.kr/~shim/demo/ksc5601-c.htm
: 裏面的"流","行",各有兩個編碼存在
: 找到 wiki 上有關 unihan 的條目,覺得可能是這個問題
: 不知各位網友在實務上有無遇到過類似的問題? 或是該如何解決?
: 目前我是用 regex 去取代,但是怕還有其它未爆彈,不知有無現成的對應表?
: perl -CSAD -ne 'print $1 if /([\x{f900}-\x{fa2d}])/g' *.txt
: 目前我只能先用這行找出有問題的字來轉換
找了一陣子的心得
A. 首先以unicode han 之類的關鍵字去找到了這個wikipedia條目
https://en.wikipedia.org/wiki/CJK_Unified_Ideographs_(Unicode_block)
焦點放在表格下半部,在uni han欄位標示為 not unified的幾個表格
B. 以「行」字去找發現出現在幾個code base
作者: herculus6502 (金麟豈是池中物)   2015-08-07 09:22:00
感謝<(_ _)>
作者: cutekid (可愛小孩子)   2015-09-15 16:16:00
推呀(Y)

Links booklink

Contact Us: admin [ a t ] ucptt.com