[問題] 一個奇怪的漢字編碼問題(Unihan?)

作者: herculus6502 (金麟豈是池中物)   2015-08-05 21:22:40
在考選部公佈的考畢試題 pdf 檔案中,如果出現"流行"這個詞
在 grep 的時候都會找不到
仔細檢查後發現,在 linux 上這兩個字比起用輸入法打出來的字"略小",字碼亦不同
但在 windows 上似乎刻意地都顯示為較大的"流行"二字
實際上的例子我找到這個網頁 http://cs.sungshin.ac.kr/~shim/demo/ksc5601-c.htm
裏面的"流","行",各有兩個編碼存在
找到 wiki 上有關 unihan 的條目,覺得可能是這個問題
不知各位網友在實務上有無遇到過類似的問題? 或是該如何解決?
目前我是用 regex 去取代,但是怕還有其它未爆彈,不知有無現成的對應表?
perl -CSAD -ne 'print $1 if /([\x{f900}-\x{fa2d}])/g' *.txt
目前我只能先用這行找出有問題的字來轉換
作者: buganini (霸格尼尼)   2015-09-27 22:49:00
過一次NFC或NFD就好了 (unicode裡面的東西)

Links booklink

Contact Us: admin [ a t ] ucptt.com