[問題] 日文濁音問題

作者: Ivudaisuki (イヴ大好き)   2021-07-21 19:07:45
小弟是個剛接觸python不到一週的新手
前天心血來潮
我試著找網路上的影片寫了一個爬蟲程式
我想設計一個比較字串的程式來確認檔案有沒有重複下載
但當我用os.chdir()指令為資料夾的檔案建立一個list後
只要出現日文濁音都會變成兩個編碼
例如「が」在網頁上會是一個單字
但資料夾檔案的list卻會是「か」和「、、」
而在比較的時候就會把兩個字串視為不同
例如「パンが好き」就會因為「パ」跟「が」
導致電腦判斷錯誤
網路爬文都沒有找到相關的問題
只知道好像是不同系統對於濁音的處理方式不同
但編碼又都是utf-8
請問有辦法把分開的濁音轉換成一個字嗎?
謝謝
作者: Sylph (仙客來)   2021-07-21 23:13:00
半角的問題吧
作者: ckc1ark (偽物)   2021-07-22 00:38:00
可以參考 unicodedata.normalize('NFC', ...)
作者: wangfake   2021-07-26 14:22:00
作者: tonyscat (Wall瑪律呀)   2021-07-30 18:15:00

Links booklink

Contact Us: admin [ a t ] ucptt.com