[問題] text2vec 在windows中文顯示問題 taichi53719 PTT批踢踢實業坊

[問題] text2vec 在windows中文顯示問題

作者: taichi53719 (我最討厭人家裝老) 2016-08-16 10:50:48

[問題類型]:
程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
請把以下不需要的部份刪除
開發者(有撰寫R 的套件經驗)
[問題敘述]:
目前使用的是windows R 3.2.5
用套件jiebaR做中文斷詞，段詞的結果沒問題
但是要使用text2vec做字詞向量化分析就會有亂碼的問題
不曉得有沒有方法可以修正
另外我在MAC和Linux上使用相同的code顯示上都很正確
所以直覺應該是windows設定的問題
還想請問該如何設定中文才可以正確顯示
感謝
[程式範例]:
> tw="R: 最流行的統計語言"
> cutter=worker(bylines=TRUE)
> words=segment(tw,cutter)
> words
[[1]]
[1] "R" "最" "流行" "的" "統計" "語言"
> library(text2vec)
>
> #create iterator
> a.token=itoken(words)
>
> a.vocab<-create_vocabulary(a.token, ngram=c(1, 1))
> a.vocab
$vocab
terms terms_counts doc_counts
1: 隤靗\xa8\u0080 1 1
2: 蝯梯\xa8\x88 1 1
3: \xe7\x9a\x84 1 1
4: \xe6\x9c\u0080 1 1
5: 瘚眎\xa1\x8c 1 1
6: R 1 1
$ngram
ngram_min ngram_max
1 1
$document_count
[1] 1
$stopwords
character(0)
attr(,"class")
[1] "text2vec_vocabulary"
[環境敘述]:
R version 3.2.5 (2016-04-14)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
[關鍵字]:
jiebaR;text2vec;中文斷詞

作者: JamesChen (James) 2016-08-16 12:21:00

編碼問題吧 R 我不熟但解決方法可能是轉碼

作者: cywhale (cywhale) 2016-08-16 14:22:00

library(stringi); stri_encode(words,"UTF-8")

作者: taichi53719 (我最討厭人家裝老) 2016-08-16 16:37:00

感謝推文回覆，測試了用stri_encode可以轉碼回來但是沒辦法從套件源頭修正，不過單純看結果還行

繼續閱讀

[問題] 如何分開奇特符號clansoda [問題] kmeans 大數據版本f496328mm [分享] colorout 套件分享 (在terminal下有色彩)andrew43 [問題] mac write csvisofjslk3ad Re: [問題] 資料長<->寬變換celestialgod [問題] 資料長<->寬變換DrRd [問題] 關於使用text,label 最大值SleepyChink [問題] 抓取網頁david31408 [問題] 在資料中新增一個變數來進行統計分析swilly0906 [問題] 有條件的刪除資料筆數amygm307