[問題] Rwordseg自定義詞庫

作者: dustnight (宅宅考生要翻身)   2017-04-22 16:28:23
[問題類型]:程式諮詢
[軟體熟悉度]:
新手(沒寫過程式,R 是我的第一次)
[問題敘述]:
最近在做text mining的練習,由於斷詞的過程需要考量一些專有名詞,
因此採用Rwordseg進行斷詞,斷詞的過程當中,會遇到安裝詞典/或是使用自定義詞典
的狀況,產生了一些問題想來請問前輩們。
1. 在使用installDict時,想安裝NTUSD的資料辭典,使用以下指令:
installDict(file.choose(),"positive",dicttype="text")
但是安裝後卻出現
1 words were loaded! ... New dictionary 'positive' was installed!
There were 50 or more warnings (use warnings() to see the first 50)
Warning messages:
1: In readLines(dictpath, encoding = dic.enc) :
line 1 appears to contain an embedded nul
等問題,看起來是有安裝成功但是點進去dic檔案裡面看卻發現只有一個詞彙(原本txt檔案
想來請問各位前輩們是否有遇到過類似問題,又該怎麼解決?
2.
在自定義詞庫時,我用insertwords("畢業證書",save=T)來增加畢業證書這個詞彙
但是在segmentCN("自己的畢業證書自己撿")做測試時,卻仍然會有
[1] "自己" "的" "畢業" "證書" "自己" "撿"
的狀況,(反而結巴還會斷出畢業證書...)
是我沒有增加詞庫成功嗎?
3.
目前不使用結巴的原因在於不確定結巴是否可以自行增加詞庫
[環境敘述]:
R version 3.3.3 (2017-03-06)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
Running under: OS X El Capitan 10.11.6
locale:
[1] zh_TW.UTF-8/zh_TW.UTF-8/zh_TW.UTF-8/C/zh_TW.UTF-8/zh_TW.UTF-8
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] igraph_1.0.1 wordcloud_2.5 RColorBrewer_1.1-2 Rwordseg_0.2-1
[5] jiebaR_0.9.1 jiebaRD_0.1 rJava_0.9-8 tm_0.7-1
[9] NLP_0.1-9 tmcn_0.1-4
loaded via a namespace (and not attached):
[1] magrittr_1.5 parallel_3.3.3 tools_3.3.3 Rcpp_0.12.7 slam_0.1-38
[關鍵字]:
text mining, Rwordseg
作者: sulaxd (SulaXD)   2017-04-22 17:52:00
結巴可以新增詞庫 edit_dict()
作者: dustnight (宅宅考生要翻身)   2017-04-22 19:29:00
謝謝您,但是我加進去後它顯示error decode的錯誤耶,請問是只能加上簡體中文內文的檔案嗎?
作者: clansoda (小笨)   2017-04-22 20:10:00
結巴github上面的documentation寫得很清楚 可以看看
作者: dustnight (宅宅考生要翻身)   2017-04-23 00:00:00
好的~謝謝您

Links booklink

Contact Us: admin [ a t ] ucptt.com