[問題] 關於Text mining tm包的問題

作者: jackhzt (巴克球)   2016-02-17 09:40:11
[問題類型]:程式諮詢 關於tm包
[問題敘述]:最近在作文本分析,其中tm的使用方式有一些問題
1.無法用inspect()這函數將我要的內容展現出來
2.想要用segmentCN這函數取"名詞"做分析 但是抽取出來失敗
g2=function(data) {
w=segmentCN(data,nature = TRUE)
w[names(w) == "n"]}
[程式範例]: 以下是我的code:
rm(list=ls())
library("rJava")
library("Rwordseg")
library("tm")
library("tmcn")
library("wordcloud")
g2=function(data) { w=segmentCN(data,nature = TRUE)
w[names(w) == "n"]}
d.corpus=Corpus(DirSource("D:\\bigdata\\testR\\word\\三國
",encoding="UTF-8"),list(language=NA))
#讀目錄
d.corpus=tm_map(d.corpus,removeNumbers)
#刪數字
d.corpus=tm_map(d.corpus,removePunctuation)
#刪空白
d.corpus=tm_map(d.corpus, content_transformer(function(word)
{gsub("[A-Za-z0-9]", "", word)}))
#整理
segment.options(isNameRecognition = F)
d.corpus=tm_map(d.corpus[1:120],content_transformer(g2),nature=T)
#斷辭
d.corpus=tm_map(d.corpus, removeWords, stopwordsCN())
#去掉沒用的字
d.corpus=Corpus(VectorSource(d.corpus))
#儲存
inspect(d.corpus)
主要是問題二,一直失敗 ....
[關鍵字]:tm 、text mining
作者: wheado (principal component QQ)   2016-02-28 20:22:00
因為segmentCN出來是list
作者: jackhzt (巴克球)   2016-02-29 19:33:00
所以我應該用unlist的方式嗎? 不太了解

Links booklink

Contact Us: admin [ a t ] ucptt.com