[問題] R 如何計算 txt 檔案中每個字出現的頻率

作者: toxicsweet (toxic)   2016-06-08 07:05:29
[問題類型]: 程式諮詢
[軟體熟悉度]:
介於入門和使用者之間
[問題敘述]:
手邊有個txt文件,目前先使用read.table讀進R後,原本想使用text mining 的package
(tm)來計算出每個字出現的頻率。
以一個兩列的文件為例:
第一列:I like it, can you share it?
第二列:Yes, I would like to!
想得到:
I like it can you share yes would to
2 2 2 1 1 1 1 1 1
但翻了一下tm package還是不知道該怎麼套用,或是有其他作法可以得到呢?
作者: JackBaska (Baska)   2016-06-08 07:42:00
英文嗎 ? 英文的話比較好處理, strsplit用 " " 隔開然後合併成一維向量後做元素統計就好了
作者: Wush978 (拒看低質媒體)   2016-06-08 10:11:00
量大嗎?
作者: toxicsweet (toxic)   2016-06-08 18:25:00
英文,量很大,檔案約有200MB這邊只是舉兩列的例子,但實際有超過百萬列。
作者: Wush978 (拒看低質媒體)   2016-06-08 18:59:00
tm_lite?
作者: toxicsweet (toxic)   2016-06-09 10:24:00
tmlite裡面的哪個functiin可以做到這件事呢?

Links booklink

Contact Us: admin [ a t ] ucptt.com