[問題] R 語言讀取序列資料

作者: ariainaqua (把渚送上本壘吧!)   2017-06-05 09:48:36
[問題類型]:
R 語言讀取長短不一的序列資料問題
[軟體熟悉度]:
入門(對 R 語法不太熟悉)
[問題敘述]:
目前想讀取 22 萬筆序列資料(input.csv)如下格式:
a,b,c,a,gcc,aka,c,t
a,b,c,g,gcc,a,nv,qc,c,ntt,ntt1,ntt2,g,ncc,nv
a,sgt,c,a,org,com,ggc,bbc,qc,c,b,ncc,gov,gov,gov,ntt1,ntt2,fb,app,la,d,e,fb,fe
t,
a,b,c,a,gcc,d,sgt,c,fet,1394,1394,1394,fet,fet,org
a,sgt,c,org
...
每一筆資料長短不同,最長為 10,143 個項目;最短 2 個項目。
如果直接用 read.csv 或 read.table 讀取的話無法將全部的數列儲存為 data.frame,
最大只有 71 行,另外就是原本同一行的資料會被拆成 2 行。
> dim(input)
[1] 210220 71
# 只能讀 71 行,且資料少 48,333 筆
> view(input)
57 a b a c c c 1394 c c c org c c c c 1394 ..
.
58 skt skt skt skt
# 57, 58 在原始資料為同一筆(列)
想請問有沒有更好的資料讀取方式?
後續想接 seqHMM 建立隱馬可夫模型, seqHMM 會呼叫 seqdef {TraMineR} 將 data.fra
me 轉換成模型的輸入格式
謝謝各位前輩的幫忙。感謝 =)
作者: Wush978 (拒看低質媒體)   2017-06-05 11:18:00
Try two package: text2vec or FeatureHashing
作者: ariainaqua (把渚送上本壘吧!)   2017-06-05 20:14:00
謝謝 Wush 的建議,只是轉換成特徵向量是不是就不適合使用 HMM 了?
作者: Wush978 (拒看低質媒體)   2017-06-06 00:06:00
我不知道耶,要看你HMM的實做了不然就用strsplit硬幹,或是寫Rcpp在C++裡面處理
作者: ariainaqua (把渚送上本壘吧!)   2017-06-06 00:53:00
喔喔!原來使用 text2vec 的 ifiles 就可以了,太感謝了 =)

Links booklink

Contact Us: admin [ a t ] ucptt.com