Re: [問題] 製作dummy variable矩陣效能問題 Wush978 PTT批踢踢實業坊

Re: [問題] 製作dummy variable矩陣效能問題

作者: Wush978 (拒看低質媒體) 2017-12-30 21:20:32

你的問題，剛好等價於在文字探勘中建立document term matrix
ps. 給一段文字(一個字串)，用空格或其他符號切割後建立矩陣
感謝前面幾位板友的分享，不過我從這個角度切入問題後，
可以站在巨人的肩膀來解問題（也就是以下的程式跑得比較快，是因為套件作者寫的好）
目前我覺得R 裡面做這件事情比較好的套件是text2vec，
另一個小要點是輸出的矩陣，最好是sparse，因為你的資料大部分都是0，用sparse
matrix可以大幅度的加速與節省記憶體。
而且當你的球員名單越多人，加速的效果越明顯。
這是我用text2vec去處理你給的範例資料：
it <- itoken(data[[1]], tokenizer = word_tokenizer, progressbar = FALSE,
n_chunks = 10)
it2 <- itoken(data[[2]], tokenizer = word_tokenizer, progressbar = FALSE,
n_chunks = 10)
vocab <- create_vocabulary(player)
vectorizer <- vocab_vectorizer(vocab)
m1 <- create_dtm(it, vectorizer)
m2 <- create_dtm(it2, vectorizer)
[email protected][] <- -1
cbind(m1, m2)
這是與其他板友的方法的比較結果：
http://rpubs.com/wush978/345283
andrew43 大大的版本效能比較好
但是text2vec在打開平行處理之後，在我的電腦上可以比andrew43的方法再快一點
※ 引述《mowgur (PINNNNN)》之銘言：
: *[m- 問題: 當你想要問問題時，請使用這個類別。
: 建議先到 http://tinyurl.com/mnerchs 搜尋本板舊文。
: [問題類型]:
: 效能諮詢(我想讓R 跑更快)
: [軟體熟悉度]:
: 使用者(已經有用R 做過不少作品)
: [問題敘述]:
: 大家好我的資料是紀錄籃球比賽每個play是哪5個進攻及防守球員在場上
: 想做的事情是: 假設總共有500位球員做出一個n(750000) x p(1000)的矩陣
: 前500欄為進攻後500欄為防守
: 矩陣內的元素為1代表球員在場上進攻(防守為-1) 不在場上為0
: 所以每列會有5個1及5個-1還有很多個0
: 資料大概長這樣
: data$p.combination data$p.com.allowed
: 1 A, B, C, D, E J, K, L, M, N
: 2 A, C, F, H, I K, L, M, N, O
: 3 C, D, X, Y, Z K, M, O, Q, R
: ... ... ...
: 人名之間是用逗號和一個空格分開
: 用我自己寫的已經跑了快12小時還沒跑完
: 想請教版上各位大大有沒有更好的寫法
: [程式範例]:
: https://ideone.com/PaBtM4
: library(magrittr)
: p.combination = character(1000)
: for(i in 1:length(p.combination)){
: p.combination[i] = LETTERS[sample(1:26,5)] %>% paste0(collapse = ", ")
: }
: p.com.allowed = character(1000)
: for(i in 1:length(p.com.allowed)){
: p.com.allowed[i] = LETTERS[sample(1:26,5)] %>% paste0(collapse = ", ")
: }
: data = data.frame(p.combination = p.combination,
: p.com.allowed = p.com.allowed)
: player = LETTERS[1:26]
: input.matrix0 = function(data, player, off){
: X = matrix(ncol = length(player), nrow = dim(data)[1])
: for(i in 1:dim(data)[1]){
: if(off) {
: colnames(X) = paste0("O_",player)
: coding = 1
: pp = data$p.combination
: } else {
: colnames(X) = paste0("D_",player)
: coding = -1
: pp = data$p.com.allowed
: }
: player.temp = pp[i] %>% gsub(", ", "|",.)
: index = grep(player.temp, player)
: X[i,index] = coding
: X[i,-index] = 0
: }
: return(X)
: }
: input.matrix = function(data, player){
: X.off = input.matrix0(data, player, T)
: X.def = input.matrix0(data, player, F)
: return(cbind(X.off, X.def))
: }
: out = input.matrix(data,player)

作者: andrew43 (討厭有好心推文後刪文者) 2017-12-30 21:50:00

多謝你也幫我寫成function了

作者: tan800630 (天ㄦ) 2017-12-31 11:11:00

又學到東西了感謝分享：）

作者: cywhale (cywhale) 2016-01-01 23:44:00

推，text2vec非常實用~ 感謝分享~~

作者: mowgur (PINNNNN) 2016-01-02 20:38:00

推推推謝謝大家的回復!!!! 我最後使用的方法是andrew大的實際資料下去跑只花了80秒~~t大的方法時間滿長的有警告訊息可能是我的資料沒清乾淨用text2vec會做出全0的矩陣猜測是建立vocab或vectorizer的地方有問題但我來不及仔細研究最後再感謝大家拯救研究生嗚嗚嗚 R板好溫暖RRRR

繼續閱讀

Re: [問題] 製作dummy variable矩陣效能問題andrew43 Re: [問題] 製作dummy variable矩陣效能問題tan800630 [問題] 製作dummy variable矩陣效能問題mowgur [問題] ggplot 資料問題nosense [問題] 多個data.frame對應daybreakya [問題] R randomForest 是否能不重複使用變數chiehfu Re: [問題] 求助R與Latex中文呈現問題致贈500元ewmm [問題] 修改package裡面的程式碼circusbest [問題] 迴圈撰寫問題!!blacktea12 Re: [問題] 內建資料集輸出成excel時如何保留日期欄Wush978