Re: [問題] 矩陣的處理...拜求各位大大 celestialgod PTT批踢踢實業坊

Re: [問題] 矩陣的處理...拜求各位大大

作者: celestialgod (å¤©) 2017-08-27 17:43:21

※ 引述《s3714443 (metalheads)》之銘言：
:

: 資料大概是長這樣
: 我想要處理的是：
: 像第八行就有兩個非0的數字
: 那我就是取最左的那排 26.57這個數字
: 倒數第二排有26.43跟26.57這兩個數字
: 那就是取最左邊的26.43
: 反正就是特定欄之中先看有沒有非0的數字，有就取最左的，沒有就取0
: 然後就是mutate出來新的一行
: 我想不到除了sapply之外的辦法了
: 但是我的資料有500多萬筆
: sapply可能會跑到電腦燒掉ＸＤ
: 感恩各位
# 資料生成
n <- 5e5 + 12
m <- 8
r <- 2
X <- matrix(0, n, m)
for (i in seq(1, n - 5, by = m-r))
X[cbind(i:(i+7), m:1)] <- rnorm(1)
X[cbind((n-1):n, 8:7)] <- rnorm(1)
# 隨機抽10000列讓整列變成0
zeroLocIdx <- sample(n, 10000)
X[zeroLocIdx, ] <- 0
# 程式開始
st <- proc.time()
# 取出全部不等於0的位置，並以matrix矩陣表示 row跟column位置 (arr.ind)
tmp <- which(X != 0, arr.ind = TRUE)
# 對每一個row取最小的column index
out <- tapply(tmp[ ,2], tmp[ ,1], min)
# 組出位置矩陣
locMat <- cbind(row = as.integer(names(out)) , col = out)
# 處理非0部分
zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1])
if (length(zeroLocIdx2) > 0)
locMat <- rbind(locMat, cbind(zeroLocIdx2, 1))
# 排序
locMat <- locMat[order(locMat[ , 1]), ]
# 取出值
out <- X[locMat]
proc.time() - st
# user system elapsed
# 1.05 0.03 1.10
驗證結果：

驗證0位置： all(zeroLocIdx2 == sort(zeroLocIdx)) # TRUE
搭配data.table的做法如下：
library(data.table)
# 轉成data.table
DT <- data.table(X)
# 假設有其他欄位
DT[ , `:=`(V9 = sample(1:5, nrow(DT), TRUE),
V10 = sample(LETTERS, nrow(DT), TRUE))]
# 把上面的程式直接抓下來用
findValue <- function(X){
tmp <- which(X != 0, arr.ind = TRUE)
minColLoc <- tapply(tmp[ ,2], tmp[ ,1], min)
locMat <- cbind(row = as.integer(names(minColLoc)) , col = minColLoc)
zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1])
if (length(zeroLocIdx2) > 0)
locMat <- rbind(locMat, cbind(zeroLocIdx2, 1))
locMat <- locMat[order(locMat[ , 1]), ]
X[locMat]
}
st <- proc.time()
# 直接把需要的column抓出來利用do.call + cbind組成矩陣丟進去
DT[ , v := findValue(do.call(cbind, .SD)), .SDcols = V1:V8]
proc.time() - st
# user system elapsed
# 1.04 0.04 1.09
# 驗證結果
head(DT, 40)

作者: s3714443 (metalheads) 2017-08-27 20:49:00

感恩大大，想問大大為什麼處理這種大量資料有用到apply還是可以這麼快呢！甘拜下風所以tapply算apply家族中比較快的嗎？而且我覺得只用到min這種簡單函數函數來跑tapply也是關鍵

作者: f496328mm (為什麼會流淚) 2017-08-28 08:10:00

如果用 apply 家族的話開平行會不會好一點??像是 snow or parallel單就速度上來看

作者: s3714443 (metalheads) 2017-08-28 12:53:00

但是我500多萬筆50幾個column三分鐘就跑完了超快ＸＤ想請問c大 findValue(do.call(cbind, .SD)) 跟findValue( .SD) 差在哪？為什麼後者跑不出來？感恩

作者: f496328mm (為什麼會流淚) 2017-08-28 13:37:00

如果你用apply家族，3分鐘跑完，那開平行會更快不過主要是c大寫的比較有效率

開平行可能改善不多，中間還有傳輸問題，建議還是用vectorization方法解決.SD是list 要轉成矩陣才能跑findValue

繼續閱讀

Re: [問題] 矩陣的處理...拜求各位大大swedrf0112 [問題] 爬蟲個股公開資訊k5171 [問題] 矩陣的處理...拜求各位大大s3714443 [問題] 繪圖參數warningciuhkimo [問題] xml氣象資料轉csvEsmelee [問題] ggplot histogram切資料的問題ruokcnn Re: [問題] N*1資料轉 a*b格式celestialgod [問題] 繪圖時不直接使用變數名稱clsmbstu [問題] 如何避免畫出來的直線形成鋸齒狀PhysicsBoy Re: [問題] N*1資料轉 a*b格式celestialgod