Re: [問題] 資料整理的問題 celestialgod PTT批踢踢實業坊

Re: [問題] 資料整理的問題

作者: celestialgod (å¤©) 2016-12-05 17:56:46

※ 引述《ppp1987 (ppp)》之銘言：
: [問題類型]:
: 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來)
: [軟體熟悉度]:
: 入門(寫過其他程式，只是對語法不熟悉)
: [問題敘述]:
: 資料形式
: ID　Day X
: 1 1 0.5
: 1 3 0.1
: 1 4 0.3
: 1 7 0.5
: 1 9 0.5
: 1 11 0.2
: 1 14 0.5
: 2 1 0.1
: 2 2 0.4
: 2 5 0.8
: 2 9 0.7
: 2 11 0.1
: 2 13 0.2
: 現在我的資料每個ID(有100多個ID)每天有一筆觀測值（但不一定每天有）
: 我現在想要算每個ID當天的前七天有觀測值的平均
: 例如
: (ID=1,Day=9) Xhat=(0.5+0.3+0.1)/3
: (ID=2,Day=11) Xhat=(0.7+0.8)/2
: 現在已經用for迴圈跑出結果（但是很慢 2萬多筆約30分鐘）
: 想請教各位大大有沒有比較快的方法
: 謝謝
cy大的方法應該比較快XD
不過我還是把我的方法寫出來...
library(data.table)
library(pipeR)
library(zoo)
library(plyr)
DT <- fread('ID Day X
1 1 0.5
1 3 0.1
1 4 0.3
1 7 0.5
1 9 0.5
1 11 0.2
1 14 0.5
2 1 0.1
2 2 0.4
2 5 0.8
2 9 0.7
2 11 0.1
2 13 0.2')
DT[ , Day := factor(Day, levels = seq(min(DT$Day), max(DT$Day)))]
mean2 <- function(x) {
if (length(x) == 1)
return(NA)
mean(head(x, length(x) - 1), na.rm = TRUE)
}
DT2 <- dcast.data.table(DT, ID ~ Day, sum, fill = NA, drop = FALSE,
value.var = "X")
meanDT <- DT2[ , 2:ncol(DT2)] %>>% as.matrix %>>% t %>>%
rollapply(8, mean2, partial = TRUE, align = "right") %>>% data.table %>>%
melt.data.table(measure.var = 1:ncol(.), variable.name = "ID",
value.name = "x_mean", variable.factor = FALSE) %>>%
`[`(j = Day := 1:(ncol(DT2)-1), by = .(ID)) %>>%
`[`(j = ID := as.integer(mapvalues(ID, paste0("V", 1:nrow(DT2)), DT2$ID)))
merge(DT, meanDT, by = c("ID", "Day"))
# ID Day X x_mean
# 1: 1 1 0.5 NA
# 2: 1 3 0.1 0.5000000
# 3: 1 4 0.3 0.3000000
# 4: 1 7 0.5 0.3000000
# 5: 1 9 0.5 0.3000000
# 6: 1 11 0.2 0.4333333
# 7: 1 14 0.5 0.4000000
# 8: 2 1 0.1 NA
# 9: 2 2 0.4 0.1000000
# 10: 2 5 0.8 0.2500000
# 11: 2 9 0.7 0.6000000
# 12: 2 11 0.1 0.7500000
# 13: 2 13 0.2 0.4000000
稍微改一下cy大的code，讓他跟我的output一致
做了一點benchmark，code: http://pastebin.com/Msib1dEh
我的作法會明顯慢一點，三萬列差大概一秒，cy大的做法比較好

作者: cywhale (cywhale) 2016-12-05 22:25:00

感謝好讀版~推

作者: ppp1987 (ppp) 2016-12-06 16:11:00

感謝版主～

繼續閱讀

[問題] 取代table()函數的方法samex4x4 Re: [問題] 資料整理的問題cywhale [問題] SparkR 執行問題littledou [問題] Adabag package 問題lenofire [問題] 有年跟月的time series畫圖NPLNT [問題] 資料整理的問題ppp1987 [問題] ggmapcano7127 [問題] 讀取excel sheet檔名CAPPON Re: [問題] ggplot2迴圈celestialgod Re: [問題] ggplot2迴圈CAPPON