Re: [問題] dataframe運作embed及修正timedelay首欄

作者: TreeMan (好啊...)   2019-03-26 11:38:16
library(dplyr)
tao_b %>%
select(鄉鎮市區, 交易標的, 建物型態, 交易日期, 單價元平方公尺) %>%
arrange(鄉鎮市區, 交易標的, 建物型態, 交易日期, 單價元平方公尺) %>%
#先把同性質同日期資料分組, 價格以中位數表達, 並將重複樣本刪除
group_by(鄉鎮市區, 交易標的, 建物型態, 交易日期) %>%
mutate(單價元平方公尺 = median(單價元平方公尺)) %>%
filter(row_number()==1) %>%
#再次將同性質的資料分組處理, 將各組每筆記錄比對上一次交易日之價格
#此時各組第一個的timedelay是NA
group_by(鄉鎮市區, 交易標的, 建物型態) %>%
mutate(timedelay = lag(單價元平方公尺, n = 2)) %>%
ungroup() %>%
#將所有資料的timedelay之NA轉為0, 非NA則保留原值
#計算後兩項相減
mutate(timedelay = ifelse(is.na(timedelay), 0, timedelay),
價格差異 = 單價元平方公尺 - timedelay
)
交流整理資料的做法...
作者: paranoia5201 (邁向研究生)   2019-03-27 14:33:00
太神啦!一次搞定,這裡果然臥虎藏龍,萬分感謝。

Links booklink

Contact Us: admin [ a t ] ucptt.com