[問題] for迴圈讀取大量csv

作者: hotlin0709 (hotlin0709)   2018-04-03 10:09:22
[問題類型]:使用for迴圈讀取多資料夾內多個csv 處理
效能諮詢(我想讓R 跑更快)
[軟體熟悉度]:
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
我要讀取多個資料夾內的多個csv,然後讀進來後,全部資料做簡單的處理filter一些變數,
並將擷取完資料的某一欄位加總起來。
以下是我寫的方式,但是跑太久了......請問有比較快速的方法嗎?
[程式範例]:
library(dplyr)
l<- list.files(path="/users/Johnny/downloads/M08A",pattern="*")
bindtemp <- data.frame()
temp <- data.frame()
for (k in l){
ll<- list.files(path=paste("/users/Johnny/downloads/M08A/",k,sep = ''),pattern="*")
for (i in ll) {
file_names <- paste("/users/Johnny/downloads/M08A/",k,i,sep = '/')
files <- list.files(path=file_names, pattern="*")
for (file in files) {
bindtemp <- read.csv(paste(file_names,file,sep="/"),header=F)
temp <- rbind(temp,bindtemp)
}
}
}
df3<-temp %>% filter((V3=="03F0961N"|V3=="03F0846S"),V4==31) %>% summarise(n=sum(V5))
[關鍵字]:
for迴圈 讀取多資料夾的CSV
作者: obarisk (OSWALT)   2018-04-03 10:14:00
先對每個檔案做filter 後再做bind
作者: chuubbyy (byetos)   2018-04-03 10:28:00
read.csv也可成fread之類的
作者: hotlin0709 (hotlin0709)   2018-04-03 11:01:00
好的好的感謝各位大大
作者: clansoda (小笨)   2018-04-03 11:26:00
parallel版本的fread大概是read.csv的數十倍快read.csv真的蠻慢的,200MB大概要30多秒fread大概是0.15秒
作者: HumuHumu (呼姆呼姆)   2018-04-03 12:35:00
用lapply
作者: Luluemiko (露露)   2018-04-03 13:09:00
用data.table來處理會快一點
作者: tcman02 (TCman)   2018-04-03 20:45:00
記憶體夠的話lapply 搭配fread讀檔。 檔案很多可以試著用foreach +doMC 平行跑應該會改善
作者: celestialgod (天)   2018-04-03 20:58:00
先把資料都存到一個list,最後在合併就會快很多了

Links booklink

Contact Us: admin [ a t ] ucptt.com