Re: [問題] 合併類別變數的count (table)

作者: celestialgod (天)   2015-04-23 14:22:10
這篇剛好來試試看資料處理順序跟dplyr, tidyr等工具對於資料整理能力的差異
根據原PO的問題,總共要做三個動作:
1. 去掉只出現一個類別的遭利
2. 列出最小比例的類別以及比例
3. 合併成一張variabel對類別的表格
先試試看三個動作分開做(preprocess_f),然後合併做(preprocess_f2)
接著用tidyr, dplyr試試看(preprocess_f3),最後一起比較速度。
PS: 這裡就沒測試tidyr, dplyr分開做了,讓我偷懶一下XD
程式連結:http://pastebin.com/PTzXdf3K
這裡只放結果:
st = proc.time()
t1 = preprocess_f(dat)
proc.time() - st
# user system elapsed
# 47.80 0.42 47.39
st = proc.time()
t2 = preprocess_f2(dat)
proc.time() - st
# user system elapsed
# 40.35 0.23 40.03
st = proc.time()
t3 = preprocess_f3(dat)
proc.time() - st
# user system elapsed
# 13.85 0.00 13.89
在這個例子中,資料處理順序可以有效縮短時間
但是用對工具可以獲得更好的效果!
補上:全程最高只用掉500M的記憶體
環境:windows 7 64 bit, R-3.2.0 (置換RRO的Rblas.dll and Rlapack.dll)
i7-3770K@4.4GHz, DDR3-2400 16G ram
作者: cywhale (cywhale)   2015-04-23 23:16:00
got new tips!! thanks for sharing
作者: sinclairJ (KEEP MOVING FORWARD)   2015-04-24 09:21:00
感謝你

Links booklink

Contact Us: admin [ a t ] ucptt.com