[問題] 遺漏值檢視與處理

作者: sinclairJ (KEEP MOVING FORWARD)   2015-06-11 17:51:08
在這個UCI資料集中(n=32561)
http://archive.ics.uci.edu/ml/machine-learning-databases/adult/ (adult.data)
遺漏值的符號是用?表示
在R中 印象中也會把?辨認為missing value
但剛剛執行了一下程式 卻沒辦法把遺漏值讀出來...
程式碼與輸出結果如下
> sum(is.na(adult))
[1] 0
> sum(complete.cases(adult))
[1] 32561
因為小弟在後面的分析需要先把遺漏值進行impute
但現在第一步就遇到了困難...煩請各位前輩指導
感謝!
作者: celestialgod (天)   2015-06-11 18:16:00
adult=adult[-which(adult=="?", arr.ind=T)[,1],]
作者: sinclairJ (KEEP MOVING FORWARD)   2015-06-11 20:07:00
看不懂C大的程式...QQ 有分段簡潔版嗎 哈!
作者: celestialgod (天)   2015-06-11 20:09:00
which(adult=="?", arr.ind=T)取出有?的列數更正 列跟行index加上[,1]是取第一行 就是列的index
作者: sinclairJ (KEEP MOVING FORWARD)   2015-06-11 20:51:00
跑出來的結果怪怪的...應該是說 我想知道該?位於哪一個cell 然後我可以對這個cell進行補值(例如補平均值之類)
作者: celestialgod (天)   2015-06-11 23:14:00
我只是寫刪除,補值自行可以延伸....

Links booklink

Contact Us: admin [ a t ] ucptt.com