[問題] Read.table Not ALL Rows

作者: tus (new life)   2018-01-28 13:15:48
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[問題敘述]:
用R讀text檔 但好像沒有全部的rows都讀進去 不知道原因是什麼
用EXCEL打開資料 可以看到約有1000000 entries (rows) 原始資料應該更多
因為這是EXCEl的上限 1048576
但用R read.table or read.csv 讀進去時 約只有700000筆資料 沒有任何錯誤訊息
目前是用 read.table(filename, quote = "", comment.char = "", fill = TRUE)
如果不加quote = "" 會出現EOF within quoted string
fill = TRUE 是因為好像有幾筆資料column length不同
幾筆資料可以在EXCEL中看到的 R沒讀進去的 找不到任何異樣
用count.fields 也是只有700000筆資料左右
sorry 沒辦法share資料 但還是想請問看看 有沒有什麼原因會造成這樣的情況
感謝
作者: KKbiger (UUUU)   2018-01-28 13:39:00
改用套件data.table去讀試試看
作者: tus (new life)   2018-01-28 13:42:00
謝謝 但沒辦法 資料放在加密電腦 沒有連上網路要安裝package要經過層層關卡....
作者: Wush978 (拒看低質媒體)   2018-01-28 13:54:00
不然先用readLines讀讀看,然後手動轉data.frame
作者: tus (new life)   2018-01-28 14:05:00
readLines 也是得到700000 elements左右
作者: Wush978 (拒看低質媒體)   2018-01-28 14:14:00
那試著用readBin直接讀raw vector近來查一下readLines的下一行出了甚麼問題是不是有00
作者: tus (new life)   2018-01-28 14:29:00
最後一行資料中有個怪符號 -> 在應該是人名的欄位中感謝Wush!

Links booklink

Contact Us: admin [ a t ] ucptt.com