[問題] 不乾淨的資料匯入、如何處理?

作者: paranoia5201 (邁向研究生)   2018-03-05 17:56:35
※ [本文轉錄自 Statistics 看板 #1QdHGr4X ]
作者: paranoia5201 (社會黑暗、行路難) 看板: Statistics
標題: [問題] 不乾淨的資料匯入、如何處理?
時間: Mon Mar 5 17:56:03 2018
各位好:
這裡想要請教、如果拿到的原始檔不是很漂亮、該要怎麼匯入處理?
我直接面對的例子是死因統計年報(下載:dep.mohw.gov.tw/DOS/lp-3352-113.html)
打開檔案後會發現它每個分頁的頭幾列都是各式主標題與子標題。
我該如何處理這部分、好讓它可以在匯入之後做運算整理呢?
感謝~
(預計使用的軟體為R、Python、還有SAS)
作者: celestialgod (天)   2018-03-05 18:44:00
readxl::read_excel會幫你讀成table格式
作者: andrew43 (討厭有好心推文後刪文者)   2018-03-05 18:52:00
處理試算表的package大多可以按分頁讀入讀入後就是各別對付了,没什麼法門。
作者: seimwiwa (pezcadido)   2018-03-06 23:25:00
衛福部有全死因檔從那個資料再整理出來比較快(吧)
作者: wayturn (岳)   2018-03-07 12:25:00
想問R有套件能處理主副標嗎?還是只能手動處理excel再匯入
作者: andrew43 (討厭有好心推文後刪文者)   2018-03-07 19:22:00
讀入的function常有前幾列不讀的參數,可幫點忙

Links booklink

Contact Us: admin [ a t ] ucptt.com