[問題] DataFrame資料篩選問題

作者: ruisme (RU)   2017-05-15 22:29:48
各位前輩大家好,小弟想詢問有關pandas中dataframe問題
問題描述:
有兩個table我稱它為A與B,裡面的欄位都一樣,第一欄是ID
(同一個table中ID有可能重複所以我沒有把ID設為index)
我要做一個新的table(下稱C),以A為基礎,將B表格中ID也出現在A的資料加到C中
我的解法是用for迴圈,具體程式碼如下:
http://tinyurl.com/m37co8j
問題就出在這個for,若是AB兩個table的資料都各有數十萬筆,光跑這個for迴圈
就很花時間了,更別提後續的分析
請問有沒有不用for迴圈的解法?
題外話:
小弟今天要處理的資料集有可能是接近千萬筆,請問有沒有比pandas更快的分析工具?
先謝謝各位了
作者: Metal5566 (咩陀56)   2017-05-15 23:37:00
pd.merge(A_Table, B_Table, on='ID', how='left')然後再用dropna()
作者: HenryLiKing (HenryLiKing)   2017-05-16 00:49:00
很大資料要不要用hadoop啊(我不確定我說的對不對欸因為我沒學過QAQ

Links booklink

Contact Us: admin [ a t ] ucptt.com