[問題] 大量資料groupby 速率問題

作者: qwtl0213 (捲仔)   2023-05-28 23:16:09
大家好,小弟目前在處理大量資料時遇到了一些問題
我有一個dataset 大概有20000筆資料,而因為要用grid search 去找最佳參數,所以我目前
的做法是先把原始資料集複製N次 (N大概會抓到記憶體能負擔得程度)然後再利用numba 向
量化的方式去進行向量化運算
而我想做的是把N組算出來的目標函數,依照每組參數進行相加(依照iteration 的編號相加
,目前想得出來的只有pandas 的 groupby 方法比較適合我) 但是用groupby 的話就會要花
費時間把大型array 轉換成dataframe 在進行相加,這樣速度就會慢很多
想請問各位有沒有什麼比較好的處理方法,感謝不盡!
作者: lycantrope (阿寬)   2023-05-28 23:53:00
polars
作者: celestialgod (天)   2023-05-29 11:17:00
作者: bearching (Pandora`s Box)   2023-06-04 11:37:00
問個可能不太正確的問題,如果把原始資料集複製一次算出目標函數存下來,然後把複製的資料集drop掉,再把原始資料集複製算下一個目標函數,如果這算法是符合需求的話,會省滿多資源的,而且N的數量應該可以會比原本一口氣算的多
作者: qwtl0213 (捲仔)   2023-06-04 14:57:00
後來發現直接複製N次做向量化運算會快很多因為如果每次複製一次算一次代表有N組參數就要跑N次 或者我還沒有想到其他方法哈哈
作者: celestialgod (天)   2023-06-04 17:24:00
如果有最小可執行的程式 才能幫你看怎麼做 不然也是請鬼抓藥單
作者: leighmeow (warau)   2023-06-17 14:48:00
CaskDask

Links booklink

Contact Us: admin [ a t ] ucptt.com