[問題] 大量資料groupby 速率問題 qwtl0213 PTT批踢踢實業坊

[問題] 大量資料groupby 速率問題

作者: qwtl0213 (捲仔) 2023-05-28 23:16:09

大家好，小弟目前在處理大量資料時遇到了一些問題
我有一個dataset 大概有20000筆資料，而因為要用grid search 去找最佳參數，所以我目前
的做法是先把原始資料集複製N次（N大概會抓到記憶體能負擔得程度）然後再利用numba 向
量化的方式去進行向量化運算
而我想做的是把N組算出來的目標函數，依照每組參數進行相加（依照iteration 的編號相加
，目前想得出來的只有pandas 的 groupby 方法比較適合我）但是用groupby 的話就會要花
費時間把大型array 轉換成dataframe 在進行相加，這樣速度就會慢很多
想請問各位有沒有什麼比較好的處理方法，感謝不盡！

作者: lycantrope (阿寬) 2023-05-28 23:53:00

polars

作者: celestialgod (å¤©) 2023-05-29 11:17:00

#1aOHwdpn

作者: bearching (Pandora`s Box) 2023-06-04 11:37:00

問個可能不太正確的問題，如果把原始資料集複製一次算出目標函數存下來，然後把複製的資料集drop掉，再把原始資料集複製算下一個目標函數，如果這算法是符合需求的話，會省滿多資源的，而且Ｎ的數量應該可以會比原本一口氣算的多

作者: qwtl0213 (捲仔) 2023-06-04 14:57:00

後來發現直接複製N次做向量化運算會快很多因為如果每次複製一次算一次代表有N組參數就要跑N次或者我還沒有想到其他方法哈哈

如果有最小可執行的程式才能幫你看怎麼做不然也是請鬼抓藥單

作者: leighmeow (warau) 2023-06-17 14:48:00

CaskDask

繼續閱讀

[問題] pyautogui無法在特定程式作用hdln [問題] 正則的分組匹配問題god1230321 [問題] 用python開發手機電話即時翻譯問題jackjenny [家教] python 爬蟲, 數據處理, 數據庫儲存pawfinder [問題] print輸出對不齊asiagodfater Re: [問題]請教如何加快dataframe的條件判斷celestialgod [問題]請教如何加快dataframe的條件判斷liquidbox [問題] Robot framework 錯誤訊息尋問raindeer896 [問題] Selenium股東會電子投票？hjgx [問題] Numpy的flatten方法結果似乎有錯怎麼解?dosiris