[發問] CSV檔案輸入

作者: LibrainAir (矛盾與平衡)   2020-04-05 10:40:37
請問各位先進,我有檔案僅紀錄一連串X,Y座標但可能出現多個重複值,也就是說可以畫成heap map
我想要將這個檔案依照對應出現次數轉成list,例如
[原始檔案]
X Y
1 2
2 1
1 1
1 1
0 0
1 1
[預期輸出]
[[1,0,0],
[0,3,1],
[0,1,0]]
主要是要用於深度學習預處理資料,想請問大家改如何切入?
謝謝!
作者: Starcraft2 (來自星海的你)   2020-04-05 11:29:00
先掃一次X, Y可能的最大值 宣告一個2維陣列初值為0然後for迴圈去this_heat_map_array[x][y] += 1你自己有寫寫看一些了嗎?
作者: LibrainAir (矛盾與平衡)   2020-04-05 12:25:00
謝謝回覆,是的有嘗試過,但資料是百萬尺寸所以RAM爆掉了所以想請問是否Panda或是Numpy有提供類似功能或是能改善的架構?再次感謝
作者: TitanEric (泰坦)   2020-04-05 15:31:00
numpy.unique搭配return_counts參數
作者: justoncetime (台北叢林好冷~)   2020-04-05 15:55:00
前面一頁內有人問過.還有貼出你的code才知你怎寫的
作者: jigfopsda (jigfopsda)   2020-04-05 19:32:00
可以看一下 sparse matrix 有沒有滿足你的需求
作者: LibrainAir (矛盾與平衡)   2020-04-06 01:10:00
https://i.imgur.com/VdJ79bK.jpg主要處理到這邊,目前卡在資料量太大如何處理,我會參考上述的建議再次感謝!
作者: justoncetime (台北叢林好冷~)   2020-04-06 01:45:00
電腦上的畫面請用電腦擷,除非其他方式能一樣清楚code有的人可能想try幫你debug,貼文字(或pastebin這兩項,我覺得是提問者對潛在可能會幫助者的禮貌
作者: LibrainAir (矛盾與平衡)   2020-04-06 02:18:00
好的,十分感謝建議!我之後會更正程式碼,謝謝
作者: Starcraft2 (來自星海的你)   2020-04-07 02:40:00
目前的code一樣是爆在memory嗎? 錯誤訊息也可以幫助大家幫忙看
作者: darama (DoRaMa)   2020-04-30 16:51:00
先找 x, y 的最大值, 用以上值宣告一個output 2d array遍歷全部座標(i,j) ;output[i][j]+=1

Links booklink

Contact Us: admin [ a t ] ucptt.com