[求教]MEX優化稀疏矩陣運算選擇 InnocentMage PTT批踢踢實業坊

[求教]MEX優化稀疏矩陣運算選擇

作者: InnocentMage 2017-10-12 01:15:56

各位版友好:
最近在實作演算法 sub routine 時遇到了效能問題，sub routine 的目標是在給
定Z矩陣的情況下，找到最好的W來使得 L(ZW) + C*Tr(W'W)最小，其中Loss function 的
長相是 \sum_{(i,j) sample} -R_{ij}log(sigmoid(ZW_{ij}))-(1-R_{ij})log(1-sigmo
id(ZW_{ij})), R 是觀察到的資料，取值在{0,1}。C 是 regularization constant.
然後 minimize function 的gradient 會是 ▼W = Z'▼L(ZW)+2CW
資料型態 : Z 會是一個 N*K 的sparse 矩陣， W 會是 K*N 的 dense 矩陣 , R 會是 N*N
的 sparse 矩陣 (只考慮有被抽樣的點), N >>> K, N/K = 10^2~10^3 。
當前解法 : 之前已經實作了一個 Z 是 dense 的版本，由 matlab 經由 mex 把資料傳到
C裡，然後我再在C裡使用 liblbfgs library 求解傳回。而我需要做的事就是給定w 求
gradient給liblbfgs,目前的複雜度是 nnz(R)*K (算ZW) + nnz(R)*K (算Z'▼L) + K^2
(算+CW)
現在我有問題的點是我有很多可能的改進方向，不知道該選擇什麼比較好。
(1) 沿用原本的架構，只是將Z是sparse 也考慮進去，再自己利用迴圈實作sparse 矩陣乘
法，複雜度應該是 nnz(R)*K*r (evaluate ZW, 其中因為Z的row sparse,在算ZW_ij可能
平均起來只要做 rK 次) + nnz(R)*K*r (同理) + K^2
結果 : 速度大概會變快1/r 倍
優 : 我只要改改code就好，也不用學新東西
缺 : 因為自己實作，不會平行處理，沒有利用到 multi core
(2) 在做稀疏矩陣乘法時直接使用類似Intel-MKL 的library 來加速
優 : 簡單，之前有修過數值方法，還記得怎麼call API
缺 : 我不太清楚要怎麼使用ICC 來編譯mex file,不知是否相容，可以 mex -setup ICC?
不清楚實際怎麼implement，無法細緻的分析
(3) 交由GPU來計算，不管是在C裡自己寫還是就直接在matlab 裡做，用matlab提供的GPU
API
優: 可以很平行的處理?學習GPU運算增強自己的能力XD
缺: 沒有寫過這樣利用GPU去做事的程式，learning curve有點抖，可能需要花很多時間找
資料或實作，一樣可能很難分析。
(4) 可能還有其他方法? 或者要進一步考慮Block Algorithm 或 catch affinity
版友覺得應該朝哪個方向努力呢?這個subroutine會很常被call到，效能是非常重要的考量

作者: sunev (Veritas) 2017-10-12 01:27:00

你哪部份是用matlab script，哪部份是用mex，哪部份是用C？matlab內建sparse，要刻一個BFGS也不是很難。你的瓶頸在哪BFGS的哪個部份不夠快，現在gradient是用matlab還是用C算？所以你有用過matlab的BFGS然後嫌不夠快，改用C確實變快？

繼續閱讀

Re: [討論] 請問關於『Error using *』如何處理?s871526117 [討論] fscanf存取字串siate [討論] 請問關於『Error using *』如何處理?Ecampus [討論] 關於使用者輸入相關問題cleveland32 [討論] 一元複數非線性方程求根fishscwe [討論] 平行化產生隨機數kanonehilber [其他] 關於影像處理後使用原檔名變換附檔名儲存kowalskirico [討論] matlab 不知道哪個地方寫錯sangy79692 Re: [討論] 已有矩陣座標求出矩陣blackrays [討論] 提升matlab讀取xml速度yjyj8000