[請益] 機器學習如何做好version control

作者: littleyuan (baby)   2018-04-14 07:27:46
大家好
我是ML新手 跟的前輩是很優秀的超強者
但是前輩很不organized 寫的code總是不commit
主管希望下個項目之前我可以提出報告要如何改進並且希望前輩能跟進
我是覺得ML和其他寫程式有點不同
因為不斷測試參數 每次調參數都commit的話好像太繁雜 所以我一般是有了好結果才com
mit一次 不知道大家一般怎麼做的
另一個問題是資料庫會更新 更新過程那原來的model 不變讀到的數據就不一樣了那出來
的結果也還是不一樣
這樣要怎麼reproduce做出和原來一樣正確率??
大家會寫個word檔紀錄每次Data的變化嗎?
想知道大家實際工作上是如何管理的呢?
作者: Mchord (Mchord)   2018-04-14 07:47:00
測試出來的正確率只能對應到該次的model和dataset版本,兩者其一有變動就應該要重測一次數據
作者: backprog (back-propagation)   2018-04-14 07:54:00
每次都commit啊,因為你有可能下次調參就變差了。 資料變動的話,就另外add一個描述資料的文件一起commit
作者: elements (Helianthus annuns)   2018-04-14 09:15:00
我比較好奇 jupyter 怎麼版控
作者: janus7799 (Janus逍遙)   2018-04-14 09:46:00
寫一份實驗數據分析之類的
作者: Murasaki0110 (麥當勞歡樂送)   2018-04-14 10:09:00
你的問題只是要好好把實驗config整理好包括dataset內容,augment用哪些這些細節都應該要記
作者: f496328mm (為什麼會流淚)   2018-04-14 10:13:00
就跟做實驗一樣啊
作者: enthos (影斯作業系統)   2018-04-14 10:39:00
我在家自用的script在dropbox目錄下修改,自動備份所有存檔
作者: maxqq (max)   2018-04-14 12:11:00
強者搞自己的?這樣叫強者?強者若要搞自己的,幹嘛找人?
作者: cobrasgo (人魚線變成鮪魚線,超帥)   2018-04-14 12:56:00
如果db一直會更新就比較麻煩
作者: mraaa (重新出發....)   2018-04-14 15:43:00
我以爲Machine Learning就是讓機器去分析學會「調參數」,而不是一直「手動」調參數。是我誤會什麼了嗎?
作者: clairehuei (不是clairehuei 是桂)   2018-04-14 15:54:00
原po說的調參數 指的應該是超參數吧
作者: SmallpTsai (Smallp Tsai)   2018-04-14 18:36:00
你沒有提問題在那裡? code不commit有什麼實際的影響?長官對什麼地方不爽?
作者: chchan1111 (123)   2018-04-14 19:10:00
妳那些超參數都是寫死在程式裡?我的話會另外用個檔案存超參數 程式一開始去取值版控就只要做程式的部分就好了吧另外數據一值更新 是不是可以先固定一組訓練/測試集這樣新model才能做比較 有變好再上線使用也比較方便記錄不同組超參數在同樣資料下的結果
作者: pwh17 (胖丁)   2018-04-14 19:43:00
Data version control is a new tool. You could check their article on Medium
作者: poloball (吃不胖真無奈…)   2018-04-14 20:18:00
做影像的話 通常會測固定的dataset 每版commit model跟parameter 你的應用聽起來input不固定比較複雜
作者: shietsd (123)   2018-04-14 21:09:00
把每次跑的model存起來啊,這樣資料集固定了至於超參數,好像也只能另寫config檔來存做版控,看其他高手有無較好的方法。
作者: chedbens0729 (Vi冬冬a)   2018-04-15 16:43:00
用config紀錄hyperparamater和結果以及model檔名稱吧,不太懂你說db一直變動什麼意思,有人在commit db的嗎…
作者: cory8249 (Cory)   2018-04-15 18:54:00
這確實是蠻困擾的問題 data 跟 code 同時在變的話
作者: Mchord (Mchord)   2018-04-16 00:02:00
除了刷數據投paper以外,現實中固定dataset然後狂調參數意義不大吧?
作者: Wush978 (拒看低質媒體)   2018-04-16 02:21:00
管理機器學習的程式碼在幾年前還是Open Problem, 沒答案近年應該滿多Talk在分享相關議題, 我自己是看Google的論文才注意到這個問題:https://research.google.com/pubs/pub43146.html

Links booklink

Contact Us: admin [ a t ] ucptt.com