※ 引述 《sustainer123 (溫水佳樹的兄長大人)》 之銘言:
:
: ※ 引述 《sustainer123 (溫水佳樹的兄長大人)》 之銘言:
: :
: : ※ 引述 《sustainer123 (溫水佳樹的兄長大人)》 之銘言:
: : :
: : : 有點懂在幹嘛了
: : :
: : : 本質上就使用不同策略訓練特徵提取部分跟分類器
: : :
: : : 長尾學習來說 backbone一般常用cross entropy這種非重加權的損失函數來學習通用
特
: 徵
: : :
: : : 分類器再用重採樣或重加權來學習少數特徵
: : :
: : : 放到語義分割來說
: : :
: : : 就是先跑一次一般訓練
: : :
: : : 然後凍結encoder 然後再訓練decoder
: : :
: : : 但decoder不知道要重train多少
: : :
: : : 最後一層 還是 整個
: : :
: : : 唉 沒啥能照抄的東西 麻煩
: : :
: :
: : 想了一下
: :
: : 實驗應該可以這樣設計
: :
: : 維持原架構
: :
: : 分別訓練backbone跟分類器
: :
: : 兩種損失函數
: :
: : 總共4種組合
: :
: : 快速測一下要不要繼續投資
: :
: : 畢竟也不少論文討論一階段架構
: :
: : 沒屌用就跳ㄅ
:
: 用本來的損失函數當二階段損失函數
:
: 模型效果比用原來的損失函數跑一階段訓練來的差
:
: 但改用weighted cross entropy
:
: 二階段訓練效果就比一階段好了
:
: 感覺能研究不同損失函數的效果
:
抄BBN這篇paper的想法
因為我是語義分割問題 要重採樣很難變成長頭的分布
所以我分兩個分支 一個用CE 一個用Dice
兩個之間一樣用alpha這個根據隨疊代次數變多
加強尾部學習的自適應參數
但思考其實不太一樣
他是對logit動手腳 兩個分支的logit用alpha調節比例
我是調整loss function算出來的loss
兩個依比例相加
結果就是一坨大便
loss的比例不固定
loss curve根本沒參考價值
不過有點想法 下禮拜再看看要怎麼修改