Re: 解耦學習 sustainer123 PTT批踢踢實業坊

Re: 解耦學習

作者: sustainer123 (caster) 2025-09-12 18:51:55

※ 引述《sustainer123 (溫水佳樹的兄長大人)》之銘言：
: 　
: ※ 引述《sustainer123 (溫水佳樹的兄長大人)》之銘言：
: : 　
: : ※ 引述《sustainer123 (溫水佳樹的兄長大人)》之銘言：
: : : 　
: : : 有點懂在幹嘛了
: : : 　
: : : 本質上就使用不同策略訓練特徵提取部分跟分類器
: : : 　
: : : 長尾學習來說 backbone一般常用cross entropy這種非重加權的損失函數來學習通用
特
: 徵
: : : 　
: : : 分類器再用重採樣或重加權來學習少數特徵
: : : 　
: : : 放到語義分割來說
: : : 　
: : : 就是先跑一次一般訓練
: : : 　
: : : 然後凍結encoder 然後再訓練decoder
: : : 　
: : : 但decoder不知道要重train多少
: : : 　
: : : 最後一層還是整個
: : : 　
: : : 唉沒啥能照抄的東西麻煩
: : : 　
: : 　
: : 想了一下
: : 　
: : 實驗應該可以這樣設計
: : 　
: : 維持原架構
: : 　
: : 分別訓練backbone跟分類器
: : 　
: : 兩種損失函數
: : 　
: : 總共4種組合
: : 　
: : 快速測一下要不要繼續投資
: : 　
: : 畢竟也不少論文討論一階段架構
: : 　
: : 沒屌用就跳ㄅ
: 　
: 用本來的損失函數當二階段損失函數
: 　
: 模型效果比用原來的損失函數跑一階段訓練來的差
: 　
: 但改用weighted cross entropy
: 　
: 二階段訓練效果就比一階段好了
: 　
: 感覺能研究不同損失函數的效果
: 　
抄BBN這篇paper的想法
因為我是語義分割問題要重採樣很難變成長頭的分布
所以我分兩個分支一個用CE 一個用Dice
兩個之間一樣用alpha這個根據隨疊代次數變多
加強尾部學習的自適應參數
但思考其實不太一樣
他是對logit動手腳兩個分支的logit用alpha調節比例
我是調整loss function算出來的loss
兩個依比例相加
結果就是一坨大便
loss的比例不固定
loss curve根本沒參考價值
不過有點想法下禮拜再看看要怎麼修改

繼續閱讀

[瓦特] 對了關於Ina畫展有工作人員長得像Ksonwahaha99 Re: [閒聊] 我哥好強XROCK Re: [瓦特] 複習一下咪口顏質CureSeal [BGD] 這貝斯手和keyboard是誰RosieChaeng [瓦特] 複習一下咪口顏質evilmoom 台積電供應鏈將進駐屏東屏東縣加快各項建設uiojkl789 Re: [閒聊] 我哥好強CureSeal Re: [瓦特] 你虹出大事了Hosimati Re: [姆咪] 阿北又要進去了喔？walter741225 [BGD ] 阿姨們Creepig0519