[心得] 3080 深度學習 GDDR6X過熱

作者: exeex (執行檔EX)   2022-07-13 18:59:43
先講結論:
GDDR6X很燙,燙了就很不穩定
打遊戲沒事,但跑Deep learning訓練會壞掉
Deep learning這種應用建議直上帝版,甚至水冷版
以下是debug經驗分享:
之前從EVGA官網買到了一張便宜的3080
本來想拿去做模型訓練,但很容易模型練沒10分鐘就當掉
這個問題總是100%復現,有時早點掛,有時晚點掛
一開始以為是卡壞了,但拿去打APEX又都沒事
(2K144真的滿爽的,直到我打了兩周APEX,才想到我原本是買來做Deep learning的)
研究了一下這代卡的技術,通病就是GDDR6X很燙
所以我開始懷疑是顯存問題
所以我我用了一個簡單的訓練腳本來觀察卡的各項參數
(需要請自取
https://github.com/exeex/pytorch-cifar/releases/tag/v1.0)
訓練剛開始,顯存頻率會直接拉滿到9200MHz上下
然後開始爆熱,接著就掛掉。
於是我用Afterburner將頻率下修200MHz,就不會掛了
但是跑大約10分鐘後 他就會自動降頻到5000MHz...
此時訓練都不會出現當機的問題,但是訓練速度也變成原本的2/3
有夠虧
Afterburner設定如圖:
https://imgur.com/aTHIPs4
降頻示意圖
https://imgur.com/yvawLe3
現在在研究,看有沒有可以長時間讓他保持高頻的方法..
比如用8000MHz,至少沒那麼虧
或是有沒有帝版的同學可以跑看看我這份code
看是不是丐版散熱太爛的問題
PS. 為什麼不用Ubuntu
因為不能打Apex和我只會用Afterburner(ubuntu沒有)
作者: tyl510288 (tyl510288)   2022-07-13 19:01:00
因為你不是拿ROG
作者: oppoR20 (R20)   2022-07-13 19:02:00
結論:丐版散熱爛問題就是丐版這就跟挖礦一樣道理
作者: annboy (BlueGun)   2022-07-13 19:04:00
懷疑你買到卡皇 以前3080ti XC沒碰到這問題
作者: a8312116 (折一半都比你長)   2022-07-13 19:06:00
這就是為什麼不推薦3080以上拿丐版的原因
作者: harry886901 (風嵐)   2022-07-13 19:06:00
建議風扇拉滿 Auto最高也只會跑到50%而已
作者: zone0016 (GUNDAM)   2022-07-13 19:10:00
換散熱貼,風扇轉到最快散熱貼用利民或是萊爾德
作者: AAAWhoAmI   2022-07-13 19:11:00
3080丐版+1 直接PL鎖在250以下比較不會降頻
作者: harry886901 (風嵐)   2022-07-13 19:16:00
還有你temperature limit拉高一點
作者: otosaka (學生會長我老婆啦)   2022-07-13 19:17:00
丐版散熱爛 你可以學學上面那位仁兄改裝散熱貼
作者: mrme945   2022-07-13 19:25:00
power limit拉105%比較不會降頻,但你還是得去換散熱貼,甚至是改銅片,板上之前有人分享
作者: steven33107 (這樣大學生了沒?)   2022-07-13 19:25:00
我猜是背板的記憶體過熱啦,畢竟只有導熱貼沒接觸散熱器之前有看過礦老闆背板也改風扇的
作者: aaron5555 (波波)   2022-07-13 19:27:00
以後直接賭一把買水冷的吧
作者: a27417332 (等號卡比)   2022-07-13 19:28:00
這篇是認真的嗎,大家的留言是認真的嗎?
作者: sdbb (幫我泡杯卡布奇諾)   2022-07-13 19:28:00
樓下支語警察
作者: harry886901 (風嵐)   2022-07-13 19:29:00
3080沒有背面記憶體吧 = =
作者: a27417332 (等號卡比)   2022-07-13 19:29:00
都沒看到錯誤訊息的內容,然後冒出了過熱的實驗跟結論這前因後果完全是鬼轉耶
作者: Zenryaku (前略)   2022-07-13 19:35:00
丐板就是只能拿來打遊戲用ok而已
作者: tropotato (tropotato)   2022-07-13 19:38:00
開側板用電風扇吹啊==不然拿卡去挖礦用colab pro訓練16gb batch size 可以設大點
作者: stepnight (桃卡武康)   2022-07-13 19:43:00
為什麼不直接找EVGA去信詢問==
作者: wahaha99 (此方不可長)   2022-07-13 19:43:00
自己改散熱啊
作者: lolpklol0975 (鬼邢)   2022-07-13 19:45:00
三星製程 + 美光6X不換 就不買
作者: TuCH (謬客)   2022-07-13 19:45:00
錯誤訊息是什麼
作者: exeex (執行檔EX)   2022-07-13 19:46:00
錯誤訊息就是cuda 讀資料無回應 整個掛掉螢幕黑屏 顯卡自動重啟
作者: SaberMyWifi (賽巴我老婆)   2022-07-13 19:47:00
照這測試、只打遊戲拿丐版就非常足夠了阿
作者: exeex (執行檔EX)   2022-07-13 19:48:00
我的經驗這種都是顯存錯誤居多
作者: a27417332 (等號卡比)   2022-07-13 19:48:00
如果卡出廠有小超,說不定是核心時脈的問題呀
作者: exeex (執行檔EX)   2022-07-13 19:50:00
顯存降頻跑就沒事 那87%是顯存問題
作者: joefaq (小瑜)   2022-07-13 19:51:00
你風扇調成100%看看
作者: blackway0226 (bbway0226)   2022-07-13 19:52:00
你先測個溫度吧
作者: a27417332 (等號卡比)   2022-07-13 19:53:00
那你可以試試看不降頻進行顯存正確性的測試
作者: harry886901 (風嵐)   2022-07-13 19:53:00
然後你git沒公開 沒辦法幫你測
作者: Bujo (部長)   2022-07-13 19:54:00
冷氣房加風扇直吹,下班繼續訓練通常惠關冷氣,但風扇一定要開
作者: exeex (執行檔EX)   2022-07-13 19:57:00
https://github.com/exeex/pytorch-cifar有人要幫測嗎? 感謝有道理 可以測一下@a27417332
作者: winiel559 (大漢天威)   2022-07-13 20:09:00
core也可以降頻啊 散熱器是共用的
作者: a27417332 (等號卡比)   2022-07-13 20:10:00
有沒有原始的完整錯誤訊息可以貼一下
作者: winiel559 (大漢天威)   2022-07-13 20:13:00
預設100%TDP是320W-350W 拉到70-80%試試看?
作者: tomsawyer (安安)   2022-07-13 20:15:00
深度學習(X eth學習(O 會不會你去隔壁還比較多人懂
作者: blackway0226 (bbway0226)   2022-07-13 20:15:00
降頻吧 挖礦都沒滿功率跑了
作者: kevin1221 (N\A)   2022-07-13 20:28:00
不會用QQ
作者: lostkimo (累的不想呼吸)   2022-07-13 20:28:00
用浸泡式散熱?
作者: click2258 (吃很飽)   2022-07-13 20:49:00
3090Ti 聽說不熱?
作者: ericinttu   2022-07-13 21:01:00
口袋不深 學習效果打折
作者: mrme945   2022-07-13 21:03:00
也不是說不熱,是因為單面配置相對3090雙面配置來說比較容易散熱,所以溫度表現好一點
作者: www11454 (帥哥耀)   2022-07-13 21:03:00
不能一邊打Game一邊練…….
作者: creepy (左招財 右納福)   2022-07-13 21:27:00
去買水冷套件 3000可以解決的事情
作者: amos30627 (Destiny)   2022-07-13 21:28:00
Ubuntu 可以打Apex了吧
作者: Fww (隨風幻想)   2022-07-13 21:46:00
不想降頻跑的話,就找類似EK的水冷套件吧
作者: cs8425 (cs)   2022-07-13 22:13:00
回a某 不行喔 就算proton相容沒問題 防外掛會故意擋掉的
作者: meowgy (sky)   2022-07-13 22:28:00
改銅片唯一解,有賣模組化的
作者: kenkuo1688 (嘉大彭于晏)   2022-07-13 22:35:00
改銅牌或是把風扇拉高一點 銅片真的讚
作者: amos30627 (Destiny)   2022-07-13 22:36:00
EAC問題在steam deck出了後也差不多解決了啊
作者: cat654231 (大肥貓)   2022-07-13 22:41:00
換散熱墊 礦工基本知識
作者: ko363630 (打雜路人甲)   2022-07-13 22:51:00
EVGA顯卡水冷kit有在賣嗎
作者: s1011282 (阿凱)   2022-07-13 23:22:00
我的3080 ftw3可以幫忙試試,不過帝版也很熱情
作者: currit (ufo)   2022-07-13 23:28:00
技嘉的水冷一樣熱情
作者: nanaha (nanaha)   2022-07-13 23:40:00
EVGA 3080 XC3 Ultra 跑沒問題耶https://i.imgur.com/W0Fw6EU.png環境是 WSL2 Python 3.8.5 PyTorch 1.12.0
作者: AreLies (謊言)   2022-07-13 23:54:00
我的卡也沒問題一樣XC3我覺得是你的殼太悶
作者: nanaha (nanaha)   2022-07-14 00:13:00
仔細看了一下你訓練剛開始的圖 為什麼你 Test 的速度只有我的一半?背景有跑什麼東西嗎 我上面圖的結果背景還有跑Wallpaper engine然後題外話 這種單純比較 model 的實驗建議固定 random seed 結果會更有說服力https://i.imgur.com/p8Ogjjy.png第二次跑 把 Wallpaper engine 暫停,code 裡面打開 torchAMP 一樣沒問題 GPU 降了三度 test accuracy 還高了一點點
作者: logus (Cosmos)   2022-07-14 01:21:00
該拍機殼了
作者: anndy (FIFA 2006 好精彩阿)   2022-07-14 01:28:00
power幾瓦?
作者: saito2190 (榛香超可愛der)   2022-07-14 02:30:00
想噓顯存,不忍噓
作者: RaiGend0519 (Named RaiGend)   2022-07-14 02:57:00
建議直接抄隔壁版同一張3080的挖礦參數顯存別超就好,記得降壓散熱墊換一換,開冷氣給它吹,搞好一點的機殼,沒了降壓可以有效降低溫度,至於卡能降多低得自己測開冷氣開側板用電風扇直接送風再觀察溫度
作者: B0988698088 (廢文少女小円♥)   2022-07-14 05:13:00
顯存是什麼
作者: imsmalling95 (hahaj)   2022-07-14 08:16:00
丐版爛
作者: daae (南極熊貓)   2022-07-14 08:39:00
換AC扇直吹阿
作者: wolver (超級大變態)   2022-07-14 08:56:00
冷氣不夠冷可以用液態氮
作者: seank0113   2022-07-14 10:33:00
剛剛用evga 3080 ftw測了15分鐘,沒有遇到問題,也沒有降頻
作者: ericinttu   2022-07-14 11:57:00
看來是原PO的問題 還想陰我大哥
作者: a27417332 (等號卡比)   2022-07-14 12:13:00
不是呀...又不是每個實驗室都有錢到翻掉哪來那麼多Tesla能跑,配的PC很多都用消費級的卡就沒聽過有人講消費級的卡沒特別改的狀況下硬體出事的過熱頂多就降頻跑慢一點,目前也沒聽到會當到重開所以才一直問錯誤訊息是什麼,說不定根本是搞錯方向如果真的是出廠硬體就有問題,就換一張新的唄這種繞法也不是什麼根本上的解決之道
作者: Lecn (Le)   2022-07-14 15:06:00
3090、80ti都拿丐版 lab甚至沒有24小時冷氣,沒聽過出錯的
作者: lee79114 (windflute)   2022-07-14 16:02:00
整串看下來丐版玩遊戲很ok啊 3080可以省個3000元
作者: nanaha (nanaha)   2022-07-15 00:31:00
看起來丐版遊戲以外也沒問題啊 只有原PO那張怪怪的吧
作者: amos30627 (Destiny)   2022-07-17 17:19:00
我特別裝manjaro來玩Apex看看 可以玩 沒被防外掛踢

Links booklink

Contact Us: admin [ a t ] ucptt.com