tramsformer

作者: sustainer123 (caster)   2025-02-06 17:41:39
的花費時間跟參數量是幾乎線性關係欸
我拿resnet系列的測
18跟34大概差一倍參數
結果18跟34只差10秒
無法理解
反正tramsformer應該能寫點東西了 姆咪
作者: cities516 (安安路過)   2025-02-06 17:42:00
因為GPU平行運算瓶頸位永遠是I/O

Links booklink

Contact Us: admin [ a t ] ucptt.com