[取暖] DeepSeek

作者: cities516 (安安路過)   2025-02-02 21:35:59
我還是看不懂Deepseek怎麼壓低成本
https://i.imgur.com/awdsFCF.png
蛤 Mixture of Experts也不是新東西ㄚ
Multi layer attention 也老東西了
啊??
有沒有讀過原文paper的能解釋一下
作者: Fatesoul (Chiester)   2025-02-02 21:37:00
我還看到一篇說明之後不在需要GPU的

Links booklink

Contact Us: admin [ a t ] ucptt.com