阿里巴巴開源Qwen3模型家族 yam276 PTT批踢踢實業坊

阿里巴巴開源Qwen3模型家族

作者: yam276 ('_') 2025-04-29 16:16:55

省流：可以用更少資源寫更優質色文了
下面有興趣再看
阿里巴巴周一（4/29）開源了Qwen3模型家族，涵蓋兩個專家混合模型（MoE）Qwen3-235B
-A22B與Qwen3-30B-A3B，以及6個不同尺寸的密集模型（Dense），包括Qwen3-32B、Qwen3
-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B與Qwen3-0.6B，而且每個模型都有思考及非思考
兩種模式可供無縫切換。
密集模型代表這些模型上的所有參數在每次推論時都會被用到，適合處理簡單任務，且有
更快的推理速度；MoE架構則含有多個專家子模型，在處理每個輸入時，只有部分專家會
被啟動以參與運算，可在保持大量模型參數量，減少實際運算所需的資源，例如Qwen3-
30B-A3B指的是具備300億的總參數，但每次只會啟用30億個參數。
相較於上一代的Qwen2.5是以18兆個Token進行預訓練，Qwen3則是以36兆個Token進行預訓
練，後者不僅蒐集網路上的資料，也蒐集PDF檔案的內容，並分成3階段進行預訓練，在第
一階段完成基本的語言技能與通用知識，第二階段則加入了STEM、程式設計及推理任務等
知識密集型資料，第三階段則是將所支援的脈絡長度拓展至3.2萬個Token。新一代的
Qwen3支援119種語言。
每個Qwen3模型也都支援思考及非思考兩種運算模式，在思考模式下，模型會逐步推理，
經過深思熟慮之後才給出答案，適合需要深入思考的複雜問題，像是複雜的邏輯推理、數
學或是撰寫程式碼等；而非思考模式則提供快速且接近即時的回應，適合那些對速度要求
高於深度的簡單問題，例如聊天，而且它們可以無縫切換，以確保在不同場景中呈現最佳
性能。
Qwen團隊表示，結合這兩種模式強化了模型的穩定與思考預算控制能力，讓使用者可輕鬆
地替不同任務配置特定的預算，在成本與品質取得平衡。
此外，模型架構的改進、訓練資料的增加，以及更有效的訓練方法，讓Qwen3 Dense基礎
模型的整體性能，與參數更多的Qwen2.5基礎模型相當，而Qwen3 MoE基礎模型在只啟用10
%參數的狀況下，就能達到與Qwen2.5 Dense基礎模型相似的性能。
除了與自家的上一代模型比較之外，Qwen3在許多基準測試中的表現，也凌駕了OpenAI-o1
、Deepseek-R1、Grok 3 Beta、Gemini 2.5-Pro及OpenAI-o3-mini Medium等先進模型。

作者: surimodo (好吃棉花糖) 2025-04-29 16:22:00

坐等實測 2.5 就強到離譜了這代不知道怎樣

作者: yam276 ('_') 2025-04-29 16:27:00

重點是啟用少數參數專注任務可以讓本地更容易使用

繼續閱讀

[閒聊] 回鍋明朝了l00011799z Re: [姆咪] 瓦屌真的釣魚大師Hosimati Re: 推 cities516: 他發的文都很雲要怎麼討論 ==Fatesoul 鳴潮中國第一波出來了oz5566 [鳴潮] 你他媽庫洛windowsill Re: [取暖] 寶可夢為啥可以一家獨大Rushia Re: [閒聊] 陸劇qscxz Re: [鳴潮] 天月murderer2013 [姆咪] 瓦屌真的釣魚大師A00610lol → redDest: 那我問你胡桃的聖遺物要什麼套什ErLKYgyLFzh