作者:
yam276 ('_')
2025-04-29 16:16:55省流:可以用更少資源寫更優質色文了
下面有興趣再看
阿里巴巴周一(4/29)開源了Qwen3模型家族,涵蓋兩個專家混合模型(MoE)Qwen3-235B
-A22B與Qwen3-30B-A3B,以及6個不同尺寸的密集模型(Dense),包括Qwen3-32B、Qwen3
-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B與Qwen3-0.6B,而且每個模型都有思考及非思考
兩種模式可供無縫切換。
密集模型代表這些模型上的所有參數在每次推論時都會被用到,適合處理簡單任務,且有
更快的推理速度;MoE架構則含有多個專家子模型,在處理每個輸入時,只有部分專家會
被啟動以參與運算,可在保持大量模型參數量,減少實際運算所需的資源,例如Qwen3-
30B-A3B指的是具備300億的總參數,但每次只會啟用30億個參數。
相較於上一代的Qwen2.5是以18兆個Token進行預訓練,Qwen3則是以36兆個Token進行預訓
練,後者不僅蒐集網路上的資料,也蒐集PDF檔案的內容,並分成3階段進行預訓練,在第
一階段完成基本的語言技能與通用知識,第二階段則加入了STEM、程式設計及推理任務等
知識密集型資料,第三階段則是將所支援的脈絡長度拓展至3.2萬個Token。新一代的
Qwen3支援119種語言。
每個Qwen3模型也都支援思考及非思考兩種運算模式,在思考模式下,模型會逐步推理,
經過深思熟慮之後才給出答案,適合需要深入思考的複雜問題,像是複雜的邏輯推理、數
學或是撰寫程式碼等;而非思考模式則提供快速且接近即時的回應,適合那些對速度要求
高於深度的簡單問題,例如聊天,而且它們可以無縫切換,以確保在不同場景中呈現最佳
性能。
Qwen團隊表示,結合這兩種模式強化了模型的穩定與思考預算控制能力,讓使用者可輕鬆
地替不同任務配置特定的預算,在成本與品質取得平衡。
此外,模型架構的改進、訓練資料的增加,以及更有效的訓練方法,讓Qwen3 Dense基礎
模型的整體性能,與參數更多的Qwen2.5基礎模型相當,而Qwen3 MoE基礎模型在只啟用10
%參數的狀況下,就能達到與Qwen2.5 Dense基礎模型相似的性能。
除了與自家的上一代模型比較之外,Qwen3在許多基準測試中的表現,也凌駕了OpenAI-o1
、Deepseek-R1、Grok 3 Beta、Gemini 2.5-Pro及OpenAI-o3-mini Medium等先進模型。