Mistral AI 於 2026 年 3 月 16 日發布 Mistral Small 4,這是一款採用大規模混合專家架構(Mixture of Experts, MoE)的開源語言模型。該模型以 119B 的總參數量搭配每次推理僅 6B 的活躍參數設計,在多項基準測試中超越了規模更大的競爭對手,展示了 MoE 架構在效率與性能之間的精妙平衡。
MoE 架構深度剖析
128 專家設計的技術細節
Mistral Small 4 的核心創新在於其 128 專家、4 活躍 的 MoE 配置。在每個 Transformer 層的前饋網路(FFN)部分,模型包含 128 個獨立的專家子網路,但對於每個輸入 Token,路由機制僅選擇其中 4 個專家 進行計算。
這種「超大專家池、極少活躍路徑」的設計帶來多重優勢:
1. 極致的專業化分工
128 個專家為模型提供了充分的空間來學習高度專業化的知識分佈。在訓練過程中,不同的專家會自然地分化為處理不同領域和任務類型的「專家」。相比傳統的 8 專家或 16 專家 MoE 設計,128 專家允許更細粒度的知識分割,使每個專家能夠在其負責的子領域達到更高的精度。
2. 計算效率的突破
總參數 119B、活躍參數 6B 的比例(約 1:20)意味著模型儲存了大量知識,但每次推理的計算成本與一個 6B 密集模型相當。這使得 Mistral Small 4 可以在消費級 GPU 上高效運行,同時保持接近百億級模型的輸出品質。
3. 動態知識檢索
路由機制根據輸入內容動態選擇最相關的 4 個專家,本質上是一種「內建的知識檢索系統」。處理數學問題時,數學專精的專家被激活;處理程式碼時,相應的編程專家被選中。這種機制避免了密集模型中「所有知識都參與每次計算」的浪費。
可配置推理(Configurable Reasoning)
Mistral Small 4 引入了可配置推理功能,允許用戶根據任務需求調整模型的思考深度。在需要深度推理的數學或邏輯任務上,可開啟完整的鏈式推理(Chain-of-Thought);在簡單的文本生成任務上,則可關閉推理以獲得更快的回應速度。
基準測試表現
邏輯推理:超越 GPT-OSS 120B
在 AA LCR(邏輯推理) 基準測試中,Mistral Small 4 取得 0.72 分,值得注意的是模型僅使用 1,600 字元 的輸出長度即完成推理。作為對比,Qwen 系列模型需要 5,800-6,100 字元(3.5-4 倍)才能達到相近的成績。
這一結果揭示了一個重要趨勢:模型的推理能力不僅取決於答案的正確性,更體現在推理路徑的效率上。更簡潔的推理過程意味著:
- 更低的 Token 消耗成本
- 更快的端到端回應時間
- 更適合需要即時回饋的互動式應用
程式碼生成:LiveCodeBench 領先
在 LiveCodeBench 程式碼生成基準測試中,Mistral Small 4 不僅在得分上超越 GPT-OSS 120B,而且輸出長度減少 20%。更少的 Token 意味著程式碼更簡潔、更直接,減少了冗餘的註釋和不必要的抽象層。
效能優化成果
與前代 Mistral Small 3 相比,Mistral Small 4 實現了顯著的效能提升:
| 指標 | 改進幅度 | 說明 |
|---|---|---|
| 端到端延遲 | 降低 40% | 延遲優化配置 |
| 吞吐量 | 提升 3 倍 | 吞吐量優化配置 |
| 推理品質 | 超越 3x 規模模型 | 多項基準測試 |
40% 的延遲降低對於即時應用(如聊天機器人、程式碼輔助工具)具有直接的使用者體驗改善效果。3 倍的吞吐量提升則意味著同等硬體投入下可服務 3 倍的並發用戶。
Apache 2.0 授權的策略意義
Mistral AI 選擇以 Apache 2.0 授權開源 Mistral Small 4,這是最寬鬆的開源授權之一,允許無限制的商業使用、修改和再分發。相比之下,Meta 的 Llama 系列採用自定義授權,對月活超過 7 億的應用有額外限制。
這一決策可能反映了 Mistral 的商業策略轉變:透過開源建立生態系統和品牌影響力,再通過企業級 API 服務(La Plateforme)和定制化部署支援實現商業化。
對 MoE 架構研究的啟示
Mistral Small 4 的成功為 MoE 架構研究提供了多項重要啟示:
- 專家數量的擴展定律:從 8→16→128 的專家數量增長路徑表明,增加專家數量仍能帶來顯著的性能收益
- 極低活躍比例的可行性:4/128(3.1%)的活躍比例證明了超稀疏 MoE 設計的實用性
- 路由品質的重要性:高效的路由機制是大規模 MoE 系統成功的關鍵
隨著 MoE 架構的持續演進,我們可能會看到專家數量進一步增長至數百甚至數千的設計,每次推理的計算成本進一步降低,而模型整體的知識容量和專業深度則持續提升。