Mistral Small 4 架構解析：128 專家 MoE 設計如何用 6B 活躍參數擊敗百億級模型

Mistral AI 於 2026 年 3 月 16 日發布 Mistral Small 4，這是一款採用大規模混合專家架構（Mixture of Experts, MoE）的開源語言模型。該模型以 119B 的總參數量搭配每次推理僅 6B 的活躍參數設計，在多項基準測試中超越了規模更大的競爭對手，展示了 MoE 架構在效率與性能之間的精妙平衡。

MoE 架構深度剖析

128 專家設計的技術細節

Mistral Small 4 的核心創新在於其 128 專家、4 活躍 的 MoE 配置。在每個 Transformer 層的前饋網路（FFN）部分，模型包含 128 個獨立的專家子網路，但對於每個輸入 Token，路由機制僅選擇其中 4 個專家 進行計算。

這種「超大專家池、極少活躍路徑」的設計帶來多重優勢：

1. 極致的專業化分工

128 個專家為模型提供了充分的空間來學習高度專業化的知識分佈。在訓練過程中，不同的專家會自然地分化為處理不同領域和任務類型的「專家」。相比傳統的 8 專家或 16 專家 MoE 設計，128 專家允許更細粒度的知識分割，使每個專家能夠在其負責的子領域達到更高的精度。

2. 計算效率的突破

總參數 119B、活躍參數 6B 的比例（約 1:20）意味著模型儲存了大量知識，但每次推理的計算成本與一個 6B 密集模型相當。這使得 Mistral Small 4 可以在消費級 GPU 上高效運行，同時保持接近百億級模型的輸出品質。

3. 動態知識檢索

路由機制根據輸入內容動態選擇最相關的 4 個專家，本質上是一種「內建的知識檢索系統」。處理數學問題時，數學專精的專家被激活；處理程式碼時，相應的編程專家被選中。這種機制避免了密集模型中「所有知識都參與每次計算」的浪費。

可配置推理（Configurable Reasoning）

Mistral Small 4 引入了可配置推理功能，允許用戶根據任務需求調整模型的思考深度。在需要深度推理的數學或邏輯任務上，可開啟完整的鏈式推理（Chain-of-Thought）；在簡單的文本生成任務上，則可關閉推理以獲得更快的回應速度。

基準測試表現

邏輯推理：超越 GPT-OSS 120B

在 AA LCR（邏輯推理） 基準測試中，Mistral Small 4 取得 0.72 分，值得注意的是模型僅使用 1,600 字元 的輸出長度即完成推理。作為對比，Qwen 系列模型需要 5,800-6,100 字元（3.5-4 倍）才能達到相近的成績。

這一結果揭示了一個重要趨勢：模型的推理能力不僅取決於答案的正確性，更體現在推理路徑的效率上。更簡潔的推理過程意味著：

更低的 Token 消耗成本
更快的端到端回應時間
更適合需要即時回饋的互動式應用

程式碼生成：LiveCodeBench 領先

在 LiveCodeBench 程式碼生成基準測試中，Mistral Small 4 不僅在得分上超越 GPT-OSS 120B，而且輸出長度減少 20%。更少的 Token 意味著程式碼更簡潔、更直接，減少了冗餘的註釋和不必要的抽象層。

效能優化成果

與前代 Mistral Small 3 相比，Mistral Small 4 實現了顯著的效能提升：

指標	改進幅度	說明
端到端延遲	降低 40%	延遲優化配置
吞吐量	提升 3 倍	吞吐量優化配置
推理品質	超越 3x 規模模型	多項基準測試

40% 的延遲降低對於即時應用（如聊天機器人、程式碼輔助工具）具有直接的使用者體驗改善效果。3 倍的吞吐量提升則意味著同等硬體投入下可服務 3 倍的並發用戶。

Apache 2.0 授權的策略意義

Mistral AI 選擇以 Apache 2.0 授權開源 Mistral Small 4，這是最寬鬆的開源授權之一，允許無限制的商業使用、修改和再分發。相比之下，Meta 的 Llama 系列採用自定義授權，對月活超過 7 億的應用有額外限制。

這一決策可能反映了 Mistral 的商業策略轉變：透過開源建立生態系統和品牌影響力，再通過企業級 API 服務（La Plateforme）和定制化部署支援實現商業化。

對 MoE 架構研究的啟示

Mistral Small 4 的成功為 MoE 架構研究提供了多項重要啟示：

專家數量的擴展定律：從 8→16→128 的專家數量增長路徑表明，增加專家數量仍能帶來顯著的性能收益
極低活躍比例的可行性：4/128（3.1%）的活躍比例證明了超稀疏 MoE 設計的實用性
路由品質的重要性：高效的路由機制是大規模 MoE 系統成功的關鍵

隨著 MoE 架構的持續演進，我們可能會看到專家數量進一步增長至數百甚至數千的設計，每次推理的計算成本進一步降低，而模型整體的知識容量和專業深度則持續提升。