模型發布

Mistral Small 4 架構解析:128 專家 MoE 設計如何用 6B 活躍參數擊敗百億級模型

Mistral AI 發布 Mistral Small 4,採用 128 專家混合架構(MoE),總參數 119B 但每次推理僅啟動 6B 參數。該模型在邏輯推理與程式碼生成基準測試中超越 GPT-OSS 120B,同時輸出長度減少 20%,推理延遲降低 40%。以 Apache 2.0 授權開源。

Mistral AI 於 2026 年 3 月 16 日發布 Mistral Small 4,這是一款採用大規模混合專家架構(Mixture of Experts, MoE)的開源語言模型。該模型以 119B 的總參數量搭配每次推理僅 6B 的活躍參數設計,在多項基準測試中超越了規模更大的競爭對手,展示了 MoE 架構在效率與性能之間的精妙平衡。

MoE 架構深度剖析

128 專家設計的技術細節

Mistral Small 4 的核心創新在於其 128 專家、4 活躍 的 MoE 配置。在每個 Transformer 層的前饋網路(FFN)部分,模型包含 128 個獨立的專家子網路,但對於每個輸入 Token,路由機制僅選擇其中 4 個專家 進行計算。

這種「超大專家池、極少活躍路徑」的設計帶來多重優勢:

1. 極致的專業化分工

128 個專家為模型提供了充分的空間來學習高度專業化的知識分佈。在訓練過程中,不同的專家會自然地分化為處理不同領域和任務類型的「專家」。相比傳統的 8 專家或 16 專家 MoE 設計,128 專家允許更細粒度的知識分割,使每個專家能夠在其負責的子領域達到更高的精度。

2. 計算效率的突破

總參數 119B、活躍參數 6B 的比例(約 1:20)意味著模型儲存了大量知識,但每次推理的計算成本與一個 6B 密集模型相當。這使得 Mistral Small 4 可以在消費級 GPU 上高效運行,同時保持接近百億級模型的輸出品質。

3. 動態知識檢索

路由機制根據輸入內容動態選擇最相關的 4 個專家,本質上是一種「內建的知識檢索系統」。處理數學問題時,數學專精的專家被激活;處理程式碼時,相應的編程專家被選中。這種機制避免了密集模型中「所有知識都參與每次計算」的浪費。

可配置推理(Configurable Reasoning)

Mistral Small 4 引入了可配置推理功能,允許用戶根據任務需求調整模型的思考深度。在需要深度推理的數學或邏輯任務上,可開啟完整的鏈式推理(Chain-of-Thought);在簡單的文本生成任務上,則可關閉推理以獲得更快的回應速度。

基準測試表現

邏輯推理:超越 GPT-OSS 120B

AA LCR(邏輯推理) 基準測試中,Mistral Small 4 取得 0.72 分,值得注意的是模型僅使用 1,600 字元 的輸出長度即完成推理。作為對比,Qwen 系列模型需要 5,800-6,100 字元(3.5-4 倍)才能達到相近的成績。

這一結果揭示了一個重要趨勢:模型的推理能力不僅取決於答案的正確性,更體現在推理路徑的效率上。更簡潔的推理過程意味著:

  • 更低的 Token 消耗成本
  • 更快的端到端回應時間
  • 更適合需要即時回饋的互動式應用

程式碼生成:LiveCodeBench 領先

LiveCodeBench 程式碼生成基準測試中,Mistral Small 4 不僅在得分上超越 GPT-OSS 120B,而且輸出長度減少 20%。更少的 Token 意味著程式碼更簡潔、更直接,減少了冗餘的註釋和不必要的抽象層。

效能優化成果

與前代 Mistral Small 3 相比,Mistral Small 4 實現了顯著的效能提升:

指標改進幅度說明
端到端延遲降低 40%延遲優化配置
吞吐量提升 3 倍吞吐量優化配置
推理品質超越 3x 規模模型多項基準測試

40% 的延遲降低對於即時應用(如聊天機器人、程式碼輔助工具)具有直接的使用者體驗改善效果。3 倍的吞吐量提升則意味著同等硬體投入下可服務 3 倍的並發用戶。

Apache 2.0 授權的策略意義

Mistral AI 選擇以 Apache 2.0 授權開源 Mistral Small 4,這是最寬鬆的開源授權之一,允許無限制的商業使用、修改和再分發。相比之下,Meta 的 Llama 系列採用自定義授權,對月活超過 7 億的應用有額外限制。

這一決策可能反映了 Mistral 的商業策略轉變:透過開源建立生態系統和品牌影響力,再通過企業級 API 服務(La Plateforme)和定制化部署支援實現商業化。

對 MoE 架構研究的啟示

Mistral Small 4 的成功為 MoE 架構研究提供了多項重要啟示:

  • 專家數量的擴展定律:從 8→16→128 的專家數量增長路徑表明,增加專家數量仍能帶來顯著的性能收益
  • 極低活躍比例的可行性:4/128(3.1%)的活躍比例證明了超稀疏 MoE 設計的實用性
  • 路由品質的重要性:高效的路由機制是大規模 MoE 系統成功的關鍵

隨著 MoE 架構的持續演進,我們可能會看到專家數量進一步增長至數百甚至數千的設計,每次推理的計算成本進一步降低,而模型整體的知識容量和專業深度則持續提升。

返回首頁