#MoE

共 1 篇文章

模型發布2026年3月30日

Mistral Small 4 架構解析：128 專家 MoE 設計如何用 6B 活躍參數擊敗百億級模型

Mistral AI 發布 Mistral Small 4，採用 128 專家混合架構（MoE），總參數 119B 但每次推理僅啟動 6B 參數。該模型在邏輯推理與程式碼生成基準測試中超越 GPT-OSS 120B，同時輸出長度減少 20%，推理延遲降低 40%。以 Apache 2.0 授權開源。

#Mistral #MoE #開源模型