模型發布
Mistral Small 4 架構解析:128 專家 MoE 設計如何用 6B 活躍參數擊敗百億級模型
Mistral AI 發布 Mistral Small 4,採用 128 專家混合架構(MoE),總參數 119B 但每次推理僅啟動 6B 參數。該模型在邏輯推理與程式碼生成基準測試中超越 GPT-OSS 120B,同時輸出長度減少 20%,推理延遲降低 40%。以 Apache 2.0 授權開源。
Mistral AI 發布 Mistral Small 4,採用 128 專家混合架構(MoE),總參數 119B 但每次推理僅啟動 6B 參數。該模型在邏輯推理與程式碼生成基準測試中超越 GPT-OSS 120B,同時輸出長度減少 20%,推理延遲降低 40%。以 Apache 2.0 授權開源。