模型發布
Mistral Small 4 架構解析:128 專家 MoE 設計如何用 6B 活躍參數擊敗百億級模型
Mistral AI 發布 Mistral Small 4,採用 128 專家混合架構(MoE),總參數 119B 但每次推理僅啟動 6B 參數。該模型在邏輯推理與程式碼生成基準測試中超越 GPT-OSS 120B,同時輸出長度減少 20%,推理延遲降低 40%。以 Apache 2.0 授權開源。
Mistral AI 發布 Mistral Small 4,採用 128 專家混合架構(MoE),總參數 119B 但每次推理僅啟動 6B 參數。該模型在邏輯推理與程式碼生成基準測試中超越 GPT-OSS 120B,同時輸出長度減少 20%,推理延遲降低 40%。以 Apache 2.0 授權開源。
OpenAI 最新發布的 GPT-5 Mini 在多項推理基準測試中超越 GPT-4o,同時將推理成本降低 90%。本文從架構設計、蒸餾技術及評測方法三個維度,深度分析小型高效能推理模型的技術路線。
Google Research 發布 TurboQuant 壓縮演算法,能將大型語言模型的 KV 快取記憶體壓縮至 3 位元,實現最高 6 倍記憶體縮減與 8 倍速度提升,且不損失模型準確率。此研究成果將於 ICLR 2026 正式發表。