#推理效率

共 3 篇文章

模型發布2026年3月30日

Mistral Small 4 架構解析：128 專家 MoE 設計如何用 6B 活躍參數擊敗百億級模型

Mistral AI 發布 Mistral Small 4，採用 128 專家混合架構（MoE），總參數 119B 但每次推理僅啟動 6B 參數。該模型在邏輯推理與程式碼生成基準測試中超越 GPT-OSS 120B，同時輸出長度減少 20%，推理延遲降低 40%。以 Apache 2.0 授權開源。

#Mistral #MoE #開源模型

模型發布2026年3月30日

OpenAI GPT-5 Mini 推理能力深度解析：小模型如何在基準測試中超越前代旗艦

OpenAI 最新發布的 GPT-5 Mini 在多項推理基準測試中超越 GPT-4o，同時將推理成本降低 90%。本文從架構設計、蒸餾技術及評測方法三個維度，深度分析小型高效能推理模型的技術路線。

#OpenAI #GPT-5 #模型蒸餾

研究突破2026年3月25日

Google 推出 TurboQuant：LLM 記憶體壓縮 6 倍，零準確率損失

Google Research 發布 TurboQuant 壓縮演算法，能將大型語言模型的 KV 快取記憶體壓縮至 3 位元，實現最高 6 倍記憶體縮減與 8 倍速度提升，且不損失模型準確率。此研究成果將於 ICLR 2026 正式發表。

#Google #TurboQuant #LLM