Mistral AI 於近日正式發布 Mistral Small 4,這款模型是開源 AI 領域近期最值得關注的發布之一:以 Apache 2.0 授權完全開放,將三個此前獨立產品的能力整合為一,並帶來顯著的效能與成本提升。
技術規格
架構:混合專家(Mixture of Experts, MoE)
- 總參數量:1190 億(119B)
- 每次推理啟動專家數:128 個專家中啟動 4 個,實際活躍參數約 6B
- 硬件需求:可在 4 張 H100 或 2 張 H200 GPU 上完整部署
- 授權:Apache 2.0(可商用,無需申請)
這種架構意味著 Mistral Small 4 在推理時的計算成本接近 60 億參數的小型模型,但在訓練時汲取了 1190 億參數的知識廣度——兼顧「聰明」與「快速」。
三合一能力整合
Mistral Small 4 取代了 Mistral 此前三款獨立產品:
| 整合前 | 能力 | 整合後 |
|---|---|---|
| Magistral | 深度推理 | Mistral Small 4 |
| Pixtral | 視覺語言理解 | Mistral Small 4 |
| Devstral | 代理程式碼生成 | Mistral Small 4 |
對企業用戶而言,這意味著不再需要為不同任務維護三套獨立的模型部署——一個端點、一套基礎設施,即可處理所有工作流。
關鍵創新:可調節推理強度
Mistral Small 4 引入 reasoning_effort 參數,開發者可按請求動態調整推理深度:
- 低強度:類似標準 LLM 回應,延遲低、速度快,適合簡單問答
- 高強度:啟動完整鏈式思考(Chain-of-Thought),適合複雜推理任務
這一設計消除了「為不同場景維護快速模型與推理模型兩套部署」的運維成本,是 Mistral 面向生產環境的重要工程創新。
性能提升
- 相比前代,延遲降低 40%
- 每秒處理吞吐量提升 3 倍
- 在程式碼生成基準 HumanEval+ 中達到接近 GPT-5.4 Mini 的表現
生態整合
模型權重已上傳至 Hugging Face,並已支援以下主流推理框架:
- vLLM、SGLang、llama.cpp、Transformers
此外,Mistral 同步宣布加入 NVIDIA Nemotron Coalition,雙方將共同在 DGX Cloud 上開發 Nemotron 4 系列基礎模型。
Mistral Small 4 的發布再次驗證了歐洲 AI 公司在開源賽道上的持續競爭力,也為需要自主部署、不依賴閉源 API 的企業提供了一個強力的選擇。