MiniMax 於 2026 年 2 月發布的 M2.5 模型,經過一個多月的社群測試與生態發展,已確立其在開源前沿模型中的領先地位。該模型在程式碼生成、代理工具使用及搜尋任務上達到業界頂尖水準,同時以極低的推理成本顛覆了「頂級性能必須依賴昂貴閉源模型」的傳統認知。
基準測試深度分析
SWE-Bench Verified:80.2% 的軟體工程能力
M2.5 在 SWE-Bench Verified 基準測試中取得 80.2% 的成績,這意味著模型能夠自主解決真實 GitHub 專案中超過八成的軟體錯誤修復任務。SWE-Bench 要求模型理解完整的程式碼倉庫結構、定位問題根源、並生成可通過測試的修補程式碼,是目前最嚴格的程式碼代理能力評估框架之一。
更值得注意的是,M2.5 在 Multi-SWE-Bench 中達到 51.3%,該基準要求模型同時處理多個相互依賴的程式碼修改任務,模擬真實開發中的複雜重構場景。這一成績表明 M2.5 不僅能處理孤立的程式碼片段,更具備跨檔案、跨模組的系統性理解能力。
BrowseComp:76.3% 的網路搜尋與推理整合
在 BrowseComp 基準測試中,M2.5 取得 76.3% 的成績(配合上下文管理機制)。BrowseComp 評估模型在真實網路環境中搜尋資訊、理解網頁內容、並基於搜尋結果進行推理和回答的綜合能力。
76.3% 的分數意味著 M2.5 在代理式搜尋任務中的表現已接近最先進的閉源模型,這對於需要即時資訊存取的企業應用場景(如市場研究、競爭情報、客戶服務)具有重要意義。
架構與訓練方法論
強化學習驅動的能力提升
M2.5 的核心技術突破來自 Forge 訓練框架,這是 MiniMax 自研的強化學習(RL)擴展系統。傳統的大型語言模型訓練主要依賴監督學習(SFT)階段的人類偏好對齊,而 M2.5 則大幅增加了 RL 階段的計算投入,讓模型在代碼生成、工具使用、搜尋等實際任務上進行大規模的自我探索與優化。
Forge 框架的關鍵創新包括:
- 多環境並行訓練:模型在超過 20 萬個真實世界環境中同時進行強化學習
- 多語言代碼覆蓋:訓練涵蓋 Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、Ruby 等超過 10 種程式語言
- 動態任務難度調整:根據模型當前能力水平自動調節訓練任務的複雜度
模型規格與效能
M2.5 的上下文窗口為 196,600 Token,雖然不及 GPT-5.4 的百萬 Token 規模,但對於絕大多數實際應用場景已足夠充裕。模型提供兩個 API 版本:
- M2.5 標準版:完整推理精度
- M2.5-highspeed:相同結果品質但更快的回應速度
成本革命:每百萬 Token 僅 0.20 美元
M2.5 的 API 定價為每百萬輸入 Token 0.20 美元、每百萬輸出 Token 1.17 美元。以每秒 100 Token 的速率持續運行一小時,成本僅約 1 美元。
相比之下,Claude Opus 4.6 的 API 定價約為每百萬輸入 Token 15 美元、每百萬輸出 Token 75 美元。這意味著 M2.5 的輸入成本僅為 Claude Opus 4.6 的 1/75,輸出成本約為 1/64,VentureBeat 報導中「二十分之一」的估算實際上可能還保守了。
開源授權策略
M2.5 在 Hugging Face 上以修改版 MIT 授權開源,允許商業使用,但有一項要求:商業應用必須在使用者介面上「顯著標示 ‘MiniMax M2.5’」。這一策略在開放模型生態與品牌曝光之間取得了巧妙平衡。
對開源 AI 生態的影響
M2.5 的發布進一步縮小了開源與閉源模型之間的能力差距。在程式碼生成和代理任務這兩個被視為「閉源模型護城河」的領域,M2.5 證明了開源模型同樣能達到前沿水準。
這一趨勢對 AI 產業的影響深遠:
- 企業採購策略轉變:成本敏感型企業現在有了高性能的自部署選項
- 模型商品化加速:頂級推理能力不再是少數公司的獨家優勢
- 創新重心轉移:從單純的模型能力競賽,轉向應用層和工具鏈的差異化競爭
M2.5 的成功案例表明,2026 年的 AI 產業正在經歷一場深刻的結構性變化——開源模型不再只是「夠用的替代品」,而是越來越多場景下的最佳選擇。