MiniMax M2.5 技術剖析：開源前沿模型如何以二十分之一成本挑戰 Claude Opus 4.6

MiniMax 於 2026 年 2 月發布的 M2.5 模型，經過一個多月的社群測試與生態發展，已確立其在開源前沿模型中的領先地位。該模型在程式碼生成、代理工具使用及搜尋任務上達到業界頂尖水準，同時以極低的推理成本顛覆了「頂級性能必須依賴昂貴閉源模型」的傳統認知。

基準測試深度分析

SWE-Bench Verified：80.2% 的軟體工程能力

M2.5 在 SWE-Bench Verified 基準測試中取得 80.2% 的成績，這意味著模型能夠自主解決真實 GitHub 專案中超過八成的軟體錯誤修復任務。SWE-Bench 要求模型理解完整的程式碼倉庫結構、定位問題根源、並生成可通過測試的修補程式碼，是目前最嚴格的程式碼代理能力評估框架之一。

更值得注意的是，M2.5 在 Multi-SWE-Bench 中達到 51.3%，該基準要求模型同時處理多個相互依賴的程式碼修改任務，模擬真實開發中的複雜重構場景。這一成績表明 M2.5 不僅能處理孤立的程式碼片段，更具備跨檔案、跨模組的系統性理解能力。

BrowseComp：76.3% 的網路搜尋與推理整合

在 BrowseComp 基準測試中，M2.5 取得 76.3% 的成績（配合上下文管理機制）。BrowseComp 評估模型在真實網路環境中搜尋資訊、理解網頁內容、並基於搜尋結果進行推理和回答的綜合能力。

76.3% 的分數意味著 M2.5 在代理式搜尋任務中的表現已接近最先進的閉源模型，這對於需要即時資訊存取的企業應用場景（如市場研究、競爭情報、客戶服務）具有重要意義。

架構與訓練方法論

強化學習驅動的能力提升

M2.5 的核心技術突破來自 Forge 訓練框架，這是 MiniMax 自研的強化學習（RL）擴展系統。傳統的大型語言模型訓練主要依賴監督學習（SFT）階段的人類偏好對齊，而 M2.5 則大幅增加了 RL 階段的計算投入，讓模型在代碼生成、工具使用、搜尋等實際任務上進行大規模的自我探索與優化。

Forge 框架的關鍵創新包括：

多環境並行訓練：模型在超過 20 萬個真實世界環境中同時進行強化學習
多語言代碼覆蓋：訓練涵蓋 Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、Ruby 等超過 10 種程式語言
動態任務難度調整：根據模型當前能力水平自動調節訓練任務的複雜度

模型規格與效能

M2.5 的上下文窗口為 196,600 Token，雖然不及 GPT-5.4 的百萬 Token 規模，但對於絕大多數實際應用場景已足夠充裕。模型提供兩個 API 版本：

M2.5 標準版：完整推理精度
M2.5-highspeed：相同結果品質但更快的回應速度

成本革命：每百萬 Token 僅 0.20 美元

M2.5 的 API 定價為每百萬輸入 Token 0.20 美元、每百萬輸出 Token 1.17 美元。以每秒 100 Token 的速率持續運行一小時，成本僅約 1 美元。

相比之下，Claude Opus 4.6 的 API 定價約為每百萬輸入 Token 15 美元、每百萬輸出 Token 75 美元。這意味著 M2.5 的輸入成本僅為 Claude Opus 4.6 的 1/75，輸出成本約為 1/64，VentureBeat 報導中「二十分之一」的估算實際上可能還保守了。

開源授權策略

M2.5 在 Hugging Face 上以修改版 MIT 授權開源，允許商業使用，但有一項要求：商業應用必須在使用者介面上「顯著標示 ‘MiniMax M2.5’」。這一策略在開放模型生態與品牌曝光之間取得了巧妙平衡。

對開源 AI 生態的影響

M2.5 的發布進一步縮小了開源與閉源模型之間的能力差距。在程式碼生成和代理任務這兩個被視為「閉源模型護城河」的領域，M2.5 證明了開源模型同樣能達到前沿水準。

這一趨勢對 AI 產業的影響深遠：

企業採購策略轉變：成本敏感型企業現在有了高性能的自部署選項
模型商品化加速：頂級推理能力不再是少數公司的獨家優勢
創新重心轉移：從單純的模型能力競賽，轉向應用層和工具鏈的差異化競爭

M2.5 的成功案例表明，2026 年的 AI 產業正在經歷一場深刻的結構性變化——開源模型不再只是「夠用的替代品」，而是越來越多場景下的最佳選擇。