MiniMax M2.5:中國開源模型以二十分之一成本匹敵 Claude Opus 4.6
230B MoE 架構、SWE-Bench Verified 80.2%、推理成本僅為同類閉源模型的 5%——開源 AI 正以前所未有的速度瓦解閉源模型的商業護城河
230B MoE 架構、SWE-Bench Verified 80.2%、推理成本僅為同類閉源模型的 5%——開源 AI 正以前所未有的速度瓦解閉源模型的商業護城河
2026 年 2 月 12 日,中國 AI 初創公司 MiniMax 正式發布了其最新旗艦模型 M2.5。這款總參數量達 2,300 億(230B)的混合專家模型(Mixture of Experts, MoE),在軟體工程基準測試 SWE-Bench Verified 上取得了 80.2% 的得分,與 Anthropic 僅在一週前發布的旗艦閉源模型 Claude Opus 4.6 打成平手。然而,M2.5 的推理成本僅為同類閉源模型的二十分之一,且以開源形式向全球開發者免費開放。
這一消息在 AI 社群中引發了巨大的反響。M2.5 的發布不僅是 MiniMax 的一次技術突破,更是開源 AI 運動在 2026 年初向閉源商業模式發起的又一次強有力的挑戰。當一個免費的開源模型能在最受關注的編碼基準上匹敵最昂貴的閉源模型時,這個行業的定價邏輯和競爭格局勢必面臨深刻的重構。
M2.5 採用了 230B 總參數的 MoE 架構,其中每次推理僅激活約 100 億(10B)參數。這意味着模型在保有 2,300 億參數所蘊含的豐富知識和能力的同時,每次推理所需的計算量僅相當於一個 10B 參數的稠密模型。這一架構選擇是 M2.5 能夠以極低成本實現前沿性能的核心技術基礎。
MoE 架構並非新概念,但在 2026 年它已從一種技術選項演變為前沿開源模型的事實標準。目前全球排名前十的最強開源模型無一例外全部採用了 MoE 架構。這一趨勢的背後有着深刻的技術和經濟邏輯。
稠密模型(Dense Model)的根本限制在於:模型中的每一個參數在每次推理時都會被激活。這意味着,要提升模型的知識容量和推理能力,就必須增加參數規模,而參數規模的增加會直接、線性地推高推理成本。對於閉源的商業模型而言,這一成本可以通過 API 定價轉嫁給用戶;但對於追求低成本部署的開源社群而言,稠密模型的推理成本已成為性能提升的主要瓶頸。
MoE 架構從根本上解耦了「知識容量」與「推理成本」之間的線性關係。通過只激活與當前輸入最相關的一小部分專家網絡(expert),MoE 模型可以在保持大量知識儲備的同時,將每次推理的實際計算成本控制在一個遠低於總參數規模所暗示的水平上。以 M2.5 為例,其 230B 總參數帶來了與頂級閉源模型匹敵的能力深度,而 10B 的活躍參數則使其推理成本回落到中型模型的水平。
這正是為什麼 MoE 在開源社群中迅速佔據主導地位。當模型的權重向所有人開放時,推理效率成為用戶是否願意部署和使用這個模型的決定性因素。一個性能再強但推理成本高昂的開源模型,其實際影響力遠不如一個性能稍遜但人人都能跑得起來的模型。MoE 架構讓開源模型在不犧牲能力的前提下,實現了普通開發者和中小企業可以承受的推理成本。
M2.5 的另一個值得關注的技術維度是其訓練方法論。MiniMax 在訓練 M2.5 時使用了其自主研發的強化學習框架「Forge」和 CISPO 訓練算法。雖然 MiniMax 尚未公開這兩項技術的完整技術細節,但從已披露的信息和 M2.5 在各項基準上的表現來看,Forge 和 CISPO 在將強化學習(RL)應用於大型語言模型訓練方面取得了顯著的突破。
強化學習在大型語言模型訓練中的應用,一直是 2025 至 2026 年最受關注的研究方向之一。從 OpenAI 的 RLHF(Reinforcement Learning from Human Feedback)到 DeepSeek 率先在 R1 模型中展示的大規模 RL 訓練效果,業界已經認識到,RL 不僅可以用來對齊模型行為,更可以顯著提升模型在特定任務上的推理和問題解決能力。
MiniMax 的 CISPO 算法似乎在這一方向上走得更遠。「CISPO」這一名稱暗示它可能是某種形式的受約束策略優化算法(Constrained Policy Optimization)的變體,在標準的 RL 訓練流程中引入了額外的約束條件,以確保模型在提升目標任務性能的同時,不會在其他維度上出現退化。M2.5 在 SWE-Bench Verified 上取得的 80.2% 得分——這一基準測試要求模型能夠理解、修改和測試真實世界的軟體代碼庫——表明 CISPO 在提升模型複雜推理能力方面確實卓有成效。
「當一個開源模型能夠在 SWE-Bench Verified 上達到 80.2%,這意味着它可以獨立解決大多數真實世界的軟體工程問題。這不再是基準測試上的數字遊戲,而是具有直接生產力價值的能力。」
值得注意的是,MiniMax 透露其總部目前已有約 30% 的日常工作任務由基於 M2.5 的 AI 代理完成。這一數據比任何基準測試分數都更具說服力——它表明 M2.5 的能力已經通過了最嚴格的「生產環境」考驗,在 MiniMax 自身的業務運營中證明了其實用價值。
M2.5 的發布標誌着開源與閉源模型之間能力差距的進一步收窄。回顧過去兩年的發展軌跡,這一趨勢的加速令人驚嘆。
2024 年初,開源模型與頂級閉源模型之間在主要基準測試上仍存在 15 至 20 個百分點的差距。到 2025 年中期,DeepSeek V3 和 Qwen 2.5 等模型將這一差距縮小到了 5 至 10 個百分點。而到了 2026 年 2 月,M2.5 在 SWE-Bench Verified 上的 80.2% 已經與 Claude Opus 4.6 完全持平——差距歸零。
更值得關注的是,M2.5 並非孤例。幾乎在同一時期,多個開源模型都在不同維度上逼近甚至達到了閉源模型的水平。阿里巴巴的 Qwen 3.5 以開放權重的形式發布,在多項基準上展現出與頂級閉源模型相當的實力,同時大幅擾亂了行業定價格局。階躍星辰(Step AI)的 Step 3.5 Flash 僅有 110 億活躍參數,卻以 Apache 2.0 開源許可證發布,在多項任務上達到了前沿級別的性能。
這些案例共同構成了一幅清晰的圖景:開源 AI 正在經歷一場質的飛躍。曾經被認為是閉源模型專屬優勢的「頂級性能」,如今已經被開源社群成功複製。開源模型不再只是「夠用的替代品」,而是正在成為「同等能力的免費選項」。
M2.5 的推理成本僅為同類閉源模型的二十分之一。這一數字對閉源 AI 公司的商業模式構成了直接的威脅。
閉源 AI 公司的核心商業邏輯建立在一個假設之上:前沿模型性能是稀缺資源,用戶願意為此支付溢價。OpenAI、Anthropic 和 Google 等公司通過 API 調用計費的方式,將數十億美元的模型訓練成本轉化為持續的收入流。這一模式在閉源模型擁有明顯性能優勢時是可持續的——企業願意支付更高的 API 費用,以獲取開源替代品無法提供的能力。
然而,當開源模型在性能上追平閉源模型,同時推理成本低二十倍時,這一定價邏輯就面臨了根本性的挑戰。企業用戶不禁要問:為什麼要為一個 API 調用支付二十倍的價格,去獲得一個在基準測試上並無優勢的閉源模型的服務?
當然,閉源模型公司仍然擁有一些開源模型難以複製的優勢。穩定的服務保障、企業級的技術支援、更新迭代的速度、以及對模型行為更精細的控制——這些都是企業客戶在選擇 AI 供應商時會考慮的因素。但在一個開源替代品性能追平、成本卻低二十倍的世界裏,這些附加價值能夠支撐多大的價格溢價,是一個值得深思的問題。
共同點:全部採用 MoE 架構,全部開源或開放權重
事實上,定價壓力已經開始顯現。阿里巴巴 Qwen 3.5 的發布伴隨着極具攻擊性的定價策略,直接衝擊了中國國內 AI API 市場的價格體系。多家 AI 公司被迫跟進降價。在國際市場上,OpenAI、Anthropic 和 Google 雖然尚未直接對開源模型的定價壓力做出回應,但其近期推出的各種打折計劃和階梯定價,或多或少反映出市場競爭態勢的變化。
MiniMax 成立於 2021 年,由前商湯科技技術副總裁閆俊杰創辦,總部位於上海。公司在相對較短的時間內從一家專注於內容生成的 AI 初創公司,發展成為中國前沿 AI 模型的重要玩家。M2.5 的發布使其一舉躍入全球開源模型的第一梯隊。
資本市場對 M2.5 的反應極為積極。MiniMax 在香港交易所上市的股票在消息發布後飆升 15%,反映出投資者對這家公司技術實力和商業前景的強烈信心。這一股價表現也從側面印證了一個更深層的市場判斷:在 AI 行業中,技術能力的突破——尤其是以低成本實現前沿性能的能力——仍然是最強的價值驅動因素。
MiniMax 的成功也為香港作為 AI 公司上市目的地增添了新的光環。隨着越來越多的中國 AI 初創公司選擇在港交所上市,香港正逐步建立起 AI 科技股的聚集效應,為本地投資者提供了直接參與中國 AI 產業增長的渠道。
M2.5 的發布是開源 AI 革命的又一個標誌性事件,但要理解這場革命的深層邏輯,需要超越單一模型的框架。
開源 AI 之所以能夠以如此驚人的速度追趕閉源模型,根本原因在於大型語言模型的核心技術——Transformer 架構、注意力機制、RLHF 訓練方法——已經不再是秘密。這些技術通過學術論文、開源代碼和人才流動,在全球研究社群中廣泛傳播。閉源公司真正的「護城河」——如果還存在的話——已經從「獨家技術」轉變為「規模化執行能力」和「數據優勢」。
然而,MoE 架構的普及正在侵蝕「規模化執行能力」這一護城河。MoE 使得中等規模的計算資源即可訓練出前沿性能的模型,從而降低了「有能力訓練頂級模型」的門檻。而在數據方面,合成數據技術的進步和互聯網公開數據的充裕性,也在削弱閉源公司在訓練數據上的壟斷優勢。
更為關鍵的是,開源模型享有一個閉源模型無法複製的結構性優勢:社群效應。當一個高質量的模型以開源形式發布後,全球數以萬計的研究者和開發者會對其進行測試、微調、優化和擴展。這種分佈式的集體智慧所產生的改進速度和覆蓋廣度,是任何單一公司的內部團隊都無法匹敵的。DeepSeek 模型在開源後衍生出的數千個微調版本,就是這一社群效應的生動例證。
「閉源模型的護城河正在從技術壁壘轉向服務壁壘。當開源模型在性能上追平閉源模型時,閉源公司的價值主張必須從『我的模型更強』轉變為『我的服務更好』。這是一個根本性的商業模式轉型。」
M2.5 及其同期開源模型的崛起,將對商業 AI 市場產生多層面的深遠影響。
最直接的影響是閉源模型 API 定價將面臨持續的下行壓力。當企業可以以二十分之一的成本自行部署一個性能相當的開源模型時,閉源 API 的高溢價就變得越來越難以維持。這並不意味着閉源 API 服務會消失——便利性、穩定性和技術支援仍然有其價值——但定價水平勢必會逐步向開源模型的成本水平靠攏。
開源模型的普及將推動 AI 基礎設施服務市場的快速增長。企業需要在自己的環境中部署、運行和管理開源模型,這催生了對模型託管、推理優化、微調服務、安全審計等基礎設施能力的巨大需求。提供這些服務的公司——而非模型本身的開發者——可能成為開源 AI 生態中的主要商業受益者。
當前沿模型的使用成本降低到原來的二十分之一時,許多此前因成本過高而無法實施的 AI 應用場景將變得經濟可行。中小企業、教育機構、非營利組織、新興市場的初創公司——這些此前被高昂 API 費用擋在門外的用戶群體,將成為開源前沿模型的最大受益者。AI 應用的普及速度和覆蓋範圍都將因此顯著擴大。
面對開源模型的追趕,閉源 AI 公司將被迫加速其戰略轉型。可能的方向包括:向上游轉型為 AI 研究實驗室、向下游發展為垂直行業解決方案提供商、建構以模型為核心的平台生態、或者轉向開源模型無法輕易覆蓋的高安全性企業市場。Anthropic 與高盛的深度合作、OpenAI 對 ChatGPT 消費產品的投資,都可以被視為閉源公司在尋找新護城河的嘗試。
MiniMax M2.5 的發布及更廣泛的開源 AI 趨勢,為香港的 AI 生態帶來了多重機遇。
首先,開源前沿模型的可獲取性大幅降低了香港初創企業的 AI 開發門檻。過去,香港的科技公司如果要在產品中整合前沿 AI 能力,往往需要支付高昂的 API 費用或投入大量資源進行模型訓練。現在,M2.5、Qwen 3.5、Step 3.5 Flash 等開源模型提供了免費且性能頂尖的替代方案,使得更多的本地創業者能夠以極低的成本構建具有競爭力的 AI 應用。
其次,MiniMax 股票在港交所的強勁表現,進一步鞏固了香港作為中國 AI 公司上市首選地的地位。隨着更多中國 AI 初創公司走向公開市場,香港的金融服務業——包括投行、律所、會計師事務所和資產管理公司——將從中獲得顯著的業務增長機會。
第三,香港的大學和研究機構可以利用這些頂級開源模型加速 AI 研究和人才培養。當全球最強的 AI 模型以開源形式免費提供時,研究能力的差異化將越來越取決於應用創新和領域知識,而非計算資源的多寡——這恰好是香港在醫療、金融、法律等專業領域所擁有的優勢。