Google Gemini 3.1 Pro 登頂全球最強 AI 模型:第三方評測全面超越競爭對手
ARC-AGI-2 躍升至 77.1%、Humanity's Last Exam 領先群雄,而定價僅為競爭對手的數分之一——Google 正在以性能與成本的雙重優勢重新定義 AI 競賽格局
ARC-AGI-2 躍升至 77.1%、Humanity's Last Exam 領先群雄,而定價僅為競爭對手的數分之一——Google 正在以性能與成本的雙重優勢重新定義 AI 競賽格局
2026 年 2 月 19 日,Google 正式發布了 Gemini 3.1 Pro,隨即在獨立第三方評測機構 Artificial Analysis 的綜合排名中登頂,成為當前世界上最強大的 AI 模型。這不僅是 Google 在 AI 領域的一次重大勝利,更標誌著持續了近兩年的前沿模型競賽進入了一個全新階段——一個性能與成本效益並重的時代。
從 ARC-AGI-2 的 77.1% 到 GPQA Diamond 的 94.3%,再到 SWE-Bench Verified 的 80.6%,Gemini 3.1 Pro 在幾乎所有主流基準測試中都取得了業界領先的成績。更令人矚目的是,這一切是在保持每百萬 token 輸入 $2、輸出 $12 的原有定價下實現的,遠低於 OpenAI 和 Anthropic 旗艦模型的收費標準。
要理解 Gemini 3.1 Pro 這次發布的重要性,我們需要逐一審視其在各項關鍵基準測試中的表現,以及這些數字對 AI 能力發展的實際意義。
ARC-AGI-2 是由 Keras 創始人 Francois Chollet 設計的第二代抽象推理測試,旨在評估 AI 系統是否具備真正的「流體智能」——即面對全新問題時,從少量範例中歸納規則並加以應用的能力。相比第一代 ARC-AGI,第二代測試的難度大幅提升,設計上更加強調人類認知中的核心推理能力。
Gemini 3.1 Pro 在 ARC-AGI-2 上取得 77.1% 的成績,相較於前代 Gemini 3.0 的 31.1% 提升了整整 46 個百分點。這一幅度在 AI 發展史上是罕見的——通常模型迭代帶來的改進幅度在 5-15 個百分點之間。這意味著 Google DeepMind 在模型架構或訓練方法上實現了根本性的突破,而非僅僅依靠擴大訓練規模。
GPQA Diamond(Graduate-Level Google-Proof Q&A)是一項專門設計用來測試 AI 在高階科學領域推理能力的基準。題目由各領域博士生和研究者出題,涵蓋物理學、化學、生物學等學科,且刻意設計為即使使用搜索引擎也難以直接找到答案。
Gemini 3.1 Pro 在此項測試中取得 94.3% 的正確率,這意味著該模型在面對需要深度專業知識和多步推理的科學問題時,已經達到甚至超越了大多數該領域研究者的水平。對於學術研究和科學發現而言,這一能力的實用價值不言而喻。
SWE-Bench Verified 測試的是 AI 解決真實開源軟件項目中的 bug 和功能需求的能力。與合成的編程題目不同,SWE-Bench 中的每個問題都來自真實的 GitHub issue,需要模型理解龐大的程式碼庫、定位問題根源、並生成可通過測試的修復方案。
80.6% 的成績意味著 Gemini 3.1 Pro 能夠獨立解決五分之四以上的真實軟件工程問題。對於軟件開發行業而言,這個數字的含義是深遠的:AI 不再只是輔助編碼的工具,而是正在成為能夠獨立承擔複雜工程任務的自主代理。
在所有基準測試中,Humanity's Last Exam(HLE)或許是最具象徵意義的一項。這項測試由全球頂尖學者共同設計,匯集了數學、物理、哲學、語言學等數十個學科中最具挑戰性的問題,被視為衡量 AI 系統「知識天花板」的終極指標。
Gemini 3.1 Pro 在 HLE 上取得 44.4% 的成績,明確超越了 Anthropic 的 Claude Opus 4.6(40.0%)和 OpenAI 的 GPT-5.2(34.5%)。雖然 44.4% 看起來並不算高,但考慮到 HLE 的題目難度極高,這一差距實際上代表著相當顯著的能力優勢。
| 基準測試 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | -- | -- |
| GPQA Diamond | 94.3% | ~89% | 93.2% |
| SWE-Bench Verified | 80.6% | ~72% | ~75% |
| Humanity's Last Exam | 44.4% | 40.0% | 34.5% |
| APEX-Agents | 33.5% | -- | -- |
值得特別關注的是 APEX-Agents 測試。這項相對較新的基準評估 AI 在自主代理任務中的表現,包括網頁導航、工具使用、多步驟規劃等真實場景。33.5% 的成績表面上看起來不高,但這項測試的設計難度極大,且是衡量 AI 從「對話助手」向「自主行動者」轉型的關鍵指標。
Gemini 3.1 Pro 最令產業界震撼的,或許不是其基準測試成績,而是其定價策略。在成為全球最強模型的同時,Google 選擇維持 $2/$12 每百萬 token 的原有定價不變。這一定價策略與競爭對手形成了鮮明對比。
| 模型 | 輸入價格(每百萬 token) | 輸出價格(每百萬 token) | 相對成本 |
|---|---|---|---|
| Gemini 3.1 Pro | $2 | $12 | 基準 |
| Claude Opus 4.6 | $15 | $75 | 輸入 7.5x / 輸出 6.25x |
| GPT-5.2 | $10 | $30 | 輸入 5x / 輸出 2.5x |
從上表可以清楚看到,Gemini 3.1 Pro 的輸入成本僅為 Claude Opus 4.6 的約七分之一,輸出成本則為約六分之一。即使與 GPT-5.2 相比,Gemini 3.1 Pro 的輸入成本也僅為五分之一,輸出成本為 2.5 分之一。對於需要大量 API 調用的企業應用來說,這意味著在獲得最強性能的同時,成本可以大幅下降。
「當全球最強的 AI 模型同時也是最便宜的選擇時,整個產業的競爭邏輯就被徹底改寫了。這不再是性能與成本之間的取捨,而是 Google 用規模經濟構築的競爭護城河。」
Gemini 3.1 Pro 的另一個戰略優勢在於其廣泛的可用性。Google 同步在多個平台和入口提供該模型的存取權限,形成了一個幾乎覆蓋所有使用場景的生態系統。
這種「全平台同步發布」的策略,意味著無論是獨立開發者、大型企業、還是普通消費者,都能在第一時間體驗到最新模型的能力。這與 OpenAI 和 Anthropic 通常先面向 API 用戶、再逐步擴展到消費者產品的做法形成了對比。
Gemini 3.1 Pro 的登頂並非孤立事件,而是 2026 年初 AI 產業格局劇變的集中體現。要理解其深層意義,我們需要回顧近期的競爭態勢。
2025 年底至 2026 年初,AI 三巨頭之間的領先地位幾乎每月輪換一次。OpenAI 在 2025 年 12 月發布 GPT-5.2 時一度佔據榜首;Anthropic 在 2026 年 2 月初以 Claude Opus 4.6 奪回領先;而現在,Google 又以 Gemini 3.1 Pro 重新登頂。這種快速的領先權輪換,揭示了幾個重要趨勢。
首先,各家的技術差距正在縮小。在 Humanity's Last Exam 這類頂級測試中,第一名(44.4%)與第二名(40.0%)之間的差距僅為 4.4 個百分點。這表明前沿模型之間的性能差異已經從「代際差距」縮小為「微調差距」。
其次,競爭維度正在從單純的性能比拼轉向成本效益、生態系統和應用場景的全面較量。Gemini 3.1 Pro 的成功,在很大程度上要歸功於其極具競爭力的定價和無處不在的部署渠道。
Google 之所以能夠在維持低價的同時推出最強模型,與其獨特的結構性優勢密不可分。作為全球最大的雲端基礎設施提供商之一,Google 擁有自研的 TPU(Tensor Processing Unit)晶片,在算力成本上具有天然優勢。此外,Google 龐大的搜索引擎數據和 YouTube 視頻數據為模型訓練提供了無可比擬的數據資源。
更重要的是,Google 的商業模式允許其將 AI 模型視為吸引開發者和企業進入 Google Cloud 生態的戰略工具,而非獨立的利潤中心。這與 OpenAI 和 Anthropic 作為獨立 AI 公司、需要依靠模型 API 收入來維持運營的商業模式形成了根本性差異。
Gemini 3.1 Pro 的發布對全球開發者社群帶來了多方面的直接影響。
對於正在建構 AI 應用的開發者而言,Gemini 3.1 Pro 的定價意味著他們可以在不增加預算的前提下,獲得顯著更強的模型能力。以一個每月消耗 1 億 output token 的中型應用為例,使用 Gemini 3.1 Pro 的月成本約為 $1,200,而使用 Claude Opus 4.6 則需要 $7,500,使用 GPT-5.2 則為 $3,000。在年度尺度上,這種差距將被放大到數萬甚至數十萬美元。
SWE-Bench 80.6% 的成績,結合 Gemini CLI 的命令列整合能力,使 Gemini 3.1 Pro 成為建構 AI 編碼代理的極具吸引力的選擇。開發者可以利用這一能力來建構自動化的程式碼審查、bug 修復和功能開發流水線,大幅提升軟件工程的生產效率。
APEX-Agents 33.5% 的成績雖然看似有限,但標誌著 AI 代理能力已經跨越了一個重要的實用門檻。這意味著基於 Gemini 3.1 Pro 建構的自主代理,已經能夠在受控環境中可靠地完成一定比例的複雜任務,為企業自動化提供了新的可能。
Gemini 3.1 Pro 的定價與性能組合,對企業的 AI 戰略規劃產生了顯著影響。
過去,企業選擇 AI 供應商時往往面臨「最強模型 = 最高成本」的困境。Gemini 3.1 Pro 打破了這一假設,使企業 CTO 和技術決策者需要重新審視現有的 AI 供應商合約。特別是對於已經在 Google Cloud 上運行工作負載的企業而言,切換到 Gemini 3.1 Pro 的遷移成本相對較低,潛在的成本節約卻極為可觀。
對於香港企業而言,Gemini 3.1 Pro 的發布帶來了特別的機遇。Google Cloud 在亞太地區擁有完善的基礎設施和合規框架,且 Vertex AI 支持數據不出區域的部署模式,這對於受監管行業(如金融服務和醫療健康)的企業尤為重要。
此外,隨著香港特區政府持續推動「智慧城市藍圖」和數碼轉型策略,Gemini 3.1 Pro 極具競爭力的定價,使中小企業也能以合理的成本導入前沿 AI 能力。對於香港蓬勃發展的金融科技生態系統而言,SWE-Bench 和 GPQA Diamond 的卓越表現,意味著 Gemini 3.1 Pro 在自動化金融分析、合規審查和量化研究等領域具有巨大潛力。
Gemini 3.1 Pro 的發布,無疑對 Anthropic 和 OpenAI 構成了雙重壓力。
對於 Anthropic 而言,Claude Opus 4.6 在性能基準上被超越僅在發布兩週之後。雖然 Anthropic 在企業安全性、Constitutional AI 和長上下文處理方面仍保持獨特的差異化優勢,但在「最強模型」的品牌認知上,Gemini 3.1 Pro 的登頂無疑構成了挑戰。更重要的是,Anthropic 作為獨立 AI 公司,其 $15/$75 的旗艦模型定價在 Gemini 的比價壓力下顯得愈發昂貴。
對於 OpenAI 而言,GPT-5.2 在 Humanity's Last Exam 中以 34.5% 排在第三位,與 Gemini 3.1 Pro 的 44.4% 存在近 10 個百分點的差距。這是 OpenAI 在近年來面臨的最大性能落後之一。業界預期 OpenAI 將加速其下一代模型的開發節奏,但在短期內,Gemini 3.1 Pro 的綜合領先地位似乎難以被快速撼動。
「AI 產業正在經歷一場從『性能至上』到『性價比為王』的範式轉移。Google 的資源優勢使其能夠同時在這兩個維度上領先,這對缺乏自有基礎設施的純 AI 公司構成了前所未有的結構性壓力。」
Google DeepMind 尚未公開 Gemini 3.1 Pro 的完整技術細節,但基於公開資訊和業界分析,我們可以推測幾個可能的突破方向。
ARC-AGI-2 從 31.1% 到 77.1% 的驚人躍升,暗示 Gemini 3.1 Pro 可能採用了某種混合推理架構,將傳統的大語言模型能力與更結構化的符號推理或程序合成方法相結合。這類混合方法在學術研究中已有理論基礎,但在商業模型中實現如此大幅的性能提升尚屬首次。
考慮到 Gemini 3.1 Pro 能在維持低價的同時提供頂尖性能,Google 可能在推理效率方面實現了顯著優化。這可能包括更智能的注意力機制、動態計算分配(根據問題難度自動調整推理深度)、或是利用 TPU 架構特性進行的硬件-軟件協同優化。
Google 在多模態 AI 領域的長期投入(包括圖像、視頻、音頻理解)可能為 Gemini 3.1 Pro 的文本推理能力帶來了「溢出效應」。多模態訓練可能幫助模型建立了更豐富的世界模型,從而在純文本推理任務中也表現更佳。
Gemini 3.1 Pro 的登頂,為 2026 年下半年的 AI 競賽設定了新的基準線。我們可以預期以下幾個發展方向。
首先,Anthropic 和 OpenAI 都將加速其下一代模型的開發。據業界消息,Anthropic 正在準備 Claude 5 系列,而 OpenAI 的下一代項目也在快速推進中。在 Gemini 3.1 Pro 的壓力下,這些模型的發布時間可能會進一步提前。
其次,定價戰將成為常態。Google 以「最強性能 + 最低價格」的組合打破了市場慣例,迫使其他供應商要麼跟進降價,要麼在差異化功能上構築足夠強的護城河。這對整個 AI 產業的商業模式將產生深遠影響。
最後,AI 代理(Agent)能力將成為下一輪競爭的核心賽道。Gemini 3.1 Pro 在 APEX-Agents 上的 33.5% 成績雖然領先,但距離真正可靠的自主操作仍有相當距離。首個將代理任務成功率提升至 50% 以上的模型,可能會在企業市場中獲得巨大的先行者優勢。