OpenAI GPT-5.2 登場：首個突破 90% ARC-AGI 的 AI 模型

2025 年 12 月 11 日，OpenAI 正式發布了其最新旗艦模型 GPT-5.2，這款模型在多項基準測試中創下歷史紀錄，其中最受矚目的是在 ARC-AGI-1 測試中首次突破 90% 的門檻。這項成就不僅代表了技術上的重大飛躍，更被業界視為邁向通用人工智能（AGI）的關鍵一步。

什麼是 ARC-AGI？為何如此重要？

ARC-AGI（Abstraction and Reasoning Corpus for Artificial General Intelligence）是由 Keras 創始人 François Chollet 設計的基準測試，專門用於評估 AI 系統的抽象推理能力。與傳統的語言理解或知識問答測試不同，ARC-AGI 著重測試 AI 是否能夠像人類一樣，從少量範例中學習並推導出一般性規則。

長期以來，ARC-AGI 被視為 AI 領域最具挑戰性的測試之一。即使是最先進的大語言模型，在這項測試中的表現也遠遜於普通人類。一般成年人可以輕鬆達到 85% 以上的準確率，而此前的 AI 模型大多徘徊在 30-50% 之間。

                        GPT-5.2 關鍵性能指標
                        ARC-AGI-1：突破 90%，創歷史新高
GPQA Diamond：93.2%
AIME 2025：100%（滿分）
FrontierMath：40.3%
上下文窗口：400K tokens
知識截止日期：2025 年 8 月

                    

技術突破：GPT-5.2 如何實現飛躍

根據 OpenAI 的技術文檔，GPT-5.2 在架構和訓練方法上進行了多項重要改進。雖然具體細節尚未完全公開，但從已知資訊可以推斷出幾個關鍵因素：

強化的推理鏈（Chain-of-Thought）能力

GPT-5.2 在處理複雜問題時，展現出更為細緻和系統性的思考過程。模型能夠將問題分解為多個子步驟，逐一解決後再整合答案。這種方法特別適合處理需要多步推理的 ARC 類型題目。

改進的抽象表徵學習

新模型在學習抽象概念方面有顯著提升。它能夠從具體範例中提取出更一般化的規則和模式，這正是 ARC-AGI 測試所要評估的核心能力。

更大的上下文窗口

400K tokens 的上下文窗口讓模型能夠在處理複雜任務時保持更多的相關資訊，這對於需要追蹤多個變數和條件的推理任務尤為重要。

產業影響：AI 能力的新標準

GPT-5.2 的發布對整個 AI 產業產生了深遠影響。首先，它重新定義了「前沿 AI 模型」的標準。其他主要 AI 實驗室——包括 Google DeepMind、Anthropic 和 Meta——現在都面臨著追趕的壓力。

「GPT-5.2 在 ARC-AGI 上的表現，證明了大語言模型確實可以發展出真正的抽象推理能力，而不僅僅是模式匹配。這對於 AGI 研究的方向有重要的指導意義。」

對於企業用戶而言，GPT-5.2 的能力提升意味著更多複雜任務可以交由 AI 處理。從程式碼審查、科學研究到商業策略分析，這款模型展現出前所未有的專業水準。

模型更新策略：告別舊時代

伴隨 GPT-5.2 的發布，OpenAI 同時宣布了一項重大決策：將於 2026 年 2 月 13 日起逐步淘汰多款舊模型，包括 GPT-5（Instant 和 Thinking 版本）、GPT-4o、GPT-4.1 及 o4-mini。

OpenAI 表示，這項決定基於使用數據分析。目前大多數用戶已經轉向使用 GPT-5.2，仍在使用 GPT-4o 的用戶僅佔每日活躍用戶的 0.1% 左右。這反映出用戶對新模型能力的高度認可。

專業編碼版本：GPT-5.2-Codex

除了通用版本外，OpenAI 還推出了專為軟件工程設計的 GPT-5.2-Codex。這款模型被描述為「迄今最先進的代理式編碼模型」，專門針對複雜的實際軟件工程任務進行優化。

GPT-5.2-Codex 具備更強的網絡安全能力，能夠識別和避免潛在的安全漏洞。對於依賴 AI 輔助開發的企業來說，這是一個重要的安全保障。

展望未來：Project Garlic

業界消息指出，OpenAI 正在開發代號為「Garlic」的下一代項目。這個項目採用全新的模型架構，旨在創建一個更小但保留大型系統知識庫的模型。如果成功，這將大幅降低運算成本，同時提升響應速度。

有傳言稱 Garlic 可能以 GPT-5.5 或 GPT-6 的名義在 2026 年初發布，但 OpenAI 尚未確認這些消息。

對香港及大中華區的意義

對於香港和大中華區的用戶而言，GPT-5.2 的繁體中文和廣東話能力有了顯著提升。無論是商業文書、學術研究還是創意寫作，新模型都能提供更為自然和準確的中文輸出。

隨著香港政府積極推動 AI 產業發展，GPT-5.2 這類前沿模型的出現，為本地企業和研究機構提供了強大的工具支援。如何善用這些工具，將是香港在全球 AI 競賽中保持競爭力的關鍵。

                        本文要點總結
                        GPT-5.2 成為首個在 ARC-AGI 測試中突破 90% 的 AI 模型
新模型在推理、數學和編程等多個領域都創下新紀錄
OpenAI 將淘汰包括 GPT-4o 在內的多款舊模型
專業編碼版本 GPT-5.2-Codex 同步推出
下一代項目 Garlic 正在開發中