OpenAI GPT-5.2 登場:首個突破 90% ARC-AGI 的 AI 模型
這是人工智能發展史上的重要里程碑,標誌著 AI 在抽象推理能力上取得突破性進展
2025 年 12 月 11 日,OpenAI 正式發布了其最新旗艦模型 GPT-5.2,這款模型在多項基準測試中創下歷史紀錄,其中最受矚目的是在 ARC-AGI-1 測試中首次突破 90% 的門檻。這項成就不僅代表了技術上的重大飛躍,更被業界視為邁向通用人工智能(AGI)的關鍵一步。
ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)是由 Keras 創始人 François Chollet 設計的基準測試,專門用於評估 AI 系統的抽象推理能力。與傳統的語言理解或知識問答測試不同,ARC-AGI 著重測試 AI 是否能夠像人類一樣,從少量範例中學習並推導出一般性規則。
長期以來,ARC-AGI 被視為 AI 領域最具挑戰性的測試之一。即使是最先進的大語言模型,在這項測試中的表現也遠遜於普通人類。一般成年人可以輕鬆達到 85% 以上的準確率,而此前的 AI 模型大多徘徊在 30-50% 之間。
根據 OpenAI 的技術文檔,GPT-5.2 在架構和訓練方法上進行了多項重要改進。雖然具體細節尚未完全公開,但從已知資訊可以推斷出幾個關鍵因素:
GPT-5.2 在處理複雜問題時,展現出更為細緻和系統性的思考過程。模型能夠將問題分解為多個子步驟,逐一解決後再整合答案。這種方法特別適合處理需要多步推理的 ARC 類型題目。
新模型在學習抽象概念方面有顯著提升。它能夠從具體範例中提取出更一般化的規則和模式,這正是 ARC-AGI 測試所要評估的核心能力。
400K tokens 的上下文窗口讓模型能夠在處理複雜任務時保持更多的相關資訊,這對於需要追蹤多個變數和條件的推理任務尤為重要。
GPT-5.2 的發布對整個 AI 產業產生了深遠影響。首先,它重新定義了「前沿 AI 模型」的標準。其他主要 AI 實驗室——包括 Google DeepMind、Anthropic 和 Meta——現在都面臨著追趕的壓力。
「GPT-5.2 在 ARC-AGI 上的表現,證明了大語言模型確實可以發展出真正的抽象推理能力,而不僅僅是模式匹配。這對於 AGI 研究的方向有重要的指導意義。」
對於企業用戶而言,GPT-5.2 的能力提升意味著更多複雜任務可以交由 AI 處理。從程式碼審查、科學研究到商業策略分析,這款模型展現出前所未有的專業水準。
伴隨 GPT-5.2 的發布,OpenAI 同時宣布了一項重大決策:將於 2026 年 2 月 13 日起逐步淘汰多款舊模型,包括 GPT-5(Instant 和 Thinking 版本)、GPT-4o、GPT-4.1 及 o4-mini。
OpenAI 表示,這項決定基於使用數據分析。目前大多數用戶已經轉向使用 GPT-5.2,仍在使用 GPT-4o 的用戶僅佔每日活躍用戶的 0.1% 左右。這反映出用戶對新模型能力的高度認可。
除了通用版本外,OpenAI 還推出了專為軟件工程設計的 GPT-5.2-Codex。這款模型被描述為「迄今最先進的代理式編碼模型」,專門針對複雜的實際軟件工程任務進行優化。
GPT-5.2-Codex 具備更強的網絡安全能力,能夠識別和避免潛在的安全漏洞。對於依賴 AI 輔助開發的企業來說,這是一個重要的安全保障。
業界消息指出,OpenAI 正在開發代號為「Garlic」的下一代項目。這個項目採用全新的模型架構,旨在創建一個更小但保留大型系統知識庫的模型。如果成功,這將大幅降低運算成本,同時提升響應速度。
有傳言稱 Garlic 可能以 GPT-5.5 或 GPT-6 的名義在 2026 年初發布,但 OpenAI 尚未確認這些消息。
對於香港和大中華區的用戶而言,GPT-5.2 的繁體中文和廣東話能力有了顯著提升。無論是商業文書、學術研究還是創意寫作,新模型都能提供更為自然和準確的中文輸出。
隨著香港政府積極推動 AI 產業發展,GPT-5.2 這類前沿模型的出現,為本地企業和研究機構提供了強大的工具支援。如何善用這些工具,將是香港在全球 AI 競賽中保持競爭力的關鍵。