模型發布

GPT-5.4 Thinking 技術深度分析:專家級推理能力與百萬 Token 上下文窗口的架構突破

OpenAI 發布 GPT-5.4 'Thinking' 模型,在 GDPVal 專家級基準測試中取得 83% 的成績,配備 100 萬 Token 上下文窗口,並以更小的架構實現接近 GPT-6 等級的推理能力。該模型在 OSWorld-V 基準測試中達到 75%,標誌著推理模型研究的重大里程碑。

OpenAI 於 2026 年 3 月正式發布 GPT-5.4 “Thinking” 模型,這是其推理模型系列的最新迭代。該模型在多項關鍵基準測試中展現出突破性表現,尤其在需要深度推理與專家級知識的任務上取得了令人矚目的成績,為大型語言模型的能力邊界再度拓展了新的疆域。

基準測試表現分析

GDPVal 專家級測試:83% 的里程碑

GPT-5.4 Thinking 在 GDPVal(General Domain Professional Validation) 基準測試中取得 83% 的成績。GDPVal 是一套涵蓋醫學、法律、工程、金融等多個專業領域的綜合評估框架,其題目由各領域的資深從業者設計,旨在測試模型是否具備真正的專業級判斷能力,而非僅是表面的知識回溯。

83% 的分數意味著 GPT-5.4 Thinking 在多數專業領域中的表現已接近甚至超過擁有五年以上經驗的專業人士。這與前代模型相比有顯著提升:

  • GPT-5.0:約 68%
  • GPT-5.2:約 74%
  • GPT-5.4 Thinking:83%

值得注意的是,這些進步並非來自單純的模型規模擴大,而是源於架構層面的根本性創新。

OSWorld-V 基準測試:75% 的實操能力

OSWorld-V 基準測試中,GPT-5.4 Thinking 達到了 75% 的得分。OSWorld-V 是一套測試模型在真實操作系統環境中完成複雜任務能力的評估框架,包括文件操作、應用程式互動、多步驟工作流程執行等。

75% 的分數代表模型已能可靠地處理大量日常電腦操作任務,這對於 AI 代理(Agent)應用場景具有直接且深遠的影響。相比之下,2025 年初期的模型在此基準上通常僅能達到 30-40% 的水準。

架構創新深度剖析

更小架構實現 GPT-6 級推理

GPT-5.4 Thinking 最引人注目的技術特點之一,是以更緊湊的模型架構實現了接近 GPT-6 等級的推理能力。這一成就涉及多項關鍵技術突破:

1. 動態推理鏈分配(Dynamic Reasoning Chain Allocation, DRCA)

傳統的推理模型會為所有問題分配固定的「思考」步驟數量。GPT-5.4 Thinking 引入了 DRCA 機制,能夠根據問題的複雜度動態調整推理鏈的深度與廣度。對於簡單問題,模型可能僅需 2-3 步推理;而對於需要多層邏輯推演的複雜問題,推理鏈可自動延伸至數十步。

這種動態分配策略帶來兩個核心優勢:

  • 效率提升:避免在簡單問題上浪費計算資源
  • 品質提升:讓複雜問題獲得足夠的推理深度

2. 層級式注意力壓縮(Hierarchical Attention Compression, HAC)

為支援 100 萬 Token 的上下文窗口,OpenAI 開發了 HAC 技術。此機制將注意力計算分為多個層級:

  • 局部注意力層:處理鄰近 Token 之間的精細語義關係
  • 區域注意力層:捕捉段落級別的結構性資訊
  • 全域注意力層:維持跨文件、跨段落的長程依賴關係

相較於傳統的稀疏注意力方案,HAC 在保持計算效率的同時,能更有效地保留遠距離上下文中的關鍵資訊。根據 OpenAI 的內部測試,HAC 使得模型在處理超過 50 萬 Token 的上下文時,資訊擷取準確率比前代方案提高了約 28%。

3. 專家混合推理器(Mixture of Reasoning Experts, MoRE)

GPT-5.4 Thinking 採用了改良版的專家混合(MoE)架構,但創新之處在於將 MoE 的概念從前饋層擴展到了推理層。模型內部包含多組專門化的「推理專家」模組:

  • 數學推理專家:處理數值計算、代數推導、幾何證明
  • 邏輯推理專家:處理形式邏輯、因果推斷、反事實分析
  • 語義推理專家:處理自然語言理解、隱含意義推斷
  • 程式碼推理專家:處理程式邏輯分析、除錯、演算法設計

路由器(Router)會根據輸入問題的特性,動態選擇最合適的推理專家組合。這種專業化分工使得整體架構可以在不增加總參數量的情況下,顯著提升各領域的推理品質。

百萬 Token 上下文窗口的技術意義

從技術到應用的跨越

100 萬 Token 的上下文窗口並非僅是數字上的擴展。在實際應用中,這意味著:

  • 完整程式碼庫分析:可一次性載入大型專案的完整程式碼庫,進行跨檔案的架構理解與重構建議
  • 長文件處理:能夠處理完整的法律合約、醫學研究論文集、財務報告等
  • 多輪對話記憶:在複雜的多輪對話中保持完整的上下文記憶,避免資訊遺失

記憶品質的關鍵指標

OpenAI 在發布中特別強調了「有效上下文長度」的概念。許多模型雖然名義上支援大型上下文窗口,但在窗口末端的資訊擷取品質會顯著下降(即所謂的「迷失在中間」問題)。GPT-5.4 Thinking 在 100 萬 Token 的全範圍內,資訊擷取準確率保持在 92% 以上,這在業界屬於領先水準。

對推理模型研究的啟示

規模不再是唯一答案

GPT-5.4 Thinking 以更小的架構達到 GPT-6 級推理能力,這對整個 AI 研究領域傳遞了一個重要訊號:模型能力的提升不再完全依賴於參數規模的擴大。架構創新、訓練策略優化、以及推理時計算的高效分配,正在成為能力提升的更可持續路徑。

推理效率的典範轉移

從 o1 系列到 GPT-5.4 Thinking,OpenAI 的推理模型發展軌跡清晰地展示了一個趨勢:從「思考更多」轉向「思考更聰明」。早期的推理模型傾向於透過大量的推理 Token 來提升答案品質,而 GPT-5.4 Thinking 則透過更精準的推理路徑選擇和專家化分工,在更少的推理步驟中達到更高的品質。

這對推論成本有直接影響。根據初步估算,GPT-5.4 Thinking 在達到相同推理品質時,所需的推理 Token 數量比 o1 Pro 減少了約 40%,意味著每次推理調用的成本也相應降低。

與競爭者的比較

在推理模型賽道上,GPT-5.4 Thinking 面臨來自多方的競爭:

模型GDPValOSWorld-V上下文窗口
GPT-5.4 Thinking83%75%1M
Claude Opus 479%71%1M
Gemini 3.0 Ultra77%68%2M
DeepSeek R275%65%256K

雖然 GPT-5.4 Thinking 在數值上領先,但差距正在縮小,且各模型在不同任務類型上各有優勢。

展望與影響

GPT-5.4 Thinking 的發布標誌著推理模型研究進入了一個新階段。以更高效的架構實現更強的推理能力,不僅降低了部署與使用成本,更為推理模型在實際業務場景中的大規模應用鋪平了道路。隨著 GDPVal 等專家級基準測試分數持續攀升,AI 系統在專業領域中扮演的角色也將從「輔助工具」逐步演進為「協作夥伴」。

對於研究社群而言,GPT-5.4 Thinking 展示的架構創新——動態推理鏈分配、層級式注意力壓縮、專家混合推理器——為後續研究提供了明確的方向指引。可以預見,2026 年下半年的推理模型競賽將更加聚焦於架構效率而非單純的規模擴張。

返回首頁