AI 能力真的在指數增長嗎？ArXiv 重磅論文挑戰萬億美元投資敘事

一篇論文，動搖一個產業的根基

在 AI 產業中，有一條幾乎不容質疑的信條：AI 的能力正在指數級增長，而且這種增長將持續下去。這個信念支撐著 NVIDIA 超過兩萬億美元的市值、科技巨頭每年超過六千億美元的資本支出承諾、以及數以百計的 AI 初創公司動輒上百億美元的估值。整個 AI 投資敘事的根基，就是「明天的 AI 會比今天強得多，而後天的 AI 又會比明天強得多」這樣一個看似不可阻擋的趨勢。

2025 年 2 月，ArXiv 上出現了一篇題為 "Are AI Capabilities Increasing Exponentially?" 的論文（編號 2602.04836），以系統性的量化分析直接挑戰了這個假設。作者們並非 AI 懷疑論者——恰恰相反，他們對 AI 取得的巨大進步給予了充分肯定——但他們的數據講述了一個與主流敘事截然不同的故事：AI 的進步不是指數型的，而是呈 S 型曲線（sigmoid curve）推進的。每一波進步都有其天花板，而跨越天花板需要的不是更多資源，而是全新的突破。

「如果你只看起點和終點，AI 的進步確實令人驚嘆。但如果你看中間的軌跡，你會發現它不是一條平滑上揚的指數曲線，而是一段陡峭攀升後接一段逐漸走平的高原期——然後等待下一次突破來開啟新的攀升。」

MMLU 的啟示：當基準測試遇上天花板

論文的核心論證從 MMLU（Massive Multitask Language Understanding）這個被廣泛使用的 AI 基準測試開始。MMLU 涵蓋 57 個學科領域的選擇題，從大學水平的物理學到專業的醫學和法律知識，長期以來被視為衡量大型語言模型「通用智能」的黃金標準。

作者們追蹤了從 GPT-3 時代到 GPT-4o 時代各主流模型在 MMLU 上的表現軌跡，發現了一個清晰的模式：2022 年至 2023 年間，模型在 MMLU 上的得分經歷了急劇攀升，從 60% 左右飆升至接近 90%。但從 2024 年初開始，進步的速度顯著放緩。GPT-4、Claude 3 Opus、Gemini Ultra 等頂尖模型的得分都擁擠在 86% 至 90% 的狹窄區間內，彼此之間的差距微乎其微。

這正是 S 型曲線（sigmoid curve）的典型形態：初期緩慢起步，中期陡峭增長，後期逐漸趨平。在數學上，S 型曲線有一個漸近上界——一個永遠接近但永遠無法真正達到的理論極限。對於 MMLU 而言，這個極限似乎就在 90% 上下。不是因為模型不夠聰明，而是因為測試本身存在噪音（題目的歧義性、多個合理答案等），以及當前基於 Transformer 的架構在某些類型的推理上存在結構性局限。

                        S 曲線 vs 指數曲線：關鍵區別
                        指數曲線：增長率本身不斷加速，沒有天花板，持續向上無限延伸。這是 AI 產業向投資者推銷的故事。
S 曲線（Sigmoid）：增長先加速後減速，最終趨於飽和。新一輪增長需要全新的技術範式來啟動一條新的 S 曲線。
疊加的 S 曲線：論文的核心觀點——AI 的長期進步是多條 S 曲線的疊加，看起來像指數增長，但每一段之間都有「間隙」需要突破來填補。

                    

推理模型：第二條 S 曲線的崛起與隱憂

論文最引人注目的發現之一，是對推理模型（reasoning models）帶來的第二波進步的分析。2024 年 9 月，OpenAI 發布了 o1——第一個專門為多步推理設計的大型語言模型。o1 的出現改變了遊戲規則：在數學、編程、科學推理等需要深度思考的任務上，o1 及其後繼者（o3、DeepSeek-R1 等）展現出了遠超前代模型的能力。

作者們發現，推理模型的出現確實啟動了一條全新的 S 曲線。在 MMLU-Pro（MMLU 的升級版，題目更難、更注重推理能力）、GPQA（研究生水平科學問題）、MATH（數學推理）等更具挑戰性的基準測試上，推理模型帶來了顯著的得分躍升。這不是簡單的量變——o1 在某些數學和編程任務上的表現從 GPT-4 的 50-60% 直接跳到了 80-90%，這種跨越式進步只能用範式轉移來解釋。

然而——這個「然而」至關重要——論文同時指出，這條新的 S 曲線本身也已經開始顯現趨平的跡象。o3 相對於 o1 的進步幅度，明顯小於 o1 相對於 GPT-4 的進步幅度。在某些基準測試上，o3-mini 和 o3 之間的差距小到幾乎可以忽略不計。換言之，推理模型這條曲線雖然才剛開始不久，但增長斜率已經在下降。

「推理模型的出現是真正的突破，這一點毋庸置疑。但它帶來的是一條新的 S 曲線，而不是將原有曲線從 S 型變成指數型。問題的本質沒有改變——這條新曲線也會觸頂，而觸頂的速度可能比許多人預想的要快。」

Scaling Laws 的迷思：更大就是更好？

論文對 AI 產業另一個核心信念——scaling laws（規模定律）——提出了尖銳的質疑。自 2020 年 OpenAI 發表關於 scaling laws 的開創性論文以來，「只要模型更大、數據更多、算力更強，性能就會持續提升」幾乎成了 AI 研究的教條。這也是科技巨頭們敢於承諾天文數字資本支出的理論基礎——既然性能與規模之間存在冪律關係，那麼每多投入一倍的資源，就能獲得可預測的性能提升。

但作者們指出，scaling laws 描述的是在特定架構和訓練範式下，性能與計算量之間的關係。它們是技術事實，但不是自然法則。當一個架構或範式的潛力被充分挖掘後，繼續擴大規模帶來的邊際回報會急劇遞減。這就好比在一條已經趨平的 S 曲線上，你可以通過投入十倍的資源來獲得額外的 1-2% 改進，但這在經濟上是完全不可持續的。

從預訓練到推理計算的轉移

更值得關注的是，論文觀察到 AI 產業正在經歷一次隱性的策略轉向。傳統的 scaling laws 主要關注預訓練階段的計算量（即在海量數據上訓練模型的成本）。但推理模型的成功揭示了另一個維度：推理時計算（inference-time compute）的重要性。o1 等模型之所以能在複雜問題上表現出色，部分原因是它們在回答問題時花費了更多的計算資源來「思考」——生成內部的思維鏈（chain-of-thought），反覆驗證和修正自己的推理過程。

這種從「訓練時 scaling」到「推理時 scaling」的轉移，在一定程度上延緩了天花板的到來，但並沒有消除天花板的存在。推理時計算同樣遵循邊際遞減的規律——讓模型「多想一會兒」可以顯著提升簡單到中等難度問題的表現，但對於真正需要創造性洞見或深度領域知識的問題，僅僅增加思考時間幫助有限。

數千億美元的估值建立在什麼假設之上？

論文最具爆炸性的部分，是將其技術發現與 AI 產業的經濟現實相連結。

當前全球 AI 產業的估值——從 NVIDIA 的市值到 OpenAI 的 3,000 億美元估值，從 Anthropic 的 600 億美元估值到數千家 AI 初創公司的集體估值——建立在一個共同的隱含假設之上：AI 的能力將持續快速提升，而這種提升將帶來越來越多的商業應用場景和營收機會。

但如果進步的真實模式是 S 曲線而非指數曲線，那麼這個假設就存在根本性的風險。具體而言：

投資回收期被低估：如果 AI 進步在某個水平上趨平，那麼企業客戶實際願意付費的 AI 功能可能比預期更有限，這直接影響 AI 公司的營收預測。
基礎設施過度投資風險：科技巨頭們正在以假設需求會指數增長的速度建設 GPU 集群和數據中心。如果需求增長是 S 型的，大量基礎設施投資可能面臨閒置或折舊加速的風險。
護城河的脆弱性：在指數增長的環境中，領先者可以通過持續投入來擴大優勢。但在 S 曲線趨平的環境中，追趕者更容易接近領先者的水平——這解釋了為什麼 DeepSeek 等開源模型能在相對較短的時間內縮小與前沿閉源模型的差距。
突破的不確定性：如果持續進步需要不斷的範式突破，而非僅僅增加資源，那麼進步的時間表就變得根本不可預測——這與市場偏好的可預測增長敘事形成尖銳矛盾。

歷史的鏡鑒：摩爾定律的啟示

有趣的是，AI 進步的 S 曲線模式在技術史上並非孤例。論文的作者隱含地將其與摩爾定律（Moore's Law）進行了比較——而這個比較本身就極具啟發性。

摩爾定律預言晶片上的電晶體數量每兩年翻一倍，在表面上看似乎是一條完美的指數曲線，持續了超過半個世紀。但細究其歷史，你會發現摩爾定律的維持靠的不是單一技術的持續改進，而是一系列彼此接力的技術範式——從 NMOS 到 CMOS，從平面電晶體到 FinFET 再到 GAA（Gate-All-Around），從矽光刻到 EUV 光刻。每一代技術都有其物理極限，而整條曲線的延續取決於及時出現的下一代技術。

AI 的情況可能非常類似。從 RNN/LSTM 到 Transformer 是一次範式躍遷；從單純的預訓練到 RLHF 對齊是另一次；從標準生成到推理模型又是一次。每一次躍遷都開啟了一條新的 S 曲線，而多條 S 曲線的接力從遠處看起來像是指數增長。但關鍵問題在於：下一次躍遷何時到來？它將來自什麼方向？這些問題沒有人能提前給出確定的答案。

「第三條曲線」的候選者

如果我們接受論文的框架，那麼最緊迫的問題就是：下一條 S 曲線將由什麼技術突破來啟動？目前業界和學術界討論最多的候選者包括：

世界模型（World Models）：讓 AI 建立對物理世界和因果關係的內部理解，而非僅僅從文本中學習統計模式。Google DeepMind 的 Genie 和 Meta 的 V-JEPA 都在探索這個方向。
持續學習（Continual Learning）：突破當前模型訓練一次就固定的限制，使 AI 能像人類一樣持續從新經驗中學習。
混合架構（Hybrid Architectures）：結合 Transformer 與其他架構（如狀態空間模型 Mamba、神經符號系統）的優勢，克服單一架構的瓶頸。
具身智能（Embodied Intelligence）：將 AI 與物理世界的互動結合，通過機器人等物理載體獲取全新維度的學習信號。

這些方向中的任何一個如果取得突破性進展，都可能開啟新一輪的陡峭增長。但同樣重要的是，這些突破不是「投入足夠多的 GPU 就一定會出現」的——它們需要根本性的科學洞見和工程創新，而這些東西的時間表本質上是不可預測的。

對香港 AI 產業與投資的啟示

這篇論文的結論對香港的 AI 產業生態和投資市場具有直接的實際意義。

港股科技板塊的風險重估

恆生科技指數的成分股中，多家公司的估值隱含了 AI 能力持續快速提升的預期。騰訊的混元大模型、阿里的通義千問、百度的文心一言——這些公司在 AI 上的巨額投入，其回報預期很大程度上取決於 AI 能力的進步速度。如果 S 曲線模型更接近現實，那麼這些投入的回收期可能需要重新評估。

對於在港上市的中國 AI 概念股，風險評估尤為重要。許多公司的估值包含了「AI 將在未來兩到三年內徹底改變其業務模式」的樂觀預期。但如果當前這波推理模型的進步即將觸頂，而下一次突破的時間不確定，那麼這個「兩到三年」的時間表可能過於樂觀。

香港 AI 策略的務實調整

對於香港本地的 AI 採用策略，S 曲線模型反而傳遞了一個相對積極的信息：你不需要永遠追逐最新的前沿模型。如果進步會在某個水平上趨平，那麼當前一代的 AI 工具已經足夠強大，值得企業認真投入去整合和部署。

具體而言，香港的金融機構、法律事務所、物流企業和專業服務公司應該關注的不是「下一個 GPT 會有多強」，而是「如何用當前已有的 AI 能力來實際提升效率和創造價值」。這意味著投資重點應從追蹤最新模型轉向深度整合現有工具——建設內部 AI 基礎設施、培訓員工使用 AI 工具、重構業務流程以充分利用 AI 的現有能力。

對數碼港和科學園生態系統的建議

對於在數碼港和香港科學園孵化的 AI 初創公司，論文的啟示是：不要將商業模式建立在「未來的模型會解決當前模型解決不了的問題」這個假設之上。相反，應該聚焦於用當前的 AI 能力去解決真實的市場需求，用行業專有數據和深度領域知識建立護城河——這些護城河不會因為通用模型的進步而消失。

論文的局限性與反駁

任何一篇論文都不是真理的終結，對這篇引發激烈討論的研究也應保持批判性思維。

首先，基準測試本身的局限性可能扭曲了結論。MMLU 等基準測試是有限的、靜態的測試集，它們的「天花板效應」可能更多反映的是測試本身的局限，而非模型能力的真實上限。近年來不斷出現的新基準測試（GPQA、SWE-bench、ARC-AGI 等）正是為了克服老基準測試飽和的問題。

其次，論文主要關注的是基準測試得分，而真實世界的 AI 能力提升可能在基準測試上反映不充分。例如，AI 在程式碼生成、長文本理解、多模態推理等方面的進步，可能並未被論文所分析的基準測試完全捕捉。

第三，也是最根本的，S 曲線模型和指數模型在數學上的區別取決於觀察的時間尺度。如果技術突破的頻率足夠高，多條 S 曲線的疊加在實踐中就等同於指數增長。論文的關鍵假設是突破之間存在顯著的「間隙期」，但這個假設本身是否成立，需要更長的歷史數據來驗證。

「每一次有人宣稱 AI 進步即將見頂，都會有一個新的突破出現來打臉。但這並不意味著 S 曲線模型是錯的——它只是意味著我們還沒有耗盡可以發現的突破。問題是，我們是否正在接近那個點？」

結語：在確定性與不確定性之間投資

這篇 ArXiv 論文的真正價值，不在於它預言了 AI 進步的終結——事實上，作者明確表示他們對 AI 的長期前景持樂觀態度——而在於它揭示了一個被投資熱情所掩蓋的結構性真相：AI 的進步是離散的、依賴突破的、不可預測的，而非平滑的、資源驅動的、可外推的。

對於投資者而言，這意味著需要將 AI 投資從「指數增長必然持續」的盲目樂觀，轉向對每一次突破的實質意義和商業轉化能力的審慎評估。對於企業而言，這意味著 AI 策略應該錨定在當前已證明可行的能力之上，而非押注在尚未出現的未來能力之上。

在一個人人都在談論 AGI 何時到來的世界裡，這篇論文提醒我們一個更基本的問題：我們甚至還沒有搞清楚 AI 進步的基本數學模型。而在這個問題上的答案，可能價值數萬億美元。

                        本文要點總結
                        ArXiv 論文（2602.04836）以量化分析論證 AI 進步呈 S 曲線而非指數曲線，MMLU 等標準基準測試的得分在推理模型出現前已明顯觸頂趨平。
推理模型（以 2024 年 9 月 o1 為起點）開啟了第二條 S 曲線，帶來顯著的能力躍升，但這條新曲線本身也已顯現增長放緩的早期跡象。
單靠 scaling laws（增加模型規模和算力）無法維持持續進步，需要架構或範式層面的根本性創新——如世界模型、持續學習、混合架構等——來啟動新的增長曲線。
這對 AI 產業估值構成重大挑戰：數千億美元投資建立在指數增長的假設之上，若 S 曲線模型更準確，投資回收期和增長預期可能需要根本性重估。香港投資者和企業應務實聚焦當前 AI 能力的深度應用，而非押注尚未實現的未來突破。