← 返回新聞列表

AI 能力真的在指數增長嗎?ArXiv 重磅論文挑戰萬億美元投資敘事

一篇來自 ArXiv 的量化研究(2602.04836)以冷硬數據拆解了業界最根深蒂固的信仰:AI 的進步從來不是一條平滑的指數曲線,而是由一連串 S 形曲線拼接而成。每一條曲線都會觸頂,而下一條曲線的出現取決於全新的範式突破——不是更多的算力,不是更大的模型,而是像「推理」這樣根本性的架構革新。

一篇論文,動搖一個產業的根基

在 AI 產業中,有一條幾乎不容質疑的信條:AI 的能力正在指數級增長,而且這種增長將持續下去。這個信念支撐著 NVIDIA 超過兩萬億美元的市值、科技巨頭每年超過六千億美元的資本支出承諾、以及數以百計的 AI 初創公司動輒上百億美元的估值。整個 AI 投資敘事的根基,就是「明天的 AI 會比今天強得多,而後天的 AI 又會比明天強得多」這樣一個看似不可阻擋的趨勢。

2025 年 2 月,ArXiv 上出現了一篇題為 "Are AI Capabilities Increasing Exponentially?" 的論文(編號 2602.04836),以系統性的量化分析直接挑戰了這個假設。作者們並非 AI 懷疑論者——恰恰相反,他們對 AI 取得的巨大進步給予了充分肯定——但他們的數據講述了一個與主流敘事截然不同的故事:AI 的進步不是指數型的,而是呈 S 型曲線(sigmoid curve)推進的。每一波進步都有其天花板,而跨越天花板需要的不是更多資源,而是全新的突破。

「如果你只看起點和終點,AI 的進步確實令人驚嘆。但如果你看中間的軌跡,你會發現它不是一條平滑上揚的指數曲線,而是一段陡峭攀升後接一段逐漸走平的高原期——然後等待下一次突破來開啟新的攀升。」

MMLU 的啟示:當基準測試遇上天花板

論文的核心論證從 MMLU(Massive Multitask Language Understanding)這個被廣泛使用的 AI 基準測試開始。MMLU 涵蓋 57 個學科領域的選擇題,從大學水平的物理學到專業的醫學和法律知識,長期以來被視為衡量大型語言模型「通用智能」的黃金標準。

作者們追蹤了從 GPT-3 時代到 GPT-4o 時代各主流模型在 MMLU 上的表現軌跡,發現了一個清晰的模式:2022 年至 2023 年間,模型在 MMLU 上的得分經歷了急劇攀升,從 60% 左右飆升至接近 90%。但從 2024 年初開始,進步的速度顯著放緩。GPT-4、Claude 3 Opus、Gemini Ultra 等頂尖模型的得分都擁擠在 86% 至 90% 的狹窄區間內,彼此之間的差距微乎其微。

這正是 S 型曲線(sigmoid curve)的典型形態:初期緩慢起步,中期陡峭增長,後期逐漸趨平。在數學上,S 型曲線有一個漸近上界——一個永遠接近但永遠無法真正達到的理論極限。對於 MMLU 而言,這個極限似乎就在 90% 上下。不是因為模型不夠聰明,而是因為測試本身存在噪音(題目的歧義性、多個合理答案等),以及當前基於 Transformer 的架構在某些類型的推理上存在結構性局限。

S 曲線 vs 指數曲線:關鍵區別

  • 指數曲線:增長率本身不斷加速,沒有天花板,持續向上無限延伸。這是 AI 產業向投資者推銷的故事。
  • S 曲線(Sigmoid):增長先加速後減速,最終趨於飽和。新一輪增長需要全新的技術範式來啟動一條新的 S 曲線。
  • 疊加的 S 曲線:論文的核心觀點——AI 的長期進步是多條 S 曲線的疊加,看起來像指數增長,但每一段之間都有「間隙」需要突破來填補。

推理模型:第二條 S 曲線的崛起與隱憂

論文最引人注目的發現之一,是對推理模型(reasoning models)帶來的第二波進步的分析。2024 年 9 月,OpenAI 發布了 o1——第一個專門為多步推理設計的大型語言模型。o1 的出現改變了遊戲規則:在數學、編程、科學推理等需要深度思考的任務上,o1 及其後繼者(o3、DeepSeek-R1 等)展現出了遠超前代模型的能力。

作者們發現,推理模型的出現確實啟動了一條全新的 S 曲線。在 MMLU-Pro(MMLU 的升級版,題目更難、更注重推理能力)、GPQA(研究生水平科學問題)、MATH(數學推理)等更具挑戰性的基準測試上,推理模型帶來了顯著的得分躍升。這不是簡單的量變——o1 在某些數學和編程任務上的表現從 GPT-4 的 50-60% 直接跳到了 80-90%,這種跨越式進步只能用範式轉移來解釋。

然而——這個「然而」至關重要——論文同時指出,這條新的 S 曲線本身也已經開始顯現趨平的跡象。o3 相對於 o1 的進步幅度,明顯小於 o1 相對於 GPT-4 的進步幅度。在某些基準測試上,o3-mini 和 o3 之間的差距小到幾乎可以忽略不計。換言之,推理模型這條曲線雖然才剛開始不久,但增長斜率已經在下降。

「推理模型的出現是真正的突破,這一點毋庸置疑。但它帶來的是一條新的 S 曲線,而不是將原有曲線從 S 型變成指數型。問題的本質沒有改變——這條新曲線也會觸頂,而觸頂的速度可能比許多人預想的要快。」

Scaling Laws 的迷思:更大就是更好?

論文對 AI 產業另一個核心信念——scaling laws(規模定律)——提出了尖銳的質疑。自 2020 年 OpenAI 發表關於 scaling laws 的開創性論文以來,「只要模型更大、數據更多、算力更強,性能就會持續提升」幾乎成了 AI 研究的教條。這也是科技巨頭們敢於承諾天文數字資本支出的理論基礎——既然性能與規模之間存在冪律關係,那麼每多投入一倍的資源,就能獲得可預測的性能提升。

但作者們指出,scaling laws 描述的是在特定架構和訓練範式下,性能與計算量之間的關係。它們是技術事實,但不是自然法則。當一個架構或範式的潛力被充分挖掘後,繼續擴大規模帶來的邊際回報會急劇遞減。這就好比在一條已經趨平的 S 曲線上,你可以通過投入十倍的資源來獲得額外的 1-2% 改進,但這在經濟上是完全不可持續的。

從預訓練到推理計算的轉移

更值得關注的是,論文觀察到 AI 產業正在經歷一次隱性的策略轉向。傳統的 scaling laws 主要關注預訓練階段的計算量(即在海量數據上訓練模型的成本)。但推理模型的成功揭示了另一個維度:推理時計算(inference-time compute)的重要性。o1 等模型之所以能在複雜問題上表現出色,部分原因是它們在回答問題時花費了更多的計算資源來「思考」——生成內部的思維鏈(chain-of-thought),反覆驗證和修正自己的推理過程。

這種從「訓練時 scaling」到「推理時 scaling」的轉移,在一定程度上延緩了天花板的到來,但並沒有消除天花板的存在。推理時計算同樣遵循邊際遞減的規律——讓模型「多想一會兒」可以顯著提升簡單到中等難度問題的表現,但對於真正需要創造性洞見或深度領域知識的問題,僅僅增加思考時間幫助有限。

數千億美元的估值建立在什麼假設之上?

論文最具爆炸性的部分,是將其技術發現與 AI 產業的經濟現實相連結。

當前全球 AI 產業的估值——從 NVIDIA 的市值到 OpenAI 的 3,000 億美元估值,從 Anthropic 的 600 億美元估值到數千家 AI 初創公司的集體估值——建立在一個共同的隱含假設之上:AI 的能力將持續快速提升,而這種提升將帶來越來越多的商業應用場景和營收機會。

但如果進步的真實模式是 S 曲線而非指數曲線,那麼這個假設就存在根本性的風險。具體而言:

  • 投資回收期被低估:如果 AI 進步在某個水平上趨平,那麼企業客戶實際願意付費的 AI 功能可能比預期更有限,這直接影響 AI 公司的營收預測。
  • 基礎設施過度投資風險:科技巨頭們正在以假設需求會指數增長的速度建設 GPU 集群和數據中心。如果需求增長是 S 型的,大量基礎設施投資可能面臨閒置或折舊加速的風險。
  • 護城河的脆弱性:在指數增長的環境中,領先者可以通過持續投入來擴大優勢。但在 S 曲線趨平的環境中,追趕者更容易接近領先者的水平——這解釋了為什麼 DeepSeek 等開源模型能在相對較短的時間內縮小與前沿閉源模型的差距。
  • 突破的不確定性:如果持續進步需要不斷的範式突破,而非僅僅增加資源,那麼進步的時間表就變得根本不可預測——這與市場偏好的可預測增長敘事形成尖銳矛盾。

歷史的鏡鑒:摩爾定律的啟示

有趣的是,AI 進步的 S 曲線模式在技術史上並非孤例。論文的作者隱含地將其與摩爾定律(Moore's Law)進行了比較——而這個比較本身就極具啟發性。

摩爾定律預言晶片上的電晶體數量每兩年翻一倍,在表面上看似乎是一條完美的指數曲線,持續了超過半個世紀。但細究其歷史,你會發現摩爾定律的維持靠的不是單一技術的持續改進,而是一系列彼此接力的技術範式——從 NMOS 到 CMOS,從平面電晶體到 FinFET 再到 GAA(Gate-All-Around),從矽光刻到 EUV 光刻。每一代技術都有其物理極限,而整條曲線的延續取決於及時出現的下一代技術。

AI 的情況可能非常類似。從 RNN/LSTM 到 Transformer 是一次範式躍遷;從單純的預訓練到 RLHF 對齊是另一次;從標準生成到推理模型又是一次。每一次躍遷都開啟了一條新的 S 曲線,而多條 S 曲線的接力從遠處看起來像是指數增長。但關鍵問題在於:下一次躍遷何時到來?它將來自什麼方向?這些問題沒有人能提前給出確定的答案。

「第三條曲線」的候選者

如果我們接受論文的框架,那麼最緊迫的問題就是:下一條 S 曲線將由什麼技術突破來啟動?目前業界和學術界討論最多的候選者包括:

  • 世界模型(World Models):讓 AI 建立對物理世界和因果關係的內部理解,而非僅僅從文本中學習統計模式。Google DeepMind 的 Genie 和 Meta 的 V-JEPA 都在探索這個方向。
  • 持續學習(Continual Learning):突破當前模型訓練一次就固定的限制,使 AI 能像人類一樣持續從新經驗中學習。
  • 混合架構(Hybrid Architectures):結合 Transformer 與其他架構(如狀態空間模型 Mamba、神經符號系統)的優勢,克服單一架構的瓶頸。
  • 具身智能(Embodied Intelligence):將 AI 與物理世界的互動結合,通過機器人等物理載體獲取全新維度的學習信號。

這些方向中的任何一個如果取得突破性進展,都可能開啟新一輪的陡峭增長。但同樣重要的是,這些突破不是「投入足夠多的 GPU 就一定會出現」的——它們需要根本性的科學洞見和工程創新,而這些東西的時間表本質上是不可預測的。

對香港 AI 產業與投資的啟示

這篇論文的結論對香港的 AI 產業生態和投資市場具有直接的實際意義。

港股科技板塊的風險重估

恆生科技指數的成分股中,多家公司的估值隱含了 AI 能力持續快速提升的預期。騰訊的混元大模型、阿里的通義千問、百度的文心一言——這些公司在 AI 上的巨額投入,其回報預期很大程度上取決於 AI 能力的進步速度。如果 S 曲線模型更接近現實,那麼這些投入的回收期可能需要重新評估。

對於在港上市的中國 AI 概念股,風險評估尤為重要。許多公司的估值包含了「AI 將在未來兩到三年內徹底改變其業務模式」的樂觀預期。但如果當前這波推理模型的進步即將觸頂,而下一次突破的時間不確定,那麼這個「兩到三年」的時間表可能過於樂觀。

香港 AI 策略的務實調整

對於香港本地的 AI 採用策略,S 曲線模型反而傳遞了一個相對積極的信息:你不需要永遠追逐最新的前沿模型。如果進步會在某個水平上趨平,那麼當前一代的 AI 工具已經足夠強大,值得企業認真投入去整合和部署。

具體而言,香港的金融機構、法律事務所、物流企業和專業服務公司應該關注的不是「下一個 GPT 會有多強」,而是「如何用當前已有的 AI 能力來實際提升效率和創造價值」。這意味著投資重點應從追蹤最新模型轉向深度整合現有工具——建設內部 AI 基礎設施、培訓員工使用 AI 工具、重構業務流程以充分利用 AI 的現有能力。

對數碼港和科學園生態系統的建議

對於在數碼港和香港科學園孵化的 AI 初創公司,論文的啟示是:不要將商業模式建立在「未來的模型會解決當前模型解決不了的問題」這個假設之上。相反,應該聚焦於用當前的 AI 能力去解決真實的市場需求,用行業專有數據和深度領域知識建立護城河——這些護城河不會因為通用模型的進步而消失。

論文的局限性與反駁

任何一篇論文都不是真理的終結,對這篇引發激烈討論的研究也應保持批判性思維。

首先,基準測試本身的局限性可能扭曲了結論。MMLU 等基準測試是有限的、靜態的測試集,它們的「天花板效應」可能更多反映的是測試本身的局限,而非模型能力的真實上限。近年來不斷出現的新基準測試(GPQA、SWE-bench、ARC-AGI 等)正是為了克服老基準測試飽和的問題。

其次,論文主要關注的是基準測試得分,而真實世界的 AI 能力提升可能在基準測試上反映不充分。例如,AI 在程式碼生成、長文本理解、多模態推理等方面的進步,可能並未被論文所分析的基準測試完全捕捉。

第三,也是最根本的,S 曲線模型和指數模型在數學上的區別取決於觀察的時間尺度。如果技術突破的頻率足夠高,多條 S 曲線的疊加在實踐中就等同於指數增長。論文的關鍵假設是突破之間存在顯著的「間隙期」,但這個假設本身是否成立,需要更長的歷史數據來驗證。

「每一次有人宣稱 AI 進步即將見頂,都會有一個新的突破出現來打臉。但這並不意味著 S 曲線模型是錯的——它只是意味著我們還沒有耗盡可以發現的突破。問題是,我們是否正在接近那個點?」

結語:在確定性與不確定性之間投資

這篇 ArXiv 論文的真正價值,不在於它預言了 AI 進步的終結——事實上,作者明確表示他們對 AI 的長期前景持樂觀態度——而在於它揭示了一個被投資熱情所掩蓋的結構性真相:AI 的進步是離散的、依賴突破的、不可預測的,而非平滑的、資源驅動的、可外推的。

對於投資者而言,這意味著需要將 AI 投資從「指數增長必然持續」的盲目樂觀,轉向對每一次突破的實質意義和商業轉化能力的審慎評估。對於企業而言,這意味著 AI 策略應該錨定在當前已證明可行的能力之上,而非押注在尚未出現的未來能力之上。

在一個人人都在談論 AGI 何時到來的世界裡,這篇論文提醒我們一個更基本的問題:我們甚至還沒有搞清楚 AI 進步的基本數學模型。而在這個問題上的答案,可能價值數萬億美元。

本文要點總結

  • ArXiv 論文(2602.04836)以量化分析論證 AI 進步呈 S 曲線而非指數曲線,MMLU 等標準基準測試的得分在推理模型出現前已明顯觸頂趨平。
  • 推理模型(以 2024 年 9 月 o1 為起點)開啟了第二條 S 曲線,帶來顯著的能力躍升,但這條新曲線本身也已顯現增長放緩的早期跡象。
  • 單靠 scaling laws(增加模型規模和算力)無法維持持續進步,需要架構或範式層面的根本性創新——如世界模型、持續學習、混合架構等——來啟動新的增長曲線。
  • 這對 AI 產業估值構成重大挑戰:數千億美元投資建立在指數增長的假設之上,若 S 曲線模型更準確,投資回收期和增長預期可能需要根本性重估。香港投資者和企業應務實聚焦當前 AI 能力的深度應用,而非押注尚未實現的未來突破。