AI 能力真的在指數增長嗎?ArXiv 重磅論文挑戰萬億美元投資敘事
一篇來自 ArXiv 的量化研究(2602.04836)以冷硬數據拆解了業界最根深蒂固的信仰:AI 的進步從來不是一條平滑的指數曲線,而是由一連串 S 形曲線拼接而成。每一條曲線都會觸頂,而下一條曲線的出現取決於全新的範式突破——不是更多的算力,不是更大的模型,而是像「推理」這樣根本性的架構革新。
一篇來自 ArXiv 的量化研究(2602.04836)以冷硬數據拆解了業界最根深蒂固的信仰:AI 的進步從來不是一條平滑的指數曲線,而是由一連串 S 形曲線拼接而成。每一條曲線都會觸頂,而下一條曲線的出現取決於全新的範式突破——不是更多的算力,不是更大的模型,而是像「推理」這樣根本性的架構革新。
在 AI 產業中,有一條幾乎不容質疑的信條:AI 的能力正在指數級增長,而且這種增長將持續下去。這個信念支撐著 NVIDIA 超過兩萬億美元的市值、科技巨頭每年超過六千億美元的資本支出承諾、以及數以百計的 AI 初創公司動輒上百億美元的估值。整個 AI 投資敘事的根基,就是「明天的 AI 會比今天強得多,而後天的 AI 又會比明天強得多」這樣一個看似不可阻擋的趨勢。
2025 年 2 月,ArXiv 上出現了一篇題為 "Are AI Capabilities Increasing Exponentially?" 的論文(編號 2602.04836),以系統性的量化分析直接挑戰了這個假設。作者們並非 AI 懷疑論者——恰恰相反,他們對 AI 取得的巨大進步給予了充分肯定——但他們的數據講述了一個與主流敘事截然不同的故事:AI 的進步不是指數型的,而是呈 S 型曲線(sigmoid curve)推進的。每一波進步都有其天花板,而跨越天花板需要的不是更多資源,而是全新的突破。
「如果你只看起點和終點,AI 的進步確實令人驚嘆。但如果你看中間的軌跡,你會發現它不是一條平滑上揚的指數曲線,而是一段陡峭攀升後接一段逐漸走平的高原期——然後等待下一次突破來開啟新的攀升。」
論文的核心論證從 MMLU(Massive Multitask Language Understanding)這個被廣泛使用的 AI 基準測試開始。MMLU 涵蓋 57 個學科領域的選擇題,從大學水平的物理學到專業的醫學和法律知識,長期以來被視為衡量大型語言模型「通用智能」的黃金標準。
作者們追蹤了從 GPT-3 時代到 GPT-4o 時代各主流模型在 MMLU 上的表現軌跡,發現了一個清晰的模式:2022 年至 2023 年間,模型在 MMLU 上的得分經歷了急劇攀升,從 60% 左右飆升至接近 90%。但從 2024 年初開始,進步的速度顯著放緩。GPT-4、Claude 3 Opus、Gemini Ultra 等頂尖模型的得分都擁擠在 86% 至 90% 的狹窄區間內,彼此之間的差距微乎其微。
這正是 S 型曲線(sigmoid curve)的典型形態:初期緩慢起步,中期陡峭增長,後期逐漸趨平。在數學上,S 型曲線有一個漸近上界——一個永遠接近但永遠無法真正達到的理論極限。對於 MMLU 而言,這個極限似乎就在 90% 上下。不是因為模型不夠聰明,而是因為測試本身存在噪音(題目的歧義性、多個合理答案等),以及當前基於 Transformer 的架構在某些類型的推理上存在結構性局限。
論文最引人注目的發現之一,是對推理模型(reasoning models)帶來的第二波進步的分析。2024 年 9 月,OpenAI 發布了 o1——第一個專門為多步推理設計的大型語言模型。o1 的出現改變了遊戲規則:在數學、編程、科學推理等需要深度思考的任務上,o1 及其後繼者(o3、DeepSeek-R1 等)展現出了遠超前代模型的能力。
作者們發現,推理模型的出現確實啟動了一條全新的 S 曲線。在 MMLU-Pro(MMLU 的升級版,題目更難、更注重推理能力)、GPQA(研究生水平科學問題)、MATH(數學推理)等更具挑戰性的基準測試上,推理模型帶來了顯著的得分躍升。這不是簡單的量變——o1 在某些數學和編程任務上的表現從 GPT-4 的 50-60% 直接跳到了 80-90%,這種跨越式進步只能用範式轉移來解釋。
然而——這個「然而」至關重要——論文同時指出,這條新的 S 曲線本身也已經開始顯現趨平的跡象。o3 相對於 o1 的進步幅度,明顯小於 o1 相對於 GPT-4 的進步幅度。在某些基準測試上,o3-mini 和 o3 之間的差距小到幾乎可以忽略不計。換言之,推理模型這條曲線雖然才剛開始不久,但增長斜率已經在下降。
「推理模型的出現是真正的突破,這一點毋庸置疑。但它帶來的是一條新的 S 曲線,而不是將原有曲線從 S 型變成指數型。問題的本質沒有改變——這條新曲線也會觸頂,而觸頂的速度可能比許多人預想的要快。」
論文對 AI 產業另一個核心信念——scaling laws(規模定律)——提出了尖銳的質疑。自 2020 年 OpenAI 發表關於 scaling laws 的開創性論文以來,「只要模型更大、數據更多、算力更強,性能就會持續提升」幾乎成了 AI 研究的教條。這也是科技巨頭們敢於承諾天文數字資本支出的理論基礎——既然性能與規模之間存在冪律關係,那麼每多投入一倍的資源,就能獲得可預測的性能提升。
但作者們指出,scaling laws 描述的是在特定架構和訓練範式下,性能與計算量之間的關係。它們是技術事實,但不是自然法則。當一個架構或範式的潛力被充分挖掘後,繼續擴大規模帶來的邊際回報會急劇遞減。這就好比在一條已經趨平的 S 曲線上,你可以通過投入十倍的資源來獲得額外的 1-2% 改進,但這在經濟上是完全不可持續的。
更值得關注的是,論文觀察到 AI 產業正在經歷一次隱性的策略轉向。傳統的 scaling laws 主要關注預訓練階段的計算量(即在海量數據上訓練模型的成本)。但推理模型的成功揭示了另一個維度:推理時計算(inference-time compute)的重要性。o1 等模型之所以能在複雜問題上表現出色,部分原因是它們在回答問題時花費了更多的計算資源來「思考」——生成內部的思維鏈(chain-of-thought),反覆驗證和修正自己的推理過程。
這種從「訓練時 scaling」到「推理時 scaling」的轉移,在一定程度上延緩了天花板的到來,但並沒有消除天花板的存在。推理時計算同樣遵循邊際遞減的規律——讓模型「多想一會兒」可以顯著提升簡單到中等難度問題的表現,但對於真正需要創造性洞見或深度領域知識的問題,僅僅增加思考時間幫助有限。
論文最具爆炸性的部分,是將其技術發現與 AI 產業的經濟現實相連結。
當前全球 AI 產業的估值——從 NVIDIA 的市值到 OpenAI 的 3,000 億美元估值,從 Anthropic 的 600 億美元估值到數千家 AI 初創公司的集體估值——建立在一個共同的隱含假設之上:AI 的能力將持續快速提升,而這種提升將帶來越來越多的商業應用場景和營收機會。
但如果進步的真實模式是 S 曲線而非指數曲線,那麼這個假設就存在根本性的風險。具體而言:
有趣的是,AI 進步的 S 曲線模式在技術史上並非孤例。論文的作者隱含地將其與摩爾定律(Moore's Law)進行了比較——而這個比較本身就極具啟發性。
摩爾定律預言晶片上的電晶體數量每兩年翻一倍,在表面上看似乎是一條完美的指數曲線,持續了超過半個世紀。但細究其歷史,你會發現摩爾定律的維持靠的不是單一技術的持續改進,而是一系列彼此接力的技術範式——從 NMOS 到 CMOS,從平面電晶體到 FinFET 再到 GAA(Gate-All-Around),從矽光刻到 EUV 光刻。每一代技術都有其物理極限,而整條曲線的延續取決於及時出現的下一代技術。
AI 的情況可能非常類似。從 RNN/LSTM 到 Transformer 是一次範式躍遷;從單純的預訓練到 RLHF 對齊是另一次;從標準生成到推理模型又是一次。每一次躍遷都開啟了一條新的 S 曲線,而多條 S 曲線的接力從遠處看起來像是指數增長。但關鍵問題在於:下一次躍遷何時到來?它將來自什麼方向?這些問題沒有人能提前給出確定的答案。
如果我們接受論文的框架,那麼最緊迫的問題就是:下一條 S 曲線將由什麼技術突破來啟動?目前業界和學術界討論最多的候選者包括:
這些方向中的任何一個如果取得突破性進展,都可能開啟新一輪的陡峭增長。但同樣重要的是,這些突破不是「投入足夠多的 GPU 就一定會出現」的——它們需要根本性的科學洞見和工程創新,而這些東西的時間表本質上是不可預測的。
這篇論文的結論對香港的 AI 產業生態和投資市場具有直接的實際意義。
恆生科技指數的成分股中,多家公司的估值隱含了 AI 能力持續快速提升的預期。騰訊的混元大模型、阿里的通義千問、百度的文心一言——這些公司在 AI 上的巨額投入,其回報預期很大程度上取決於 AI 能力的進步速度。如果 S 曲線模型更接近現實,那麼這些投入的回收期可能需要重新評估。
對於在港上市的中國 AI 概念股,風險評估尤為重要。許多公司的估值包含了「AI 將在未來兩到三年內徹底改變其業務模式」的樂觀預期。但如果當前這波推理模型的進步即將觸頂,而下一次突破的時間不確定,那麼這個「兩到三年」的時間表可能過於樂觀。
對於香港本地的 AI 採用策略,S 曲線模型反而傳遞了一個相對積極的信息:你不需要永遠追逐最新的前沿模型。如果進步會在某個水平上趨平,那麼當前一代的 AI 工具已經足夠強大,值得企業認真投入去整合和部署。
具體而言,香港的金融機構、法律事務所、物流企業和專業服務公司應該關注的不是「下一個 GPT 會有多強」,而是「如何用當前已有的 AI 能力來實際提升效率和創造價值」。這意味著投資重點應從追蹤最新模型轉向深度整合現有工具——建設內部 AI 基礎設施、培訓員工使用 AI 工具、重構業務流程以充分利用 AI 的現有能力。
對於在數碼港和香港科學園孵化的 AI 初創公司,論文的啟示是:不要將商業模式建立在「未來的模型會解決當前模型解決不了的問題」這個假設之上。相反,應該聚焦於用當前的 AI 能力去解決真實的市場需求,用行業專有數據和深度領域知識建立護城河——這些護城河不會因為通用模型的進步而消失。
任何一篇論文都不是真理的終結,對這篇引發激烈討論的研究也應保持批判性思維。
首先,基準測試本身的局限性可能扭曲了結論。MMLU 等基準測試是有限的、靜態的測試集,它們的「天花板效應」可能更多反映的是測試本身的局限,而非模型能力的真實上限。近年來不斷出現的新基準測試(GPQA、SWE-bench、ARC-AGI 等)正是為了克服老基準測試飽和的問題。
其次,論文主要關注的是基準測試得分,而真實世界的 AI 能力提升可能在基準測試上反映不充分。例如,AI 在程式碼生成、長文本理解、多模態推理等方面的進步,可能並未被論文所分析的基準測試完全捕捉。
第三,也是最根本的,S 曲線模型和指數模型在數學上的區別取決於觀察的時間尺度。如果技術突破的頻率足夠高,多條 S 曲線的疊加在實踐中就等同於指數增長。論文的關鍵假設是突破之間存在顯著的「間隙期」,但這個假設本身是否成立,需要更長的歷史數據來驗證。
「每一次有人宣稱 AI 進步即將見頂,都會有一個新的突破出現來打臉。但這並不意味著 S 曲線模型是錯的——它只是意味著我們還沒有耗盡可以發現的突破。問題是,我們是否正在接近那個點?」
這篇 ArXiv 論文的真正價值,不在於它預言了 AI 進步的終結——事實上,作者明確表示他們對 AI 的長期前景持樂觀態度——而在於它揭示了一個被投資熱情所掩蓋的結構性真相:AI 的進步是離散的、依賴突破的、不可預測的,而非平滑的、資源驅動的、可外推的。
對於投資者而言,這意味著需要將 AI 投資從「指數增長必然持續」的盲目樂觀,轉向對每一次突破的實質意義和商業轉化能力的審慎評估。對於企業而言,這意味著 AI 策略應該錨定在當前已證明可行的能力之上,而非押注在尚未出現的未來能力之上。
在一個人人都在談論 AGI 何時到來的世界裡,這篇論文提醒我們一個更基本的問題:我們甚至還沒有搞清楚 AI 進步的基本數學模型。而在這個問題上的答案,可能價值數萬億美元。