DeepMind Aletheia：首個自主完成可發表數學論文的 AI 代理，從解題到原創研究的飛躍

2026 年 2 月，Google DeepMind 發布了一項可能改變科學研究範式的成果：Aletheia，一個能夠自主生成可發表數學研究論文的 AI 代理。這不是一個能更快解題的計算器，也不是一個幫研究者潤色草稿的寫作助手。Aletheia 所做的事情在根本上不同——它獨立地識別有趣的開放問題、構建原創證明、撰寫完整的學術論文，整個過程無需任何人類干預。

如果說 DeepMind 此前的 AlphaProof 和 AlphaGeometry 證明了 AI 可以在數學競賽中與人類頂尖選手一較高下，那麼 Aletheia 則證明了一件更深遠的事情：AI 可以成為數學知識的原創貢獻者。這兩者之間的差距，遠比表面上看起來的要大得多。

從解題到研究：一個質的飛躍

要理解 Aletheia 的突破性，首先需要理解數學競賽解題與數學研究之間的本質區別。數學競賽——即便是國際數學奧林匹克（IMO）——本質上是一個「已知有解」的環境。每道題都有明確的陳述，而且出題者已經知道答案存在。選手的任務是在有限時間內找到已知存在的證明路徑。

數學研究則完全不同。研究者面對的是開放性問題，而這些問題可能根本無解，或者需要全新的數學工具才能處理。更關鍵的是，研究的第一步往往不是「解題」，而是「選題」——從無窮多的可能方向中，判斷哪些問題值得投入精力，哪些問題有可能在當前的數學工具框架內得到解答。

Aletheia 正是在這個更高層次上展現了能力。它不僅僅是在回答被問到的問題，而是在主動探索數學的版圖。

Aletheia 的核心成就

Aletheia 的表現可以從多個維度來衡量，每一個維度都代表著不同層次的突破。

                        Aletheia 關鍵數據
                        IMO-Proofbench Advanced 得分：91.9%——這是衡量 AI 數學證明能力的頂尖基準測試
自主完成原創論文 Feng26——計算算術幾何中的特徵權重（eigenweights），全程零人工干預
自主解決 4 個開放問題——來自 Bloom 的 Erdos 猜想資料庫
半自主評估 700 個開放問題——展現了系統性的數學探索能力
計算成本顯著低於 Gemini Deep Think——在更強能力的同時實現了更高效率

                    

Feng26：零人工干預的原創論文

在所有成就中，最引人注目的無疑是 Feng26 論文的產出。這篇論文處理的是算術幾何中特徵權重的計算——一個高度專業化的數學領域，遠非簡單的教科書習題。Aletheia 獨立完成了從問題識別、技術路線設計、證明構建到論文撰寫的全部流程。

更重要的是，Feng26 經過了人類數學家的獨立審查，審查者確認了其有效性。這意味著 Aletheia 產出的不是看似正確但實際上存在隱蔽錯誤的「偽證明」，而是真正符合數學嚴謹性標準的原創工作。

Aletheia 產出的 Feng26 論文經過人類數學家的獨立審查並確認其有效性——這是 AI 在純數學領域作為獨立研究者的首次實質性驗證。

系統性地探索開放問題

Aletheia 的另一項重要能力是其對開放問題的系統性探索。它從 Bloom 的 Erdos 猜想資料庫中自主解決了 4 個開放問題。Erdos 猜想是數學界最著名的開放問題集合之一，以傳奇數學家 Paul Erdos 命名。能夠在這個資料庫中取得進展，本身就是對 Aletheia 數學研究能力的有力證明。

此外，Aletheia 還半自主地評估了 700 個開放問題。這種大規模的問題篩選能力同樣重要——它展示了 AI 不僅能解決問題，還能評估問題的可行性和重要性，這是數學研究中一項被嚴重低估的技能。優秀的數學家之所以出色，很大程度上不是因為他們能解決所有問題，而是因為他們知道該在哪些問題上投入時間。

DeepMind 數學 AI 的演進軌跡

Aletheia 的出現並非突然。回顧 DeepMind 在數學 AI 領域的歷程，可以看到一條清晰的能力遞進曲線。

AlphaGeometry（2024）：專注於歐幾里得幾何證明，能夠解決 IMO 級別的幾何題目。這是 AI 首次在特定數學子領域展現出接近人類頂尖水平的能力，但其適用範圍相對狹窄。
AlphaProof（2025）：在 IMO 2024 中贏得了相當於金牌的成績。這標誌著 AI 從單一領域擴展到了更廣泛的數學問題解決，但本質上仍然是在已知有解的競賽環境中運作。
Aletheia（2026）：實現了從「解答已知問題」到「產出原創研究」的飛躍。這不僅是能力的量變，更是角色的質變——AI 從考生變成了研究者。

這條軌跡揭示了一個重要趨勢：每一代系統所展現的不僅是更強的計算能力，更是更高層次的認知自主性。AlphaGeometry 需要人類指定問題領域；AlphaProof 需要人類提供具體題目；Aletheia 則能夠自己決定研究什麼。

技術分析：為何 Aletheia 能做到這一點

雖然 DeepMind 尚未公布 Aletheia 的全部技術細節，但從已知信息可以推斷其架構的幾個關鍵特徵。

代理式架構的勝利

Aletheia 被明確定義為一個「代理」（agent），而非單純的模型。這意味著它不是一個接受輸入、產生輸出的靜態函數，而是一個能夠規劃、執行、評估、修正的動態系統。在數學研究的語境下，這種代理架構使得 Aletheia 能夠進行多步驟的探索性推理——嘗試一個證明方向，遇到障礙時回溯，嘗試替代路線，最終收斂到可行的解法。

計算效率的突破

值得注意的是，Aletheia 的計算成本低於 Gemini Deep Think。在 AI 研究領域，更強的能力通常伴隨著更高的計算開銷，而 Aletheia 打破了這一慣例。這暗示 DeepMind 在代理架構的設計上進行了根本性的優化——可能包括更智慧的搜索策略、更有效的證明驗證機制，或是更好的計算資源分配方式。

這一點的實際意義不容忽視。如果自主數學研究需要天文數字的計算成本，那它充其量只是一個技術展示。但如果成本可控，它就有可能成為日常科研的可用工具。

哲學和方法論層面的深層問題

Aletheia 的出現引發了一系列深層問題，遠超技術本身。

什麼算作「理解」？

當 Aletheia 產出一個正確的數學證明時，它是否「理解」了這個證明？這個問題觸及了數學哲學的核心。一種觀點認為，數學證明的有效性完全取決於其邏輯結構，與產出者的「理解」無關——一個正確的證明就是正確的，無論它是由人腦還是矽晶片產出。另一種觀點則認為，真正的數學理解包含了直覺、動機和美學判斷，這些是當前 AI 所缺乏的。

Aletheia 的成功並不能直接回答這個哲學問題，但它確實改變了辯論的格局。當 AI 不僅能驗證人類的證明，還能產出人類數學家認可的原創工作時，「理解」的門檻是否需要重新定義？

數學研究的未來模式

如果 Aletheia 的能力持續提升，數學研究的組織方式可能會發生根本性改變。一種可能的場景是「人機協作研究」模式：人類數學家負責提出大方向和判斷結果的重要性，AI 代理負責探索具體的技術路徑。另一種更激進的場景是 AI 完全獨立地開闢新的研究領域——產出人類數學家需要時間才能消化的全新理論。

                        Aletheia 可能帶來的研究範式變革
                        大規模問題篩選：AI 可以快速評估數百個開放問題的可行性，幫助研究者聚焦於最有前途的方向
跨領域連接：AI 不受學科壁壘限制，可能發現人類研究者因專業分工而忽略的跨領域聯繫
證明自動化：常規性的技術引理和計算可以交由 AI 完成，釋放人類的認知資源用於更高層次的創造性思考
研究民主化：資源有限的研究機構也可能借助 AI 代理參與前沿數學研究

                    

與其他 AI 科學研究工具的比較

Aletheia 並不是唯一一個瞄準科學研究的 AI 系統。DeepMind 自己的 AI Co-Scientist 系統專注於假設生成和驗證；OpenAI 的推理模型在數學基準測試上不斷刷新紀錄；各種專業化的定理證明器也在持續進步。然而，Aletheia 與這些系統的關鍵區別在於其「端到端」的研究自主性。

大多數現有的 AI 科學工具仍然是「人類主導、AI 輔助」的模式——人類定義問題，AI 幫助加速解決。Aletheia 則展示了「AI 主導、人類驗證」的可能性。這是一個根本性的轉變。當然，這也意味著更大的挑戰：如何確保 AI 獨立產出的研究是可靠的？如何在沒有人類直接參與的情況下保證數學嚴謹性？

Feng26 通過人類審查的事實提供了部分答案，但這顯然不是一個可擴展的方案。如果 AI 每天能產出數百篇論文，人類審查將成為瓶頸。未來可能需要發展更成熟的自動化驗證系統，形成 AI 生產、AI 驗證、人類抽檢的多層次品質控制機制。

對更廣泛 AI 發展的啟示

Aletheia 的成功不僅對數學領域有意義。它是一個訊號，表明 AI 代理正在跨越從「工具」到「研究者」的門檻。如果 AI 可以在數學——這個對邏輯嚴謹性要求最高的學科——中充當獨立研究者，那麼它在其他科學領域的類似應用只是時間問題。

同時，Aletheia 也提醒我們注意一個重要的區分：在數學中，證明的正確性可以被形式化地驗證，這為 AI 研究提供了一個天然的品質保證機制。在實驗科學中，驗證的標準更加複雜，AI 自主研究的可靠性保證也將更加困難。數學可能是 AI 自主研究最先成熟的領域，但將這一範式推廣到其他學科將需要解決全新的挑戰。

對香港學術界的啟示

對於香港的數學和計算科學研究社群而言，Aletheia 的出現既是機遇也是警示。機遇在於，如果這類工具能夠被廣泛使用，規模較小的研究團隊也有可能在前沿數學研究中取得突破。警示在於，如果不積極擁抱這些工具，傳統的研究模式可能在效率上被迅速超越。

香港擁有多所世界級的數學系，在數論、組合學、代數幾何等領域有深厚的研究基礎。將 AI 代理整合到這些研究計畫中，可能成為提升研究產出和國際競爭力的重要槓桿。

結語：數學的新紀元

Aletheia 的名字來自古希臘語的「真理」（aletheia），在哲學傳統中指的是「揭露」或「去蔽」——讓隱藏的真理顯現出來。這個命名選擇恰如其分。Aletheia 所做的，正是揭開數學中尚未被發現的真理。

它不是第一個在數學上表現出色的 AI 系統，但它是第一個以獨立研究者的姿態出現的系統。從 AlphaGeometry 到 AlphaProof，再到 Aletheia，DeepMind 用三年時間走完了從「AI 解數學題」到「AI 做數學研究」的路程。這條路程看似只是能力的提升，但實際上跨越了一個質的邊界——一個從工具到智能體、從執行到探索、從回答到提問的邊界。

數學研究的新紀元或許已經開始。問題不再是 AI 能否做數學研究，而是人類數學家將如何與這些新的「同事」共存、協作，以及重新定義自身在數學發現中的角色。

                        本文要點總結
                        Aletheia 是首個能自主生成可發表數學論文的 AI 代理，在 IMO-Proofbench Advanced 取得 91.9% 成績
其產出的 Feng26 論文在零人工干預下完成，並通過人類數學家的獨立審查
自主解決了 Erdos 猜想資料庫中的 4 個開放問題，並半自主評估了 700 個開放問題
代表了 AI 從「解題工具」到「獨立研究者」的範式轉變，延續了 DeepMind 從 AlphaGeometry 到 AlphaProof 的能力遞進
引發了關於數學理解、研究自主性和人機協作的深層哲學問題
計算成本低於 Gemini Deep Think，暗示代理架構在效率上的根本性突破