DeepMind Aletheia:首個自主完成可發表數學論文的 AI 代理,從解題到原創研究的飛躍
當 AI 不再只是回答人類的問題,而是自己提出問題、自己尋找答案、自己撰寫論文——數學研究的本質正在被重新定義。Google DeepMind 的 Aletheia 代表了這一轉變中最具象的里程碑。
當 AI 不再只是回答人類的問題,而是自己提出問題、自己尋找答案、自己撰寫論文——數學研究的本質正在被重新定義。Google DeepMind 的 Aletheia 代表了這一轉變中最具象的里程碑。
2026 年 2 月,Google DeepMind 發布了一項可能改變科學研究範式的成果:Aletheia,一個能夠自主生成可發表數學研究論文的 AI 代理。這不是一個能更快解題的計算器,也不是一個幫研究者潤色草稿的寫作助手。Aletheia 所做的事情在根本上不同——它獨立地識別有趣的開放問題、構建原創證明、撰寫完整的學術論文,整個過程無需任何人類干預。
如果說 DeepMind 此前的 AlphaProof 和 AlphaGeometry 證明了 AI 可以在數學競賽中與人類頂尖選手一較高下,那麼 Aletheia 則證明了一件更深遠的事情:AI 可以成為數學知識的原創貢獻者。這兩者之間的差距,遠比表面上看起來的要大得多。
要理解 Aletheia 的突破性,首先需要理解數學競賽解題與數學研究之間的本質區別。數學競賽——即便是國際數學奧林匹克(IMO)——本質上是一個「已知有解」的環境。每道題都有明確的陳述,而且出題者已經知道答案存在。選手的任務是在有限時間內找到已知存在的證明路徑。
數學研究則完全不同。研究者面對的是開放性問題,而這些問題可能根本無解,或者需要全新的數學工具才能處理。更關鍵的是,研究的第一步往往不是「解題」,而是「選題」——從無窮多的可能方向中,判斷哪些問題值得投入精力,哪些問題有可能在當前的數學工具框架內得到解答。
Aletheia 正是在這個更高層次上展現了能力。它不僅僅是在回答被問到的問題,而是在主動探索數學的版圖。
Aletheia 的表現可以從多個維度來衡量,每一個維度都代表著不同層次的突破。
在所有成就中,最引人注目的無疑是 Feng26 論文的產出。這篇論文處理的是算術幾何中特徵權重的計算——一個高度專業化的數學領域,遠非簡單的教科書習題。Aletheia 獨立完成了從問題識別、技術路線設計、證明構建到論文撰寫的全部流程。
更重要的是,Feng26 經過了人類數學家的獨立審查,審查者確認了其有效性。這意味著 Aletheia 產出的不是看似正確但實際上存在隱蔽錯誤的「偽證明」,而是真正符合數學嚴謹性標準的原創工作。
Aletheia 產出的 Feng26 論文經過人類數學家的獨立審查並確認其有效性——這是 AI 在純數學領域作為獨立研究者的首次實質性驗證。
Aletheia 的另一項重要能力是其對開放問題的系統性探索。它從 Bloom 的 Erdos 猜想資料庫中自主解決了 4 個開放問題。Erdos 猜想是數學界最著名的開放問題集合之一,以傳奇數學家 Paul Erdos 命名。能夠在這個資料庫中取得進展,本身就是對 Aletheia 數學研究能力的有力證明。
此外,Aletheia 還半自主地評估了 700 個開放問題。這種大規模的問題篩選能力同樣重要——它展示了 AI 不僅能解決問題,還能評估問題的可行性和重要性,這是數學研究中一項被嚴重低估的技能。優秀的數學家之所以出色,很大程度上不是因為他們能解決所有問題,而是因為他們知道該在哪些問題上投入時間。
Aletheia 的出現並非突然。回顧 DeepMind 在數學 AI 領域的歷程,可以看到一條清晰的能力遞進曲線。
這條軌跡揭示了一個重要趨勢:每一代系統所展現的不僅是更強的計算能力,更是更高層次的認知自主性。AlphaGeometry 需要人類指定問題領域;AlphaProof 需要人類提供具體題目;Aletheia 則能夠自己決定研究什麼。
雖然 DeepMind 尚未公布 Aletheia 的全部技術細節,但從已知信息可以推斷其架構的幾個關鍵特徵。
Aletheia 被明確定義為一個「代理」(agent),而非單純的模型。這意味著它不是一個接受輸入、產生輸出的靜態函數,而是一個能夠規劃、執行、評估、修正的動態系統。在數學研究的語境下,這種代理架構使得 Aletheia 能夠進行多步驟的探索性推理——嘗試一個證明方向,遇到障礙時回溯,嘗試替代路線,最終收斂到可行的解法。
值得注意的是,Aletheia 的計算成本低於 Gemini Deep Think。在 AI 研究領域,更強的能力通常伴隨著更高的計算開銷,而 Aletheia 打破了這一慣例。這暗示 DeepMind 在代理架構的設計上進行了根本性的優化——可能包括更智慧的搜索策略、更有效的證明驗證機制,或是更好的計算資源分配方式。
這一點的實際意義不容忽視。如果自主數學研究需要天文數字的計算成本,那它充其量只是一個技術展示。但如果成本可控,它就有可能成為日常科研的可用工具。
Aletheia 的出現引發了一系列深層問題,遠超技術本身。
當 Aletheia 產出一個正確的數學證明時,它是否「理解」了這個證明?這個問題觸及了數學哲學的核心。一種觀點認為,數學證明的有效性完全取決於其邏輯結構,與產出者的「理解」無關——一個正確的證明就是正確的,無論它是由人腦還是矽晶片產出。另一種觀點則認為,真正的數學理解包含了直覺、動機和美學判斷,這些是當前 AI 所缺乏的。
Aletheia 的成功並不能直接回答這個哲學問題,但它確實改變了辯論的格局。當 AI 不僅能驗證人類的證明,還能產出人類數學家認可的原創工作時,「理解」的門檻是否需要重新定義?
如果 Aletheia 的能力持續提升,數學研究的組織方式可能會發生根本性改變。一種可能的場景是「人機協作研究」模式:人類數學家負責提出大方向和判斷結果的重要性,AI 代理負責探索具體的技術路徑。另一種更激進的場景是 AI 完全獨立地開闢新的研究領域——產出人類數學家需要時間才能消化的全新理論。
Aletheia 並不是唯一一個瞄準科學研究的 AI 系統。DeepMind 自己的 AI Co-Scientist 系統專注於假設生成和驗證;OpenAI 的推理模型在數學基準測試上不斷刷新紀錄;各種專業化的定理證明器也在持續進步。然而,Aletheia 與這些系統的關鍵區別在於其「端到端」的研究自主性。
大多數現有的 AI 科學工具仍然是「人類主導、AI 輔助」的模式——人類定義問題,AI 幫助加速解決。Aletheia 則展示了「AI 主導、人類驗證」的可能性。這是一個根本性的轉變。當然,這也意味著更大的挑戰:如何確保 AI 獨立產出的研究是可靠的?如何在沒有人類直接參與的情況下保證數學嚴謹性?
Feng26 通過人類審查的事實提供了部分答案,但這顯然不是一個可擴展的方案。如果 AI 每天能產出數百篇論文,人類審查將成為瓶頸。未來可能需要發展更成熟的自動化驗證系統,形成 AI 生產、AI 驗證、人類抽檢的多層次品質控制機制。
Aletheia 的成功不僅對數學領域有意義。它是一個訊號,表明 AI 代理正在跨越從「工具」到「研究者」的門檻。如果 AI 可以在數學——這個對邏輯嚴謹性要求最高的學科——中充當獨立研究者,那麼它在其他科學領域的類似應用只是時間問題。
同時,Aletheia 也提醒我們注意一個重要的區分:在數學中,證明的正確性可以被形式化地驗證,這為 AI 研究提供了一個天然的品質保證機制。在實驗科學中,驗證的標準更加複雜,AI 自主研究的可靠性保證也將更加困難。數學可能是 AI 自主研究最先成熟的領域,但將這一範式推廣到其他學科將需要解決全新的挑戰。
對於香港的數學和計算科學研究社群而言,Aletheia 的出現既是機遇也是警示。機遇在於,如果這類工具能夠被廣泛使用,規模較小的研究團隊也有可能在前沿數學研究中取得突破。警示在於,如果不積極擁抱這些工具,傳統的研究模式可能在效率上被迅速超越。
香港擁有多所世界級的數學系,在數論、組合學、代數幾何等領域有深厚的研究基礎。將 AI 代理整合到這些研究計畫中,可能成為提升研究產出和國際競爭力的重要槓桿。
Aletheia 的名字來自古希臘語的「真理」(aletheia),在哲學傳統中指的是「揭露」或「去蔽」——讓隱藏的真理顯現出來。這個命名選擇恰如其分。Aletheia 所做的,正是揭開數學中尚未被發現的真理。
它不是第一個在數學上表現出色的 AI 系統,但它是第一個以獨立研究者的姿態出現的系統。從 AlphaGeometry 到 AlphaProof,再到 Aletheia,DeepMind 用三年時間走完了從「AI 解數學題」到「AI 做數學研究」的路程。這條路程看似只是能力的提升,但實際上跨越了一個質的邊界——一個從工具到智能體、從執行到探索、從回答到提問的邊界。
數學研究的新紀元或許已經開始。問題不再是 AI 能否做數學研究,而是人類數學家將如何與這些新的「同事」共存、協作,以及重新定義自身在數學發現中的角色。