← 返回新聞列表

世界模型競賽 2026:LeCun、李飛飛與 DeepMind 的三條 AGI 路線

從文字處理到物理模擬與具身推理,世界模型正在從根本上重新定義通往通用人工智能的路徑。三位頂尖研究者各自押注不同的技術路線,2026 年的這場競賽將決定 AI 的下一個十年。

如果說 2023 年是大型語言模型(LLM)的爆發年、2024 年是多模態模型的整合年,那麼 2026 年毫無疑問將被定義為「世界模型元年」。這一判斷並非來自媒體炒作,而是基於一系列實質性的技術突破與商業進展:史丹福教授李飛飛的 World Labs 推出了首個商用世界模型「Marble」,圖靈獎得主 Yann LeCun 在離開 Meta 十二年後創辦了專注世界模型的 AMI Labs,而 Google DeepMind 的 Genie 3 則實現了 24fps 的實時互動世界模擬。

世界模型的核心理念是:真正的智能不僅需要理解語言,更需要理解物理世界的運作方式。這意味着 AI 必須能夠預測物體如何移動、空間如何變化、行為會帶來什麼後果——就像人類嬰兒在學會說話之前,就已經透過觀察和互動建立了對世界的直覺模型。

路線一:李飛飛與 World Labs 的「Marble」——商用世界模型先驅

史丹福大學教授李飛飛(Fei-Fei Li)一直是電腦視覺領域的開拓者。她在 2009 年創建的 ImageNet 數據集被廣泛認為是深度學習革命的催化劑。2024 年,她創辦了 World Labs,而到了 2026 年初,該公司推出的「Marble」成為首個面向商業應用的世界模型產品。

Marble 的核心能力是從文字描述或二維圖像生成完整的 3D 環境。與傳統的 3D 建模工具不同,Marble 不僅能生成靜態場景,更能模擬物理規則——物體有重量、有摩擦力,光線會反射和折射。使用者只需輸入「一間位於維多利亞港旁的咖啡廳,午後陽光從落地窗照入」,Marble 就能生成一個可以「走進去」的虛擬空間,而且桌上的咖啡杯如果被推動,會按照真實物理規則滑動。

World Labs Marble 關鍵數據

  • 首個商用世界模型,支援文字到 3D 環境及圖像到 3D 環境的生成
  • 與 NVIDIA Isaac Sim 達成深度合作,整合機器人模擬訓練
  • 據報正進行新一輪融資,估值討論已達 50 億美元
  • 主要應用場景:機器人訓練、遊戲開發、建築設計、影視製作

World Labs 與 NVIDIA Isaac Sim 的合作尤其值得關注。Isaac Sim 是 NVIDIA 為機器人開發的模擬平台,而 Marble 生成的 3D 環境可以直接用作機器人訓練場景。這意味着機器人開發者不再需要手動建模每一個訓練場景,而是可以用自然語言描述需求,讓 Marble 自動生成數千個多樣化的訓練環境。這大幅降低了機器人訓練的成本和時間。

「世界模型不是取代語言模型,而是補充語言模型缺失的那一塊拼圖。語言模型理解概念,世界模型理解物理。兩者結合才是完整的智能。」——李飛飛在 2026 年 CES 演講

路線二:LeCun 的 AMI Labs——從根本上挑戰 LLM 路線

如果說李飛飛的路線是「補充 LLM」,那麼 Yann LeCun 的立場要激進得多:他認為大型語言模型本身就是通往 AGI 的死胡同。2025 年底,LeCun 在為 Meta 工作了十二年之後,做出了令業界震驚的決定——離開 Meta,創辦 AMI Labs(Advanced Machine Intelligence Labs)。

AMI Labs 的創立消息一經公布,便迅速完成了由歐洲頂級投資機構領投的融資,金額達 5 億歐元(約 40 億港元),估值 30 億歐元。LeCun 選擇在巴黎設立總部,並在紐約和多倫多設立研究分部,吸引了大量來自 Meta FAIR、Google DeepMind 和學術界的頂尖研究員。

LeCun 的核心論點:為什麼 LLM 是死胡同

LeCun 的論點可以歸納為幾個層面。首先,語言模型是在符號層面運作的,而人類智能的基礎是對物理世界的感知和預測。一個嬰兒在學會任何語言之前,就已經理解了基本的物理概念——物體不會憑空消失、支撐被移除後物體會下落。其次,LLM 的訓練本質上是記憶和模式匹配,而非真正的理解。這就是為什麼 LLM 在面對略有不同的推理問題時,表現往往會急劇下降。

AMI Labs 正在開發的是一種被稱為「聯合嵌入預測架構」(Joint Embedding Predictive Architecture, JEPA)的全新框架。與 LLM 不同,JEPA 不是在離散的文字空間中預測下一個詞語(token),而是在連續的嵌入空間中預測未來的世界狀態。這種方法更接近人類大腦的運作方式——我們不是用語言來思考物理世界,而是用某種抽象的心智表徵。

AMI Labs 技術路線圖

  • JEPA 2.0:在連續嵌入空間中進行世界狀態預測,而非離散 token 預測
  • 分層規劃系統:支援從高層目標到低層動作的多層級規劃
  • 自監督學習:不依賴人類標註,從影片和感測器數據中自動學習世界模型
  • 目標:2027 年前發布首個可驅動實體機器人的完整世界模型
「未來十年最重要的 AI 突破不會來自更大的語言模型。它會來自能夠像嬰兒一樣理解物理世界的系統。語言只是思維的表面,我們需要深入到思維的根基。」——Yann LeCun,AMI Labs 成立發布會

路線三:Google DeepMind Genie 3——從研究到產品的飛躍

如果說 World Labs 代表的是學術創業路線,AMI Labs 代表的是基礎研究路線,那麼 Google DeepMind 的 Genie 3 則代表了大型科技公司的系統工程路線。Genie 項目的目標一直很明確:建構一個能夠生成可互動虛擬世界的通用模型。

Genie 3 在 2026 年初取得了關鍵突破,實現了 24fps 的實時互動世界生成。這意味着使用者可以在 Genie 生成的世界中即時行動,而系統能夠以每秒 24 幀的速度持續生成連貫的環境回應。這個幀率對於流暢的互動體驗至關重要——低於 20fps 時,人類會明顯感覺到延遲和卡頓。

更重要的是,Project Genie 已開放公眾存取。這是 Google DeepMind 少有的將前沿研究直接面向大眾的決定,反映了公司在世界模型領域的高度信心。使用者可以透過瀏覽器體驗 Genie 3,輸入文字或圖像提示,在幾秒鐘內獲得一個可以探索的 3D 環境。

Genie 3 的技術架構

Genie 3 的架構基於三個核心組件:一個負責理解場景語義的視覺-語言編碼器,一個負責預測物理互動結果的動態模型,以及一個負責即時渲染的神經渲染引擎。三個組件協同工作,使得系統能夠同時理解「什麼」(場景內容)、「如何」(物理規則)和「看起來怎樣」(視覺呈現)。

DeepMind 團隊在論文中特別強調了「一致性」這個概念:Genie 3 生成的世界在物理規則上是自洽的。如果你把一個球推下斜坡,它的滾動速度、方向和最終停靠位置都會符合基本的物理定律。這聽起來簡單,但在技術實現上極其困難,因為模型需要在生成每一幀畫面的同時維護一個隱含的物理狀態。

三條路線之外:更多競爭者入場

NVIDIA Cosmos:基礎設施層的統治者

NVIDIA 一向善於在 AI 的基礎設施層佔據主導地位,世界模型領域也不例外。其 Cosmos 平台——一個為世界模型開發者提供預訓練模型、訓練工具和推理優化的綜合平台——自推出以來下載量已突破 200 萬次。Cosmos 的策略很清晰:不直接與 World Labs 或 DeepMind 競爭最終產品,而是成為所有世界模型開發者都依賴的底層基礎設施。

Runway:從影片生成到世界模型

Runway 的路線則更為實用主義。這家以 AI 影片生成起家的公司,正在將其影片生成技術重新定位為「世界模型」。其核心論點是:能夠生成逼真影片的模型,本質上已經學會了物理世界的某些規則。Runway 正在將這種能力延伸到機器人領域,讓機器人透過「觀看」AI 生成的影片來學習如何操作物體。

Verses.ai AXIOM:認知架構的另類路線

加拿大公司 Verses.ai 則走了一條完全不同的路線。其 AXIOM 框架基於「主動推理」(Active Inference)理論——一種源自神經科學的計算框架,認為智能系統的核心功能是最小化對世界狀態的不確定性。AXIOM 不依賴大規模數據訓練,而是透過構建明確的世界模型來進行推理和規劃。這種方法在數據稀缺的場景中具有獨特優勢。

2026 世界模型競賽全景

  • World Labs Marble:商用先驅,專注文字/圖像到 3D 環境,與 NVIDIA 深度整合
  • AMI Labs(LeCun):基礎研究,JEPA 架構,挑戰 LLM 範式
  • DeepMind Genie 3:24fps 實時互動,已開放公眾存取
  • NVIDIA Cosmos:基礎設施層,200 萬次下載,賦能整個生態
  • Runway:從影片生成延伸,專注機器人應用
  • Verses.ai AXIOM:認知架構路線,基於主動推理理論

從文字處理到物理模擬:範式轉移的深層意義

世界模型的崛起代表着 AI 研究的一次根本性範式轉移。過去三年,AI 領域的核心問題是「如何讓模型更好地處理文字」——從 GPT-3 到 GPT-4,從 Claude 到 Gemini,競爭的維度主要是語言理解和生成能力。但世界模型將競爭維度擴展到了物理理解、空間推理和具身智能。

這種轉移的驅動力來自兩個方面。第一,純語言模型在推理能力上遇到了瓶頸。儘管 scaling law 在語言任務上仍然有效,但越來越多的研究者認為,僅靠增加參數和數據無法讓模型真正「理解」世界。第二,機器人和自動駕駛等具身 AI 應用正在快速增長,而這些應用需要的不是語言能力,而是對物理世界的理解。

「我們正處於一個轉折點。語言模型解決了信息處理的問題,但世界模型要解決的是對現實世界的理解。這是兩個完全不同層次的挑戰。」——DeepMind Genie 團隊負責人 Tim Rocktäschel

具身推理:世界模型的終極應用

世界模型最令人興奮的應用場景是「具身推理」——讓 AI 系統能夠像人類一樣在物理世界中思考和行動。想像一個家務機器人需要收拾凌亂的房間:它需要判斷哪些物品該放到哪裏、搬動重物時需要多大力量、避開易碎物品需要怎樣規劃路線。這些決策都需要一個關於物理世界的心智模型。

目前,三條路線在具身推理方面的進展各有特色。World Labs 通過與 NVIDIA Isaac Sim 的合作,專注於為機器人創建多樣化的訓練環境。AMI Labs 的 JEPA 架構則嘗試讓機器人在連續嵌入空間中進行規劃,而不是依賴離散的符號推理。Genie 3 則探索了一種「想像空間」的方法——機器人在 Genie 生成的虛擬世界中「想像」不同行動的後果,然後選擇最優方案在真實世界中執行。

對香港的啟示

世界模型的崛起為香港帶來了獨特的機遇與挑戰。作為一個高度城市化、空間緊湊的城市,香港在機器人部署方面面臨着特殊的環境需求——密集的行人流量、複雜的多層建築結構、潮濕多變的天氣條件。這些特殊性意味着通用的世界模型可能需要針對香港的城市環境進行專門的微調和優化。

香港的大學和研究機構在相關領域已有不錯的基礎。香港中文大學、香港科技大學和香港大學都有活躍的電腦視覺和機器人研究團隊。世界模型的商業化浪潮可能為這些團隊帶來新的資金和合作機會,特別是在智慧城市、物流自動化和建築設計等香港的優勢領域。

對於香港的企業而言,世界模型技術的成熟可能帶來顯著的效率提升。建築和室內設計公司可以用自然語言生成設計方案的 3D 預覽;物流公司可以在虛擬環境中優化倉庫佈局和機器人路線;影視和遊戲工作室可以大幅降低 3D 場景的製作成本。

但同時,香港也需要關注世界模型帶來的新風險。當 AI 能夠生成高度逼真的 3D 環境時,虛假信息的問題將從二維的圖片和影片擴展到三維空間。監管機構需要提前思考如何應對這些新型挑戰。

展望:2026 年下半年的關鍵節點

2026 年下半年,世界模型領域將迎來幾個重要節點。AMI Labs 預計將在夏季發布 JEPA 2.0 的首個公開演示。World Labs 的 Marble 將推出面向開發者的 API,讓更多應用程式能夠整合世界模型能力。DeepMind 則有望在秋季的 NeurIPS 大會上發布 Genie 3 的完整技術報告。

更值得關注的是,世界模型與大型語言模型的融合趨勢。OpenAI、Anthropic 和 Google 都在探索如何將世界模型的物理理解能力整合到其現有的 AI 系統中。這種融合可能催生一種全新的 AI 架構——既能處理語言,又能理解和模擬物理世界。

無論哪條路線最終勝出,2026 年的世界模型競賽已經改變了 AI 研究的方向。從純粹的文字處理到物理世界的理解,從離散的符號推理到連續的空間預測——這場轉變可能比大型語言模型的崛起更為深遠。

本文要點總結

  • 2026 年世界模型範式全面爆發,三條主要技術路線競逐 AGI 方向
  • 李飛飛 World Labs 推出首個商用世界模型 Marble,與 NVIDIA Isaac Sim 深度合作,估值討論達 50 億美元
  • LeCun 離開 Meta 創辦 AMI Labs,融資 5 億歐元,認為 LLM 是 AGI 的死胡同,押注 JEPA 架構
  • Google DeepMind Genie 3 實現 24fps 實時互動世界生成,Project Genie 已開放公眾存取
  • NVIDIA Cosmos 下載量突破 200 萬,Runway 和 Verses.ai AXIOM 等更多競爭者入場
  • 世界模型代表從文字處理到物理模擬的範式轉移,具身推理成為終極應用場景
  • 香港可在智慧城市、物流自動化、建築設計等領域受惠於世界模型技術