世界模型競賽:LeCun 創業、Google Genie、Runway 爭相定義 AI 的未來
當語言模型遇到瓶頸,世界模型可能是通往真正智能的另一條路徑
2026 年將成為「世界模型」(World Models)的重要一年。多個跡象顯示,這一研究方向正在從學術探索走向產業應用:圖靈獎得主 Yann LeCun 離開 Meta 創辦了專注於世界模型的實驗室,據報導正在尋求 50 億美元的估值;Google DeepMind 持續推進 Genie 項目,並在 2025 年 8 月發布了能夠構建實時互動通用世界模型的最新版本;Runway 等創業公司也推出了世界模型產品。
世界模型是一種能夠理解和模擬物理世界運作方式的 AI 系統。與主要處理語言的大語言模型不同,世界模型試圖學習世界的基本規律——物體如何移動、物理定律如何作用、事件之間的因果關係等。
想像一下:如果你向 ChatGPT 詢問「如果我把一顆球從桌子邊緣推下去會發生什麼」,它會基於語言知識給出答案。但一個真正的世界模型會「模擬」這個場景——計算球的軌跡、考慮空氣阻力、預測落地位置。
Yann LeCun 長期以來一直批評當前大語言模型的局限性,認為僅靠預測下一個詞不可能達到真正的智能。他主張,AI 需要對世界有一個「心理模型」,能夠進行因果推理和規劃。
現在,他決定將這一願景付諸實踐。離開 Meta 後,LeCun 創辦的新實驗室專注於開發他所設想的「世界模型」架構。據報導,他正在尋求 50 億美元的估值——這反映了投資者對這一方向的巨大興趣。
「大語言模型就像是一本百科全書——它們知道很多事實,但不理解世界是如何運作的。要實現真正的人工智能,我們需要讓機器像人類一樣理解物理世界。」——Yann LeCun
Google DeepMind 在世界模型領域也投入了大量資源。其 Genie 項目旨在創建能夠生成和模擬可互動 3D 環境的 AI 系統。
2025 年 8 月發布的最新 Genie 版本展示了令人印象深刻的能力:它可以根據文字描述或圖像,生成可以實時互動的 3D 場景。用戶可以在這些虛擬環境中「行走」和「互動」,而 AI 會即時生成合理的物理反應。
史丹福大學教授、ImageNet 創始人 Fei-Fei Li 創辦的 World Labs 也在這一領域積極布局。World Labs 的目標是創建能夠理解和推理 3D 空間的 AI 系統,這與世界模型的願景高度一致。
World Labs 已經獲得了大量資金支持,並在計算機視覺和 3D 理解方面展示了突破性進展。
除了科技巨頭和知名研究者,創業公司也在世界模型領域尋找機會。Runway——以其 AI 影片生成工具聞名——已經推出了世界模型相關的產品,旨在為創意專業人士提供更真實的視覺生成能力。
這些創業公司通常專注於特定的應用領域,如影片製作、遊戲開發或虛擬實境,而不是試圖構建通用的世界模型。
構建真正的世界模型面臨巨大的技術挑戰:
語言模型可以從互聯網上的文字數據學習,但世界模型需要學習物理世界的運作方式。這可能需要大量的視頻數據、3D 場景數據,甚至是機器人在真實世界中的互動數據。
模擬物理世界的運作比處理語言更加複雜。預測一個球落地的軌跡需要考慮重力、空氣阻力、地面材質等多種因素。
對於語言模型,我們可以通過問答測試來評估其能力。但對於世界模型,評估其對物理世界理解的準確性要困難得多。
世界模型的支持者認為,這可能是通往通用人工智能(AGI)的關鍵路徑。他們的論點是:真正的智能不僅需要語言能力,還需要對物理世界的深刻理解。
如果這一觀點正確,那麼在世界模型領域取得領先地位的公司,可能會在下一波 AI 革命中佔據優勢。
世界模型的發展可能為香港帶來獨特的機會。作為電影和創意產業的重要中心,香港可以探索世界模型在視覺特效、虛擬製作和遊戲開發中的應用。
此外,香港的大學在計算機視覺和 3D 重建方面有深厚的研究積累,這些專長可以貢獻於世界模型的發展。