Google DeepMind Genie 3:世界模型開放使用,即時生成互動 3D 環境
通往 AGI 的關鍵里程碑:AI 學會理解和模擬物理世界
Google DeepMind 於 1 月 29 日正式向公眾開放 Project Genie——一個基於 Genie 3 世界模型的互動應用程式。用戶只需輸入簡單的文字描述,AI 就能即時生成可以自由探索的 3D 環境。這標誌著「世界模型」技術從實驗室走向實際應用的重要一步。
世界模型(World Model)是 AI 研究中的一個核心概念,指的是 AI 系統對現實世界運作方式的內部理解和模擬能力。一個好的世界模型應該能夠:
許多 AI 專家認為,世界模型是實現通用人工智能(AGI)的關鍵組件之一。Meta 首席 AI 科學家 Yann LeCun 甚至離開 Meta 創立了專注世界模型的實驗室,估值高達 50 億美元。
與傳統的 3D 渲染技術(如 NeRF 或 Gaussian Splatting)不同,Genie 3 採用自回歸方式生成環境——每一幀都是根據初始提示和用戶的即時互動動態生成的。這意味著環境會隨著用戶的探索而演化,而非播放預先設定的序列。
去年發布的 Genie 2 只能生成 10-20 秒的短暫模擬。Genie 3 則大幅提升了持續時間、一致性和真實感,使其真正具備實用價值。
Project Genie 是一個網頁應用程式,由 Genie 3、Nano Banana Pro 和 Gemini 共同驅動。用戶可以:
目前,Project Genie 僅向美國地區的 AI Ultra 訂閱用戶開放。國際版本的推出時間尚未公布。
儘管 Genie 3 代表了重大突破,但仍存在一些限制:
DeepMind 明確表示,Genie 3 是通往 AGI 的關鍵里程碑。其意義在於:
「Genie 3 使探索無限範圍的真實環境成為可能。這是通往 AGI 的關鍵墊腳石——使 AI 代理能夠進行推理、解決問題和執行現實世界行動。」——Google DeepMind
當 AI 能夠準確模擬物理世界時,它就能在虛擬環境中進行無限次的試錯學習,大幅加速 AI 代理的訓練過程。這對於機器人、自動駕駛等需要與物理世界互動的 AI 應用尤為重要。
Genie 3 的發布進一步加劇了世界模型領域的競爭:
對於遊戲開發者、建築師、電影製作人和其他創意工作者,世界模型技術開啟了全新可能: