← 返回新聞列表

Google DeepMind Genie 3:世界模型開放使用,即時生成互動 3D 環境

通往 AGI 的關鍵里程碑:AI 學會理解和模擬物理世界

Google DeepMind 於 1 月 29 日正式向公眾開放 Project Genie——一個基於 Genie 3 世界模型的互動應用程式。用戶只需輸入簡單的文字描述,AI 就能即時生成可以自由探索的 3D 環境。這標誌著「世界模型」技術從實驗室走向實際應用的重要一步。

什麼是世界模型?

世界模型(World Model)是 AI 研究中的一個核心概念,指的是 AI 系統對現實世界運作方式的內部理解和模擬能力。一個好的世界模型應該能夠:

  • 理解物理定律(重力、碰撞、光線等)
  • 預測行動的後果
  • 模擬不同情境下的發展
  • 根據用戶互動即時調整

許多 AI 專家認為,世界模型是實現通用人工智能(AGI)的關鍵組件之一。Meta 首席 AI 科學家 Yann LeCun 甚至離開 Meta 創立了專注世界模型的實驗室,估值高達 50 億美元。

Genie 3 的技術突破

Genie 3 核心規格

  • 解析度:720p
  • 幀率:24 fps(每秒 24 幀)
  • 互動時長:可持續數分鐘
  • 生成方式:自回歸(Autoregressive),逐幀生成
  • 輸入方式:純文字描述

與傳統的 3D 渲染技術(如 NeRF 或 Gaussian Splatting)不同,Genie 3 採用自回歸方式生成環境——每一幀都是根據初始提示和用戶的即時互動動態生成的。這意味著環境會隨著用戶的探索而演化,而非播放預先設定的序列。

從 Genie 2 到 Genie 3

去年發布的 Genie 2 只能生成 10-20 秒的短暫模擬。Genie 3 則大幅提升了持續時間、一致性和真實感,使其真正具備實用價值。

Project Genie 應用程式

Project Genie 是一個網頁應用程式,由 Genie 3、Nano Banana Pro 和 Gemini 共同驅動。用戶可以:

  1. 輸入文字描述想要探索的環境
  2. AI 即時生成該環境
  3. 使用鍵盤或滑鼠在環境中自由移動
  4. 環境會根據用戶的行動持續演化

目前,Project Genie 僅向美國地區的 AI Ultra 訂閱用戶開放。國際版本的推出時間尚未公布。

當前限制

儘管 Genie 3 代表了重大突破,但仍存在一些限制:

  • 時間限制:可支援數分鐘的連續互動,但尚無法達到數小時的持續體驗
  • 真實地點準確性:生成的是「合理的」環境,而非精確重建
  • 文字渲染:與大多數生成式模型一樣,難以呈現清晰可讀的文字
  • 複雜場景:涉及多個自主實體的複雜情境仍具挑戰性

通往 AGI 的墊腳石

DeepMind 明確表示,Genie 3 是通往 AGI 的關鍵里程碑。其意義在於:

「Genie 3 使探索無限範圍的真實環境成為可能。這是通往 AGI 的關鍵墊腳石——使 AI 代理能夠進行推理、解決問題和執行現實世界行動。」——Google DeepMind

當 AI 能夠準確模擬物理世界時,它就能在虛擬環境中進行無限次的試錯學習,大幅加速 AI 代理的訓練過程。這對於機器人、自動駕駛等需要與物理世界互動的 AI 應用尤為重要。

世界模型競賽升溫

Genie 3 的發布進一步加劇了世界模型領域的競爭:

  • Yann LeCun:離開 Meta 創立世界模型實驗室,估值 50 億美元
  • Fei-Fei Li:World Labs 推出首個商用世界模型 Marble
  • Runway:發布 GWM-1 世界模型
  • General Intuition:獲得 1.34 億美元種子輪融資

對創作者和開發者的意義

對於遊戲開發者、建築師、電影製作人和其他創意工作者,世界模型技術開啟了全新可能:

  • 快速原型製作:用文字描述即可生成 3D 場景
  • 互動式故事敘述:觀眾可以探索而非被動觀看
  • 虛擬場勘:在實地拍攝前預覽場景
  • 遊戲設計:程序化生成無限遊戲世界

本文要點總結

  • Genie 3 是 Google DeepMind 的世界模型,可從文字生成互動 3D 環境
  • 支援 720p、24fps,可持續互動數分鐘
  • 採用自回歸生成,環境隨用戶互動動態演化
  • 目前僅向美國 AI Ultra 訂閱用戶開放
  • 被視為通往 AGI 的關鍵里程碑