Google DeepMind Genie 3：世界模型開放使用，即時生成互動 3D 環境

Google DeepMind 於 1 月 29 日正式向公眾開放 Project Genie——一個基於 Genie 3 世界模型的互動應用程式。用戶只需輸入簡單的文字描述，AI 就能即時生成可以自由探索的 3D 環境。這標誌著「世界模型」技術從實驗室走向實際應用的重要一步。

什麼是世界模型？

世界模型（World Model）是 AI 研究中的一個核心概念，指的是 AI 系統對現實世界運作方式的內部理解和模擬能力。一個好的世界模型應該能夠：

理解物理定律（重力、碰撞、光線等）
預測行動的後果
模擬不同情境下的發展
根據用戶互動即時調整

許多 AI 專家認為，世界模型是實現通用人工智能（AGI）的關鍵組件之一。Meta 首席 AI 科學家 Yann LeCun 甚至離開 Meta 創立了專注世界模型的實驗室，估值高達 50 億美元。

Genie 3 的技術突破

                        Genie 3 核心規格
                        解析度：720p
幀率：24 fps（每秒 24 幀）
互動時長：可持續數分鐘
生成方式：自回歸（Autoregressive），逐幀生成
輸入方式：純文字描述

                    

與傳統的 3D 渲染技術（如 NeRF 或 Gaussian Splatting）不同，Genie 3 採用自回歸方式生成環境——每一幀都是根據初始提示和用戶的即時互動動態生成的。這意味著環境會隨著用戶的探索而演化，而非播放預先設定的序列。

從 Genie 2 到 Genie 3

去年發布的 Genie 2 只能生成 10-20 秒的短暫模擬。Genie 3 則大幅提升了持續時間、一致性和真實感，使其真正具備實用價值。

Project Genie 應用程式

Project Genie 是一個網頁應用程式，由 Genie 3、Nano Banana Pro 和 Gemini 共同驅動。用戶可以：

輸入文字描述想要探索的環境
AI 即時生成該環境
使用鍵盤或滑鼠在環境中自由移動
環境會根據用戶的行動持續演化

目前，Project Genie 僅向美國地區的 AI Ultra 訂閱用戶開放。國際版本的推出時間尚未公布。

當前限制

儘管 Genie 3 代表了重大突破，但仍存在一些限制：

時間限制：可支援數分鐘的連續互動，但尚無法達到數小時的持續體驗
真實地點準確性：生成的是「合理的」環境，而非精確重建
文字渲染：與大多數生成式模型一樣，難以呈現清晰可讀的文字
複雜場景：涉及多個自主實體的複雜情境仍具挑戰性

通往 AGI 的墊腳石

DeepMind 明確表示，Genie 3 是通往 AGI 的關鍵里程碑。其意義在於：

「Genie 3 使探索無限範圍的真實環境成為可能。這是通往 AGI 的關鍵墊腳石——使 AI 代理能夠進行推理、解決問題和執行現實世界行動。」——Google DeepMind

當 AI 能夠準確模擬物理世界時，它就能在虛擬環境中進行無限次的試錯學習，大幅加速 AI 代理的訓練過程。這對於機器人、自動駕駛等需要與物理世界互動的 AI 應用尤為重要。

世界模型競賽升溫

Genie 3 的發布進一步加劇了世界模型領域的競爭：

Yann LeCun：離開 Meta 創立世界模型實驗室，估值 50 億美元
Fei-Fei Li：World Labs 推出首個商用世界模型 Marble
Runway：發布 GWM-1 世界模型
General Intuition：獲得 1.34 億美元種子輪融資

對創作者和開發者的意義

對於遊戲開發者、建築師、電影製作人和其他創意工作者，世界模型技術開啟了全新可能：

快速原型製作：用文字描述即可生成 3D 場景
互動式故事敘述：觀眾可以探索而非被動觀看
虛擬場勘：在實地拍攝前預覽場景
遊戲設計：程序化生成無限遊戲世界

                        本文要點總結
                        Genie 3 是 Google DeepMind 的世界模型，可從文字生成互動 3D 環境
支援 720p、24fps，可持續互動數分鐘
採用自回歸生成，環境隨用戶互動動態演化
目前僅向美國 AI Ultra 訂閱用戶開放
被視為通往 AGI 的關鍵里程碑