NVIDIA DreamZero:機械人的「GPT-2 時刻」?世界行動模型實現零樣本策略控制
NVIDIA GEAR Lab 發表 140 億參數的世界行動模型,建基於預訓練視頻擴散骨幹,同時預測未來視覺狀態與連續動作輸出。機械人無需任何任務示範,僅憑文字指令即可解開鞋帶、與人握手。這是否真正意味著通用機械人智能的黎明?
NVIDIA GEAR Lab 發表 140 億參數的世界行動模型,建基於預訓練視頻擴散骨幹,同時預測未來視覺狀態與連續動作輸出。機械人無需任何任務示範,僅憑文字指令即可解開鞋帶、與人握手。這是否真正意味著通用機械人智能的黎明?
2026 年 2 月 17 日,NVIDIA GEAR Lab 的 Seonghyeon Ye、Yunhao Ge 等研究者在 arXiv 上發表了一篇題為 DreamZero 的論文(arXiv: 2602.15922),提出了一個被稱為「世界行動模型」(World Action Model, WAM)的全新架構。NVIDIA 高級研究科學家 Jim Fan 隨即在社交媒體上將其比作「機械人的 GPT-2 時刻」——一個看似大膽的類比,卻精確地捕捉了這項研究的核心意義:正如 GPT-2 在 2019 年首次讓世人看到大規模語言模型的湧現能力,DreamZero 或許正是我們第一次真正看見通用機械人策略從「理解世界」中自然湧現的瞬間。
要理解 DreamZero 的意義,必須先釐清一個根本問題:機械人為什麼需要「理解世界」?
過去數十年,機械人控制的主流範式可以大致分為三個階段。第一階段是基於規則的控制——工程師手動編寫每一條運動指令,適用於工廠中重複性極高的固定任務。第二階段是強化學習(RL)和模仿學習——機械人透過大量試錯或觀看人類示範來學習特定技能,但每一項新技能通常需要從頭訓練。第三階段是近年興起的視覺-語言-動作模型(Vision-Language-Action, VLA),例如 Google DeepMind 的 RT-2 和 Octo,它們試圖將大型語言模型的泛化能力引入機械人控制,讓機械人能夠理解語言指令並執行相應動作。
然而,VLA 模型有一個根本性的盲點:它們學習的是「看到什麼就做什麼」的映射關係(observation-to-action mapping),卻不真正「理解」動作會如何改變世界。打個比方,一個只會背棋譜的棋手,面對從未見過的棋局便束手無策;但一個理解棋理的棋手,即使面對陌生局面也能推演出合理的應對。VLA 模型更像前者——它們的泛化能力受限於訓練數據的覆蓋範圍。
世界模型(World Model)代表了一條截然不同的路徑。它的核心理念是:如果一個 AI 系統能夠在內部「想像」動作的後果——預測執行某個動作後世界會變成什麼樣子——那麼它就擁有了在從未遇到的情境中做出合理決策的基礎。這正是人類認知的核心能力之一:我們不需要真的把杯子推下桌子才知道它會摔碎,因為我們的大腦裡有一個關於物理世界的內在模型。
DreamZero 的創新之處,在於它巧妙地將這兩個目標——理解世界和控制機械人——統一在一個架構之中。
具體而言,DreamZero 建基於一個預訓練的視頻擴散模型——Wan2.1-I2V-14B,這是一個已經在海量互聯網視頻上學習了物理世界運動規律的大型生成模型。研究團隊在這個「已經理解世界長什麼樣」的骨幹模型之上,增加了一個動作預測頭(action prediction head),使其能夠在生成未來視頻幀的同時,輸出機械人應該執行的連續動作信號。
這種設計的精妙之處在於:視頻預測和動作預測是相互強化的。模型在預測「如果機械臂向左移動五厘米,畫面會如何變化」的過程中,自然地建立起了對動作後果的理解;反過來,對動作後果的理解又使得模型能夠選擇最有可能達成目標的動作序列。這形成了一個良性循環,使得模型的泛化能力遠超傳統的「觀察-動作」映射。
DreamZero 最令人驚嘆的實驗結果,是其零樣本(zero-shot)能力。所謂零樣本,是指機械人在從未接受過某項任務的訓練或示範的情況下,僅憑文字描述就能執行該任務。論文展示了多個引人注目的案例:機械人能夠「解開鞋帶」、「與人類握手」——這些都是訓練數據中完全不存在的任務。
這為什麼重要?因為它意味著機械人的能力不再被訓練數據的覆蓋範圍所限制。傳統方法下,要讓機械人學會一個新技能,你需要收集該技能的示範數據、設計獎勵函數、進行大量訓練。而 DreamZero 顯示,一個對物理世界有足夠深入理解的模型,可以從「理解」直接湧現出「能力」——正如一個理解語言規律的大型語言模型,無需專門訓練就能寫詩、寫代碼、回答各種問題。
DreamZero 的另一個重要突破是跨機體遷移能力(cross-embodiment transfer)——即同一個模型可以控制不同形態的機械人。論文報告了 42% 的相對改善,這意味著一個在某種機械臂上訓練的模型,可以顯著更好地適應另一種完全不同的機械臂。
更值得注意的是其「少樣本機體適應」(few-shot embodiment adaptation)能力:僅需 30 分鐘的隨意操作數據(play data)——即操作員隨意移動機械臂、無需執行特定任務——就足以讓模型適應一個全新的機體。這大幅降低了將 AI 部署到新硬體上的門檻,對於機械人產業的規模化發展具有深遠意義。
要準確評估 DreamZero 的地位,需要將其放在當前機械人學習的技術版圖中考量。
過去兩年,VLA 模型是機械人泛化研究的主流方向。Google DeepMind 的 RT-2(2023 年)首次展示了視覺-語言模型可以直接輸出機械人動作,此後 Octo、OpenVLA 等開源模型持續推進這一範式。VLA 模型的基本思路是:將機械人的動作空間視為一種「語言」,利用大型語言模型的泛化能力來處理。
然而,VLA 模型的泛化仍然主要依賴於訓練數據中語言-動作對的多樣性。當遇到訓練分布之外的全新任務時,VLA 模型往往表現不佳。DreamZero 論文中報告的「新任務泛化能力較 VLA 提升逾兩倍」,正是針對這一薄弱環節的直接回應。
DreamZero 所代表的「世界行動模型」範式,本質上是在機械人控制中引入了一個「物理模擬器」。但與傳統的工程化物理引擎不同,這個「模擬器」是從數據中學習而來的——它不需要手動建模每一種物理現象,而是從海量視頻中自動學習物理規律。這使得它能夠處理傳統物理引擎難以模擬的複雜場景,例如布料的褶皺、液體的流動、柔性物體的變形。
選擇視頻擴散模型作為骨幹,而非更常見的 Transformer 語言模型,這一架構決策尤為關鍵。視頻擴散模型在預訓練階段已經從互聯網視頻中學習了豐富的物理先驗知識——重力如何作用、物體如何碰撞、不同材質如何響應外力。DreamZero 的貢獻在於,它找到了一種方法將這些已經習得的「物理直覺」轉化為可執行的機械人動作。
值得注意的是,DreamZero 並非 NVIDIA 在這一方向上的孤立嘗試。幾乎同時,NVIDIA 還發表了 DreamDojo 項目,利用 44,000 小時的人類活動視頻來訓練機械人。兩個項目相互呼應,構成了 NVIDIA 在「Physical AI」領域的組合拳:DreamDojo 解決的是訓練數據的來源問題——如何從豐富但無標註的人類視頻中提取可用於機械人學習的知識;DreamZero 解決的是模型架構問題——如何將世界理解轉化為可執行的控制策略。
這一組合策略意義重大。長期以來,機械人 AI 領域面臨的最大瓶頸並非算法,而是數據。與自然語言處理(互聯網上有近乎無限的文本)和計算機視覺(ImageNet 等大型標註數據集)不同,機械人操作數據的收集極為昂貴——每一條數據都需要真實的機械人在真實環境中執行真實的動作。DreamDojo 和 DreamZero 的結合,提供了一條繞過這一瓶頸的路徑:先從人類視頻中學習世界的運作方式,再將這種理解遷移到機械人控制。
學術論文中的漂亮數字,往往在面對現實世界的約束時大打折扣。DreamZero 論文中一個容易被忽略但極為重要的細節是:該模型在 NVIDIA GB200 硬體上實現了 7Hz 的實時閉環控制。
7Hz 意味著模型每秒能夠完成 7 次「觀察環境 -> 思考 -> 輸出動作」的完整循環。對於桌面操作任務(如抓取、放置、組裝)而言,這個頻率已經足以實現流暢的即時控制。相比之下,許多基於大型模型的機械人控制系統,推理延遲高達數秒,只能以開環方式執行預規劃的動作序列,無法對環境的即時變化做出反應。
當然,7Hz 仍不足以應對需要極高反應速度的任務(例如接住拋來的物體,通常需要 100Hz 以上的控制頻率)。但它標誌著一個重要的里程碑:大型世界模型從「只能做離線規劃」跨越到「可以做實時控制」。隨著硬體持續進化,這個頻率上限必將進一步提升。
Jim Fan 將 DreamZero 比作機械人的「GPT-2 時刻」,這個類比值得仔細推敲。
準確之處在於:GPT-2 在 2019 年發表時,是第一個讓人們真正意識到「規模化的語言模型可以湧現出令人驚訝的通用能力」的系統。它的文本生成質量讓 OpenAI 一度猶豫是否公開模型權重。同樣,DreamZero 首次有力地展示了「規模化的世界模型可以湧現出通用的機械人控制能力」。機械人無需針對特定任務訓練就能解鞋帶、握手——這種零樣本泛化的質量,在之前的系統中是看不到的。
不準確之處,或者說需要審慎看待之處在於:從 GPT-2 到 ChatGPT(GPT-3.5),中間經歷了三年多的密集發展——更大的模型、更好的訓練方法、RLHF 對齊技術、大量的工程優化。GPT-2 時期的語言模型雖然令人印象深刻,但距離真正的產品化仍有很長的路要走。同理,DreamZero 展示了令人興奮的可能性,但從實驗室演示到穩定、可靠、安全的工業級機械人控制系統,中間的鴻溝不可低估。
「每一次 AI 領域的突破性演示,都伴隨著兩種截然相反的風險:過度悲觀會讓我們錯失機遇,過度樂觀則會導致資源誤配和信任透支。DreamZero 值得認真對待,但不應被神化。」
DreamZero 的發表,正值 Physical AI 領域進入白熱化競爭的關鍵時刻。
NVIDIA 自身的佈局已經相當清晰。黃仁勳(Jensen Huang)此前在 CES 2026 上高調宣布「機械人的 ChatGPT 時刻已經來臨」,並發布了 Cosmos 開源世界基礎模型。DreamZero 可以被視為這一戰略宣言的技術實證——NVIDIA 不僅在硬體(GPU、GB200)和平台(Omniverse、Isaac)層面佈局,更在核心算法層面取得了實質性突破。
與此同時,競爭對手們也在加速佈局。Boston Dynamics 與 Google DeepMind 宣布合作,將 Gemini 系列模型整合至 Atlas 人形機械人。Skild AI 在 2026 年 2 月完成了高達 14 億美元的 C 輪融資,估值 140 億美元,試圖打造控制「任何環境中任何機器人」的通用基礎模型。在中國,一批人形機械人公司正在以驚人的速度崛起,從硬體製造到 AI 算法全面發力。
這場競賽的焦點,正在從「能不能做」轉向「誰做得最好、最快、最穩」。DreamZero 提出的 WAM 範式,為 NVIDIA 在這場競賽中提供了一個獨特的技術支撐點——但最終的勝負,將取決於誰能最先將實驗室成果轉化為穩定運行的產業級解決方案。
當前工廠中的工業機械人,絕大多數仍是「專用設備」——一條焊接線上的機械臂只會焊接,一台搬運機器人只會沿預設路線搬運。每次產線變更,都需要昂貴且耗時的重新編程。如果 DreamZero 所代表的零樣本泛化能力能夠在工業場景中得到驗證,意味著一台機械人可以透過自然語言指令快速切換任務——今天做零件裝配,明天做質量檢測,後天做包裝出貨。這將從根本上改變製造業的靈活性和經濟性計算。
對於香港及大灣區而言,這一趨勢尤為值得關注。珠三角作為全球最大的製造業集群之一,正面臨勞動力成本上升和訂單碎片化(小批量、多品種)的雙重壓力。通用機械人技術若能成熟,將為該區域的製造業轉型升級提供關鍵技術支撐。
醫療機械人是另一個可能深受影響的領域。當前的手術機械人(如 Intuitive Surgical 的 da Vinci 系統)本質上是精密的遙控工具——人類外科醫生透過操控台控制機械臂的每一個動作。世界行動模型的引入,有望為醫療機械人增添「自主判斷」的能力——例如在縫合時自動調整針的角度和力度,在組織分離時根據組織特性選擇最佳操作路徑。
然而,醫療場景也對安全性提出了最為嚴苛的要求。DreamZero 目前的零樣本能力雖然令人印象深刻,但在容錯率極低的醫療操作中,任何不可預測的行為都是不可接受的。醫療領域的實際應用,可能需要在「通用世界模型 + 領域特定安全約束」之間找到精細的平衡。
如果說工廠是半結構化環境、醫院是高度結構化環境,那麼家庭就是最典型的非結構化環境。每個家庭的佈局不同、物品不同、使用習慣不同。這恰恰是 DreamZero 的世界模型方法最有價值的場景——在一個充滿未知和變化的環境中,「理解世界如何運作」比「記住應該怎麼做」重要得多。
DreamZero 展示的「僅憑文字指令完成從未見過的任務」的能力,如果能夠穩定地遷移到家庭場景,將徹底改變家用機械人的產品邏輯——從「預設功能」轉向「理解意圖」。家庭成員不再需要學習如何操控機械人,而是像對一個有常識的助手說話一樣,用自然語言表達需求。
在為 DreamZero 的技術成就感到興奮的同時,我們必須清醒地認識到,從學術論文到可靠產品之間,還有多個重大挑戰有待克服。
穩健性與一致性。論文展示的是成功案例,但在真實部署中,模型需要在數以千計的連續操作中保持穩定表現。一個成功率為 80% 的系統,在實驗室裡是一篇好論文,但在工廠裡意味著每五次操作就有一次失敗——這在多數工業場景中是不可接受的。
安全性保障。一個能夠「想像」並執行從未見過的動作的系統,也可能「想像」出危險的動作。如何確保模型的創造性不會演變為不可控的風險,是世界行動模型從實驗室走向現實必須解決的核心問題。
計算成本。140 億參數的模型在 GB200 上實現 7Hz 控制,意味著每台機械人都需要配備價值不菲的高端推理硬體。這在短期內將限制該技術的普及範圍,主要適用於高附加值的應用場景。
數據版權與倫理。以互聯網視頻作為預訓練數據,不可避免地觸及數據版權問題。這與 LLM 領域面臨的版權爭議一脈相承,但在機械人領域,還額外涉及動作的模仿與再現——如果機械人學會了一個專利保護的裝配工序,法律如何界定?