← 返回新聞列表

港大聯手 ByteDance Seed 發布 World Guidance:為機器人 VLA 模型賦予「未來視野」,現實場景泛化率達 69.4%

香港大學研究人員與字節跳動 AI 研究部門攜手,提出以「未來觀測引導當下行動」的突破性框架,挑戰現有機器人控制模型的設計正規

在通用機器人研究領域,一個長期懸而未決的難題是:如何讓機器人模型既能高效地「想象」未來、又能以精細的動作準確回應當下?來自香港大學(HKU)與字節跳動旗下 AI 研究部門 ByteDance Seed 的聯合研究團隊,在 2026 年 2 月的一篇 arXiv 論文中給出了他們的答案——World Guidance(WoG)框架。

這項研究標誌著香港學術界在全球前沿 AI 競賽中寫下清晰座標:HKU 的研究人員不是在跟隨 AI 浪潮,而是正在塑造它的走向。

VLA 模型:機器人通用智能的核心賭注

要理解 WoG 的意義,首先需要了解 Vision-Language-Action(VLA)模型在機器人研究中所扮演的角色。VLA 模型是當前最受矚目的通用機器人控制架構——它讓機器人能夠同時看見(Vision)、理解語言指令(Language)並做出實體動作(Action)。

過去幾年,這一技術路線已取得令人矚目的成果。Google 的 RT-2 率先展示了大型視覺語言模型直接驅動機器手臂的可能性;Physical Intelligence 的 pi0(π0)系統則將 VLA 架構推向了多任務靈巧操作的邊界;OpenVLA 作為開源代表,讓學術界得以廣泛實驗和迭代。

然而,VLA 模型有一個共同的結構性弱點,長期以來困擾著研究者:未來表徵的效率與細粒度動作控制之間存在難以調和的取捨關係。

VLA 模型的核心困境

  • 預測完整未來幀:計算開銷龐大,訓練成本高昂,且高解析度視覺預測引入大量噪聲,反而干擾精細動作的生成
  • 完全跳過未來預測:模型只能依賴當前觀測反應式地輸出動作,缺乏時間前瞻性,在複雜序列任務中表現不穩定
  • 兩難選擇:現有方法要麼犧牲計算效率,要麼犧牲對未來狀態的感知能力

WoG 的核心洞見:從未來觀測中提煉「條件空間」

HKU 與 ByteDance Seed 團隊的突破在於提出了一個更為優雅的問題重構:機器人動作的生成並不需要一幀完整的未來畫面,它只需要從未來觀測中萃取出的壓縮條件信號——即「條件空間」(condition space)。

WoG 框架的運作邏輯如下:

  1. 世界預測模組根據當前狀態和語言指令,推斷機器人完成任務後世界將呈現的緊湊潛在表徵,而非生成完整的未來圖像
  2. 這個未來條件空間作為一種輕量化的「行動指南針」,被注入到動作生成模組中
  3. 動作生成模組在當前觀測和這個未來條件的共同引導下,輸出精確、細粒度的控制動作
「我們的核心論點是:機器人不需要在腦海中完整地『想象』未來的每一個像素——它只需要知道世界最終應該是什麼樣的『感覺』,然後讓這個感覺引導它的每一步動作。」

這個設計理念與人類的直覺高度吻合。當我們伸手拿起一杯水時,大腦並不會逐幀預測整個動作序列的視覺結果;相反,我們對「抓住杯子」這個目標狀態有著清晰的感知,而這個感知自然地引導著手部每一刻的微調。WoG 將這種人類式的目標導向運動邏輯,移植進了 VLA 模型的架構之中。

量化成果:模擬與現實的雙重驗證

論文在多個評測場景中系統地檢驗了 WoG 的性能表現:

69.4% Google Robot 模擬任務平均成功率
強泛化 真實世界分布外場景表現
精細控制 細粒度動作生成能力保留
輕量化 未來表徵提取成本顯著降低

在 Google Robot 模擬環境中,WoG 在涵蓋多樣化操作任務的基準測試上達到了 69.4% 的平均成功率,超越了多個現有的強基線方法。更值得關注的是,WoG 在真實機器人的分布外(Out-of-Distribution)泛化實驗中展現出穩健的適應能力——這意味著模型能夠處理訓練時未曾見過的新環境、新物體擺放和新指令組合,這正是通用機器人走向實際部署所必須克服的核心挑戰。

方法 未來建模方式 動作精細度 計算效率
傳統 VLA(無未來建模) 中等
完整未來幀預測 像素級圖像生成 受噪聲干擾
WoG(本研究) 壓縮條件空間 高(精細) 中高

ByteDance Seed:從視頻生成到機器人智能的研究版圖

ByteDance Seed 是字節跳動的核心 AI 研究部門,以大規模模型研究和工程實踐能力著稱。此前,Seed 團隊已在生成式 AI 領域留下顯著印記——Seedance 視頻生成模型便是其代表作之一,在文生視頻競賽中展現出與 Sora、Veo 等頂尖系統相抗衡的品質。

WoG 的發布,標誌著 ByteDance Seed 的研究觸角正式延伸至具身智能(Embodied AI)與物理世界 AI 的前沿陣地。這與全球科技巨頭的戰略走向高度一致——在語言模型趨於同質化的背景下,能夠感知並操作物理世界的機器人 AI 正成為下一輪競爭的核心戰場。

HKU 的位置:香港高校站上全球 AI 前線

對香港 AI 研究社群而言,WoG 論文的意義不僅在於技術本身,更在於它所傳遞的信號:香港大學的研究團隊正在與全球頂級工業 AI 實驗室平等地共同創造前沿知識。

香港在全球 AI 研究版圖上的定位一直備受關注。作為一個擁有世界級大學群(HKU、HKUST、CUHK)、毗鄰深圳科技走廊、具備獨特國際連接優勢的城市,香港理論上擁有成為 AI 研究樞紐的所有條件。WoG 這類政產學聯合研究的落地,正是這種潛力兌現的具體表現。

為什麼 HKU-ByteDance Seed 合作值得關注

  • 橋接學術與工業:HKU 提供嚴謹的理論框架與人才培育;ByteDance Seed 提供大規模計算資源與工程落地能力
  • 粵港澳大灣區協同效應:字節跳動在深圳的研發佈局與香港高校形成地理上的天然夥伴關係
  • 人才留港信號:頂級 AI 研究機會在香港本地落地,有助於吸引和留住本地及海外 AI 研究人才
  • 國際發表認可:以 arXiv 首發、面向全球學術社群,體現研究成果的開放性與信心

具身智能的下一步:WoG 開啟了什麼可能

WoG 框架的價值不僅止於它當前取得的數字成果。更重要的是,它為 VLA 模型研究開闢了一條新的設計思路:以目標導向的未來條件替代完整的未來重建,實現效率與精度的統一。

對多任務機器人的啟發

現實部署的機器人往往需要在同一環境中連續執行不同任務——整理餐桌、搬運物品、協助人員。WoG 的條件空間設計理論上可以為每個子任務動態生成對應的未來條件,使單一模型能夠更流暢地在任務間切換,而無需針對每個任務重新訓練。

與世界模型(World Model)研究的呼應

WoG 的設計理念與當前另一個重要 AI 研究方向——世界模型——存在深刻的理論共鳴。以 Yann LeCun 的 Joint Embedding Predictive Architecture(JEPA)為代表,研究者們越來越相信,真正的機器智能需要一個能夠在抽象空間中預測世界動態的內部模型。WoG 的「條件空間」本質上是一種任務驅動的輕量世界模型,從具身智能這個應用角度為這一大方向提供了實踐支撐。

通往真正通用機器人的路徑

從更宏觀的視角看,WoG 是通用機器人技術棧中的一塊重要拼圖。當一個機器人能夠同時具備語言理解、視覺感知、對未來狀態的隱式預判以及精細動作控制,我們便離真正意義上「能幫忙做家務」的通用機器人更近了一步。

具身智能的突破,往往不來自某一單項技術的質變,而來自多個組件在正確架構下的整合。WoG 所做的,正是在 VLA 模型的關鍵環節中引入了此前缺失的時間感知維度。

對香港 AI 研究生態的意義

近年來,香港本地 AI 研究產出在國際頂尖會議和期刊中的比重持續上升。WoG 論文的發布,在香港 AI 研究的版圖上添加了機器人具身智能這個新的座標。這與同期 HKUST、CUHK 等高校在多模態大模型、自動駕駛感知、AI 醫療等方向的投入,共同勾勒出香港高校 AI 研究多元化縱深的格局。

值得注意的是,WoG 所體現的「產學研聯合」模式——字節跳動提供工業規模的資源與應用導向,HKU 提供學術嚴謹性與人才供給——正是香港在 AI 生態建設中所倡導的協作路徑。如何讓這樣的成功合作模式可複製、可持續,是香港 AI 政策制定者值得深入思考的命題。

WoG 研究要點速覽

  • 研究機構:香港大學(HKU)+ ByteDance Seed
  • 發布平台:arXiv(2026 年 2 月)
  • 核心貢獻:提出以壓縮「條件空間」替代完整未來幀預測,引導 VLA 模型精細動作生成
  • 主要成果:Google Robot 模擬任務平均成功率 69.4%;現實分布外場景強泛化能力
  • 技術定位:解決 VLA 模型中效率與精度的核心取捨問題
  • 影響方向:通用機器人、具身智能、多任務操作、世界模型應用

結語:「未來視野」的象徵意義

World Guidance 這個名字本身頗具深意——以世界的未來狀態作為當下行動的引導。這不僅是一個技術架構的描述,也是一種 AI 設計哲學的陳述:智能的行動應當是目標導向的,而非僅僅是對當前刺激的反射。

對於正在關注全球 AI 競賽走向的香港讀者而言,WoG 提供了一個鼓舞人心的參照:世界級的 AI 研究,正在香港大學的校園與字節跳動的伺服器之間悄然發生。這樣的合作需要更多,也需要更廣泛的支持——來自政策、資金、人才,以及整個社會對 AI 研究價值的認可。

當機器人終於學會用「未來視野」引導自己的行動,或許我們也應當以同樣的前瞻性,思考香港在全球 AI 地圖上應當佔據的位置。