港大聯手 ByteDance Seed 發布 World Guidance:為機器人 VLA 模型賦予「未來視野」,現實場景泛化率達 69.4%
香港大學研究人員與字節跳動 AI 研究部門攜手,提出以「未來觀測引導當下行動」的突破性框架,挑戰現有機器人控制模型的設計正規
香港大學研究人員與字節跳動 AI 研究部門攜手,提出以「未來觀測引導當下行動」的突破性框架,挑戰現有機器人控制模型的設計正規
在通用機器人研究領域,一個長期懸而未決的難題是:如何讓機器人模型既能高效地「想象」未來、又能以精細的動作準確回應當下?來自香港大學(HKU)與字節跳動旗下 AI 研究部門 ByteDance Seed 的聯合研究團隊,在 2026 年 2 月的一篇 arXiv 論文中給出了他們的答案——World Guidance(WoG)框架。
這項研究標誌著香港學術界在全球前沿 AI 競賽中寫下清晰座標:HKU 的研究人員不是在跟隨 AI 浪潮,而是正在塑造它的走向。
要理解 WoG 的意義,首先需要了解 Vision-Language-Action(VLA)模型在機器人研究中所扮演的角色。VLA 模型是當前最受矚目的通用機器人控制架構——它讓機器人能夠同時看見(Vision)、理解語言指令(Language)並做出實體動作(Action)。
過去幾年,這一技術路線已取得令人矚目的成果。Google 的 RT-2 率先展示了大型視覺語言模型直接驅動機器手臂的可能性;Physical Intelligence 的 pi0(π0)系統則將 VLA 架構推向了多任務靈巧操作的邊界;OpenVLA 作為開源代表,讓學術界得以廣泛實驗和迭代。
然而,VLA 模型有一個共同的結構性弱點,長期以來困擾著研究者:未來表徵的效率與細粒度動作控制之間存在難以調和的取捨關係。
HKU 與 ByteDance Seed 團隊的突破在於提出了一個更為優雅的問題重構:機器人動作的生成並不需要一幀完整的未來畫面,它只需要從未來觀測中萃取出的壓縮條件信號——即「條件空間」(condition space)。
WoG 框架的運作邏輯如下:
「我們的核心論點是:機器人不需要在腦海中完整地『想象』未來的每一個像素——它只需要知道世界最終應該是什麼樣的『感覺』,然後讓這個感覺引導它的每一步動作。」
這個設計理念與人類的直覺高度吻合。當我們伸手拿起一杯水時,大腦並不會逐幀預測整個動作序列的視覺結果;相反,我們對「抓住杯子」這個目標狀態有著清晰的感知,而這個感知自然地引導著手部每一刻的微調。WoG 將這種人類式的目標導向運動邏輯,移植進了 VLA 模型的架構之中。
論文在多個評測場景中系統地檢驗了 WoG 的性能表現:
在 Google Robot 模擬環境中,WoG 在涵蓋多樣化操作任務的基準測試上達到了 69.4% 的平均成功率,超越了多個現有的強基線方法。更值得關注的是,WoG 在真實機器人的分布外(Out-of-Distribution)泛化實驗中展現出穩健的適應能力——這意味著模型能夠處理訓練時未曾見過的新環境、新物體擺放和新指令組合,這正是通用機器人走向實際部署所必須克服的核心挑戰。
| 方法 | 未來建模方式 | 動作精細度 | 計算效率 |
|---|---|---|---|
| 傳統 VLA(無未來建模) | 無 | 中等 | 高 |
| 完整未來幀預測 | 像素級圖像生成 | 受噪聲干擾 | 低 |
| WoG(本研究) | 壓縮條件空間 | 高(精細) | 中高 |
ByteDance Seed 是字節跳動的核心 AI 研究部門,以大規模模型研究和工程實踐能力著稱。此前,Seed 團隊已在生成式 AI 領域留下顯著印記——Seedance 視頻生成模型便是其代表作之一,在文生視頻競賽中展現出與 Sora、Veo 等頂尖系統相抗衡的品質。
WoG 的發布,標誌著 ByteDance Seed 的研究觸角正式延伸至具身智能(Embodied AI)與物理世界 AI 的前沿陣地。這與全球科技巨頭的戰略走向高度一致——在語言模型趨於同質化的背景下,能夠感知並操作物理世界的機器人 AI 正成為下一輪競爭的核心戰場。
對香港 AI 研究社群而言,WoG 論文的意義不僅在於技術本身,更在於它所傳遞的信號:香港大學的研究團隊正在與全球頂級工業 AI 實驗室平等地共同創造前沿知識。
香港在全球 AI 研究版圖上的定位一直備受關注。作為一個擁有世界級大學群(HKU、HKUST、CUHK)、毗鄰深圳科技走廊、具備獨特國際連接優勢的城市,香港理論上擁有成為 AI 研究樞紐的所有條件。WoG 這類政產學聯合研究的落地,正是這種潛力兌現的具體表現。
WoG 框架的價值不僅止於它當前取得的數字成果。更重要的是,它為 VLA 模型研究開闢了一條新的設計思路:以目標導向的未來條件替代完整的未來重建,實現效率與精度的統一。
現實部署的機器人往往需要在同一環境中連續執行不同任務——整理餐桌、搬運物品、協助人員。WoG 的條件空間設計理論上可以為每個子任務動態生成對應的未來條件,使單一模型能夠更流暢地在任務間切換,而無需針對每個任務重新訓練。
WoG 的設計理念與當前另一個重要 AI 研究方向——世界模型——存在深刻的理論共鳴。以 Yann LeCun 的 Joint Embedding Predictive Architecture(JEPA)為代表,研究者們越來越相信,真正的機器智能需要一個能夠在抽象空間中預測世界動態的內部模型。WoG 的「條件空間」本質上是一種任務驅動的輕量世界模型,從具身智能這個應用角度為這一大方向提供了實踐支撐。
從更宏觀的視角看,WoG 是通用機器人技術棧中的一塊重要拼圖。當一個機器人能夠同時具備語言理解、視覺感知、對未來狀態的隱式預判以及精細動作控制,我們便離真正意義上「能幫忙做家務」的通用機器人更近了一步。
具身智能的突破,往往不來自某一單項技術的質變,而來自多個組件在正確架構下的整合。WoG 所做的,正是在 VLA 模型的關鍵環節中引入了此前缺失的時間感知維度。
近年來,香港本地 AI 研究產出在國際頂尖會議和期刊中的比重持續上升。WoG 論文的發布,在香港 AI 研究的版圖上添加了機器人具身智能這個新的座標。這與同期 HKUST、CUHK 等高校在多模態大模型、自動駕駛感知、AI 醫療等方向的投入,共同勾勒出香港高校 AI 研究多元化縱深的格局。
值得注意的是,WoG 所體現的「產學研聯合」模式——字節跳動提供工業規模的資源與應用導向,HKU 提供學術嚴謹性與人才供給——正是香港在 AI 生態建設中所倡導的協作路徑。如何讓這樣的成功合作模式可複製、可持續,是香港 AI 政策制定者值得深入思考的命題。
World Guidance 這個名字本身頗具深意——以世界的未來狀態作為當下行動的引導。這不僅是一個技術架構的描述,也是一種 AI 設計哲學的陳述:智能的行動應當是目標導向的,而非僅僅是對當前刺激的反射。
對於正在關注全球 AI 競賽走向的香港讀者而言,WoG 提供了一個鼓舞人心的參照:世界級的 AI 研究,正在香港大學的校園與字節跳動的伺服器之間悄然發生。這樣的合作需要更多,也需要更廣泛的支持——來自政策、資金、人才,以及整個社會對 AI 研究價值的認可。
當機器人終於學會用「未來視野」引導自己的行動,或許我們也應當以同樣的前瞻性,思考香港在全球 AI 地圖上應當佔據的位置。