← 返回新聞列表

李飛飛 World Labs 融資 10 億美元:空間智能與世界模型的十億級賭注

2 月 18 日,史丹福大學教授李飛飛(Fei-Fei Li)創辦的 World Labs 宣布完成 10 億美元融資,投資陣容涵蓋 NVIDIA、AMD、Autodesk(出資 2 億美元)、Fidelity 及 Andreessen Horowitz 等頂級機構。這是「世界模型」(World Models)賽道迄今最大規模的單輪融資之一,也標誌着資本市場正在將目光從純文字的大型語言模型,轉向能夠理解三維空間與物理規則的全新 AI 範式。

十億美元的邏輯:為什麼資本湧向空間智能

10 億美元是一個足以引起整個科技行業關注的數字。對於一家成立僅兩年多的初創公司而言,這個融資規模意味着投資者看到了遠超短期回報的長期戰略價值。要理解這筆投資的邏輯,需要先理解一個核心問題:大型語言模型(LLM)的局限性正在哪裏顯現?

過去三年,LLM 在文字處理、程式編寫、知識問答等領域展現了驚人的能力。但一個越來越難以迴避的事實是:這些模型對物理世界幾乎一無所知。它們可以寫出一篇關於重力的精彩論文,卻無法預測一個球從桌面滾落後會怎樣運動。它們可以描述一座建築的結構,卻無法「看見」這座建築在三維空間中的樣子。這種根本性的缺陷,正是世界模型試圖填補的空白。

World Labs 的核心理念是「空間智能」(Spatial Intelligence)——讓 AI 系統像人類一樣理解三維空間、物理規則和物體之間的互動關係。李飛飛本人多次強調,人類智能的基礎不是語言,而是對空間的感知和理解。嬰兒在學會第一個詞語之前,就已經建立了對深度、距離、重力和物體持久性的直覺認知。世界模型的目標,正是讓 AI 獲得這種前語言的、基於物理世界的理解能力。

World Labs 10 億美元融資關鍵數據

  • 融資金額:10 億美元(2026 年 2 月 18 日宣布)
  • 主要投資者:NVIDIA、AMD、Autodesk(2 億美元)、Fidelity、Andreessen Horowitz
  • 旗艦產品:Marble——從圖像或文字生成 3D 互動世界
  • 目標領域:遊戲開發、機器人訓練、科學發現、工業設計
  • 創辦人:李飛飛——史丹福教授、ImageNet 共同創建者、前 Google Cloud 首席科學家

投資者陣容的深層信號

這輪融資的投資者名單本身就是一份值得仔細解讀的文件。NVIDIA 和 AMD——全球兩大 GPU 巨頭——同時出現在一家初創公司的投資者名單中,這在業界極為罕見。兩家公司在晶片市場上是直接競爭對手,但在 World Labs 的投資上卻達成了罕見的共識。這反映了一個重要判斷:無論世界模型最終由哪家公司主導,對 GPU 算力的需求都將是天文數字級別的。投資 World Labs,既是對未來技術方向的押注,也是對自身硬件銷售管道的戰略佈局。

Autodesk 以 2 億美元的單筆投資尤其引人注目。作為全球最大的設計軟件公司——AutoCAD、Revit、Maya 等行業標準工具的開發者——Autodesk 的參與意味着世界模型技術正在被傳統設計行業視為下一次生產力革命的核心技術。可以預見的是,World Labs 的 Marble 技術未來很可能會直接整合到 Autodesk 的產品線中,讓建築師、工業設計師和影視製作人能夠用自然語言或簡單的草圖生成完整的 3D 環境。

Fidelity 和 Andreessen Horowitz 的加入則代表了兩種不同的資本邏輯。Fidelity 作為管理超過 4 萬億美元資產的全球最大基金管理公司之一,其投資決策通常基於對長期市場趨勢的判斷,而非短期技術熱點。Andreessen Horowitz(a16z)則是矽谷最具影響力的風險投資機構之一,其合夥人長期以來一直在撰寫關於「軟件吃掉世界」的論述。如今,他們顯然認為「空間智能吃掉世界」將是下一個大敘事。

Marble:重新定義數碼世界的創建方式

World Labs 的旗艦產品 Marble 是一個能夠從圖像或文字描述生成完整 3D 互動世界的系統。這聽起來可能像是 3D 建模軟件的升級版,但實際上兩者之間存在本質差異。

傳統 3D 建模——無論是 Blender、Maya 還是 Unreal Engine——本質上是一個「手動雕塑」的過程。設計師需要逐個頂點、逐個面片地構建 3D 模型,然後手動設置材質、光照和物理屬性。即使是一個相對簡單的室內場景,也可能需要一位熟練的 3D 藝術家花費數天到數週的時間。

Marble 顛覆了這個流程。使用者只需要提供一張圖片——例如一張城市街景的照片——Marble 就能生成一個完整的 3D 環境,其中包含建築、街道、車輛、行人、植被等所有元素,而且每個元素都具備合理的物理屬性。使用者可以在這個環境中自由移動、與物體互動,甚至改變時間和天氣條件來觀察場景的變化。如果用文字描述,例如「一座未來主義風格的太空站,位於火星表面,內部有人工重力系統」,Marble 同樣可以生成一個物理上自洽的可互動環境。

「我們不是在做更好的 3D 建模工具。我們在做的是讓機器理解世界的結構——空間、物理、因果關係。Marble 只是這個更大願景的第一個商業化表達。」——李飛飛

四大目標領域的商業邏輯

遊戲開發:全球遊戲市場規模超過 2,000 億美元,而遊戲開發中最耗時、最昂貴的環節之一就是 3D 環境和場景的設計。一款 3A 級遊戲的環境設計可能需要數百名藝術家工作數年。Marble 的技術有潛力將這個過程從「年」壓縮到「天」,不僅大幅降低成本,還能讓小型獨立團隊製作出過去只有大型工作室才能實現的開放世界遊戲。

機器人訓練:這可能是世界模型最具戰略意義的應用場景。訓練一個能在真實世界中運作的機器人,需要海量的模擬環境數據。傳統方法是手動構建模擬場景,不僅成本高昂,而且場景多樣性有限。Marble 可以自動生成數以千計的多樣化訓練環境——不同的房間佈局、不同的光照條件、不同的物體配置——讓機器人在虛擬世界中獲得足夠豐富的經驗,再將這些經驗遷移到真實世界。

科學發現:在分子生物學、材料科學和天體物理學等領域,研究者經常需要模擬複雜的三維系統。世界模型可以提供一種全新的模擬方法——不是基於預設的物理方程式,而是基於對物理規則的學習和推理。這種方法可能在傳統模擬方法難以處理的複雜系統中展現獨特優勢。

工業設計:Autodesk 2 億美元投資的直接商業邏輯就在於此。從汽車設計到建築規劃,從產品原型到城市模擬,世界模型可以讓設計師用自然語言探索設計空間,快速生成和比較不同方案,而不是花費數週手動建模每一個備選方案。

從 ImageNet 到 World Labs:李飛飛的學術到產業之路

理解 World Labs 的戰略意義,離不開對其創辦人李飛飛學術軌跡的認識。李飛飛並非一位典型的矽谷創業者,她的每一步職業選擇都深刻影響了整個 AI 領域的發展方向。

2009 年,時任史丹福大學助理教授的李飛飛與同事發布了 ImageNet——一個包含超過 1,400 萬張標註圖像的大規模數據集。在當時,這個項目被很多同行認為是「笨功夫」,因為主流 AI 研究者更傾向於設計精巧的算法,而非堆積數據。但歷史證明,ImageNet 是深度學習革命的催化劑。2012 年,AlexNet 在 ImageNet 挑戰賽上的突破性表現,直接引爆了深度學習浪潮,開啟了 AI 的現代紀元。可以說,今天我們使用的每一個 AI 系統,都在某種程度上受益於 ImageNet 奠定的基礎。

2017 年至 2018 年,李飛飛出任 Google Cloud 首席科學家兼人工智能及機器學習副總裁。這段在科技巨頭的工作經歷,讓她深入理解了 AI 技術從研究到商業化的全過程,也讓她認識到學術界的研究成果要產生真正的社會影響,往往需要產業化的推動力。

World Labs 的創辦,可以被視為李飛飛將其二十年學術積累轉化為產業行動的戰略決定。正如 ImageNet 為視覺 AI 提供了基礎設施,World Labs 的目標是為空間智能提供基礎設施——不是替代現有的 AI 系統,而是為它們增加理解物理世界的能力。

競爭格局:十億美元俱樂部的世界模型競賽

World Labs 的 10 億美元融資並非孤立事件,它是一場更大規模的資本競賽的一部分。2026 年初,多家瞄準「後 LLM 架構」的公司同時獲得了大規模融資,形成了一個引人注目的趨勢。

NVIDIA DreamZero:硬件巨頭的軟件野心

NVIDIA 並不滿足於只做世界模型的硬件供應商。其內部孵化的 DreamZero 項目正在開發專門面向機器人的世界模型。DreamZero 的策略與 World Labs 有所不同——它不是從圖像或文字生成通用的 3D 環境,而是專注於生成用於機器人操作訓練的特定任務場景。這意味着 NVIDIA 正在同時押注基礎設施層(GPU 和 Cosmos 平台)和應用層(DreamZero),形成一個垂直整合的策略。值得注意的是,NVIDIA 投資 World Labs 的同時也在發展自己的世界模型,這種「既投資又競爭」的模式在科技行業並不罕見,但確實增加了未來競爭格局的複雜性。

Runway:影片生成到世界模型的轉型

就在不久前,AI 影片生成公司 Runway 完成了 3.15 億美元融資,估值達 53 億美元。更值得關注的是,Runway 正在將自己從「影片生成工具」重新定位為「世界模型開發者」。其核心論點是:能夠生成逼真影片的模型,本質上已經學會了物理世界的某些規則——光影如何變化、物體如何運動、表面如何反射。這種從影片生成到世界理解的技術遷移路徑,與 World Labs 從視覺理解出發的路線形成了有趣的對比。

David Silver 的 Ineffable Intelligence:強化學習大師的新賭注

另一條值得關注的路線來自 DeepMind 的傳奇研究者 David Silver。作為 AlphaGo 和 AlphaZero 的核心設計者,Silver 正在為其新創公司 Ineffable Intelligence 籌集 10 億美元。Ineffable Intelligence 的願景是將 Silver 在強化學習和搜索算法方面的深厚積累,應用到世界模型和通用智能的構建上。如果說李飛飛的路線是「從視覺理解到世界模型」,Silver 的路線則是「從決策規劃到世界模型」——兩者殊途同歸,都在試圖讓 AI 超越純文字推理,進入對物理世界的深層理解。

多位頂尖研究者同時以十億美元級別的融資規模押注「後 LLM 架構」,這本身就是一個極其強烈的信號:AI 產業的領軍人物已經開始系統性地佈局下一個技術範式。

2026 年初世界模型 / 後 LLM 架構融資概覽

  • World Labs(李飛飛):10 億美元——空間智能,從圖像/文字生成 3D 互動世界
  • Ineffable Intelligence(David Silver):籌集中,目標 10 億美元——強化學習驅動的世界模型
  • Runway:3.15 億美元——從影片生成延伸至世界模型
  • NVIDIA DreamZero:內部項目——面向機器人的專用世界模型

為什麼世界模型是後 LLM 時代的關鍵範式

要理解世界模型為何被視為下一個技術範式,需要回到一個根本性的問題:AI 的最終目標是什麼?如果目標只是處理和生成文字,那麼 LLM 已經做得相當出色。但如果目標是創建能夠在真實世界中有效行動的智能系統——無論是機器人、自動駕駛車輛還是科學發現助手——那麼僅有語言理解能力是遠遠不夠的。

LLM 的根本限制在於其訓練數據的本質。文字是對世界的抽象描述,而非世界本身。當我們寫「球從桌面掉落」時,這句話壓縮了大量的物理信息——球的重量、桌面的高度、空氣阻力、落地時的彈跳——這些信息在文字中被省略,因為人類讀者可以憑藉自身的物理直覺自動補全。但 LLM 沒有這種物理直覺,它只是學會了文字之間的統計關聯,而非文字背後的物理現實。

世界模型試圖解決的正是這個問題。它們不是在文字空間中運作,而是在一個模擬物理世界的連續表示空間中運作。它們的目標不是預測下一個詞語,而是預測下一個世界狀態——如果施加某個力,物體會怎樣移動?如果改變光照角度,場景會怎樣變化?如果機器人執行某個動作,環境會怎樣回應?

這種從「語言預測」到「世界狀態預測」的轉變,其深遠意義堪比當年從規則系統到機器學習的轉變。它意味着 AI 不再僅僅是一個文字處理引擎,而是開始成為一個能夠理解和模擬物理現實的系統。

空間計算時代的基礎設施

世界模型的崛起還需要放在一個更大的技術趨勢中理解:空間計算(Spatial Computing)時代的來臨。Apple Vision Pro 的發布、Meta Quest 系列的持續迭代、以及大量 AR/VR 初創公司的湧現,都指向同一個方向——人類與數碼世界的互動方式正在從二維屏幕轉向三維空間。

在這個轉變中,世界模型扮演着「內容基礎設施」的角色。空間計算設備需要海量的 3D 內容來填充虛擬和增強現實環境,而傳統的 3D 內容製作方式根本無法滿足這個需求。就像移動互聯網時代需要大量的 App 來填充應用商店,空間計算時代需要大量的 3D 世界來填充虛擬空間。世界模型——特別是像 Marble 這樣能夠自動生成 3D 環境的系統——正是解決這個「內容供給」問題的關鍵技術。

從這個角度看,NVIDIA 和 AMD 同時投資 World Labs 的邏輯就更加清晰了。空間計算時代意味着更多的 3D 渲染需求、更多的物理模擬計算、更多的 GPU 算力消耗。世界模型不僅是一個軟件產品,更是驅動下一代硬件需求的引擎。Autodesk 的 2 億美元投資同樣指向這個方向——作為設計軟件的龍頭,Autodesk 需要確保自己在空間計算時代依然是設計師的首選工具,而整合世界模型能力是實現這一目標的最佳路徑。

風險與不確定性

技術路線的分歧

世界模型領域目前面臨的最大風險之一,是技術路線尚未收斂。World Labs 的「圖像/文字到 3D」路線、NVIDIA DreamZero 的「機器人專用模擬」路線、Runway 的「影片生成延伸」路線、以及 Silver 的「強化學習驅動」路線,各有優勢和局限。在早期階段,這種多路線競爭有利於技術探索,但也意味着大量資本可能投入到最終不會成為主流的技術方向上。

計算成本的挑戰

生成和維護逼真的 3D 互動環境所需的計算資源,遠超生成文字或二維圖像。一個包含數千個物體、真實物理模擬和動態光照的 3D 環境,其計算需求可能是一次 LLM 推理的數萬倍。即使 GPU 性能持續提升,計算成本仍然是世界模型商業化的主要瓶頸之一。World Labs 的 10 億美元融資中,相當大的比例預計將用於計算基礎設施的建設。

評估標準的缺失

與 LLM 不同——後者可以通過各種基準測試(如 MMLU、HumanEval 等)進行相對客觀的能力評估——世界模型目前缺乏公認的評估標準。如何衡量一個世界模型的「物理準確性」?如何量化其生成環境的「多樣性」和「實用性」?這些問題的答案尚不明確,而評估標準的缺失使得投資者和使用者都難以在不同產品之間進行有效比較。

對香港的啟示:空間智能時代的機遇窗口

世界模型技術的成熟,為香港帶來了幾個值得關注的機遇。

首先是建築和城市規劃領域。香港是全球最高密度的城市之一,其複雜的三維城市結構——從地下鐵路到空中連廊,從摩天大樓到狹窄的街巷——對空間規劃的要求極高。世界模型可以讓城市規劃者快速生成不同的設計方案並在虛擬環境中測試其效果,例如模擬不同建築高度對日照和通風的影響,或評估新的交通節點對行人流動的改變。

其次是遊戲和創意產業。香港的遊戲開發和動畫製作行業規模雖小,但在大灣區的產業協作背景下,具備利用世界模型技術降低 3D 內容製作門檻的條件。一個配備了 Marble 等工具的小型團隊,可能在內容創作的效率上與大型工作室匹敵。

第三是機器人和自動化領域。香港的物流和零售行業正在加速自動化,而機器人在密集城市環境中的部署需要大量的場景模擬和測試。世界模型可以為這些場景提供低成本、高多樣性的虛擬訓練環境。

但同時,香港也需要認識到,空間智能的基礎研究和核心技術主要集中在美國。要在這個領域獲得競爭力,香港需要加大對相關研究的投資,並建立與 World Labs 等頂尖公司的合作關係。香港的大學——特別是在電腦視覺和機器人領域具有優勢的香港中文大學、香港科技大學——可以成為這種合作的橋樑。

結語:從文字到世界,AI 的下一個十年

World Labs 的 10 億美元融資,不僅是一家公司的商業里程碑,更是 AI 產業演進的一個標誌性節點。它與 David Silver 的 Ineffable Intelligence、Runway 的世界模型轉型、NVIDIA 的 DreamZero 一起,共同構成了一幅清晰的畫面:AI 的下一個大方向不是更大的語言模型,而是能夠理解和模擬物理世界的世界模型。

這種轉變的深度不亞於從搜索引擎到社交網絡、從移動互聯網到雲計算的每一次範式轉移。語言模型讓機器學會了「閱讀」和「寫作」,而世界模型要讓機器學會「看見」和「理解」。前者改變了信息處理的方式,後者將改變人類與物理世界互動的方式。

李飛飛在 2009 年啟動 ImageNet 時,很少有人預見到那個數據集會成為 AI 革命的基石。今天,當她帶領 World Labs 構建空間智能的基礎設施時,我們或許正在見證另一個具有同樣深遠影響的起點。只是這一次,賭注不是 1,400 萬張圖片,而是 10 億美元——以及一個讓機器理解整個物理世界的願景。

本文要點總結

  • World Labs 於 2 月 18 日完成 10 億美元融資,投資者包括 NVIDIA、AMD、Autodesk(2 億美元)、Fidelity 及 Andreessen Horowitz,是世界模型賽道最大單輪融資之一。
  • 旗艦產品 Marble 能夠從圖像或文字描述生成具備物理規則的 3D 互動世界,目標覆蓋遊戲、機器人、科學發現和工業設計四大領域。
  • 創辦人李飛飛是 ImageNet 共同創建者、前 Google Cloud 首席科學家,其從學術到產業的轉型路徑具有標誌性意義。
  • World Labs 的融資是更大趨勢的一部分:David Silver 的 Ineffable Intelligence 同樣以 10 億美元為目標,Runway 融資 3.15 億美元轉型世界模型,NVIDIA 內部孵化 DreamZero。
  • 世界模型被視為後 LLM 時代的關鍵範式——從文字預測轉向世界狀態預測,讓 AI 從語言處理引擎進化為物理世界理解系統。
  • 空間計算時代的來臨為世界模型提供了巨大的市場拉力,但技術路線分歧、計算成本和評估標準缺失仍是主要風險。
  • 香港可在建築規劃、創意產業和機器人自動化領域受惠於世界模型技術,但需加強基礎研究投資和國際合作。