← 返回新聞列表

GTC 2026 前瞻:NVIDIA Rubin 平台六款晶片量產在即,Feynman 架構浮出水面

六款全新晶片、推理 Token 成本降低十倍、MoE 訓練 GPU 需求減少四分之三——NVIDIA 正在重新定義 AI 基礎設施的經濟學,而這僅僅是序幕。

距離 NVIDIA GTC 2026 開幕僅剩兩週。3 月 16 日,全球 AI 產業的目光將再次聚焦美國聖荷西,而執行長黃仁勳已經在社群媒體上預告:「我們將展示幾款世界從未見過的全新晶片。」在 NVIDIA 剛交出 2026 財年第四季 681 億美元營收(年增 73%)的歷史性成績單後,這番預告的份量不言而喻。Rubin 平台已從藍圖走向量產現實,而一個名為 Feynman 的神秘架構正悄然浮現,暗示著更為驚人的世代飛躍。

本文將從技術規格、產業生態、商業佈局和亞洲視角四個維度,全面解析即將在 GTC 2026 登場的 NVIDIA 新一代 AI 運算平台,以及它對全球 AI 發展格局的深遠影響。

一、Rubin 平台全景:六款晶片構成的完整生態

與過去以單一 GPU 為核心的產品發布策略不同,NVIDIA 此次以「平台化」思維打造 Rubin 世代,一次推出六款相互協作的晶片產品。這不僅是一次硬體升級,更代表著 NVIDIA 對 AI 運算「全棧整合」理念的徹底實踐。從 CPU 到 GPU、從片內互聯到機架間網路、從智慧網卡到可程式設計交換器,每一個環節都經過重新設計與最佳化。

Rubin 平台六大核心晶片

  • Vera CPU — 基於 ARM 架構的 88 核 Olympus 處理器,專為 AI 工作負載設計的全新伺服器級 CPU
  • Rubin GPU — 旗艦級 AI 加速器,NVFP4 推理效能達 50 PetaFLOPS,較 Blackwell 提升五倍
  • NVLink 6 — 新一代晶片間高速互聯技術,大幅提升多 GPU 協同運算頻寬
  • ConnectX-9 — 最新一代智慧網卡,提供極低延遲的機架間通訊能力
  • BlueField-4 — 第四代資料處理單元(DPU),將安全、儲存與網路功能卸載至專用硬體
  • Spectrum-6 — 新一代可程式設計乙太網交換器,支援大規模 AI 叢集的高效網路拓撲

這種「六芯一體」的策略,反映出現代 AI 訓練與推理的瓶頸已從單純的運算力不足,轉移到系統級的互聯頻寬、記憶體容量和能源效率。一顆再強大的 GPU,若缺乏與之匹配的 CPU、網路和資料處理架構,也無法發揮全部潛能。NVIDIA 顯然已深諳此道——它不再只是一家 GPU 公司,而是一家 AI 系統公司。

二、Rubin GPU 與 Vera Rubin NVL72:性能躍升的數字解讀

Rubin GPU 的核心數據令人矚目:在 NVFP4 精度下達到 50 PetaFLOPS 的推理吞吐量,這是 Blackwell 架構的五倍。換言之,單張 Rubin GPU 的推理能力,相當於過去五張頂級 Blackwell GPU 的總和。這種跳躍式的性能提升,主要來自三個技術突破——全新的張量核心(Tensor Core)微架構、更大規模的片上快取(on-chip cache),以及對低精度浮點運算(FP4)的原生硬體支援。

更具實戰意義的是 Vera Rubin NVL72 系統。這款預先整合的超級運算節點將 Vera CPU 與 Rubin GPU 緊密結合:每個節點搭載 88 核 Olympus ARM 處理器,配備 288GB HBM4 高頻寬記憶體,採用百分之百液冷散熱設計,且號稱可在五分鐘內完成安裝部署。五分鐘這個數字聽起來誇張,但它反映了 NVIDIA 在系統工程層面的深度最佳化——預接線、預測試、模組化設計,讓資料中心運營商能以接近「即插即用」的方式快速擴容。

「推理的經濟學正在被徹底改寫。當每個 Token 的成本降到 Blackwell 的十分之一,許多過去在成本上不可行的 AI 應用場景——從即時個人化醫療諮詢到全天候自主交易代理——都將在一夜之間變得可行。」——一位不願具名的亞洲主要雲端服務商技術長

在訓練端,Rubin 同樣帶來顯著進步。NVIDIA 表示,訓練混合專家模型(Mixture of Experts, MoE)所需的 GPU 數量將減少至 Blackwell 時代的四分之一。這意味著一個原本需要數千張 GPU 的訓練任務,如今只需數百張即可完成。對於正在大規模擴張 AI 訓練基礎設施的企業而言,這不僅降低了硬體採購成本,更從根本上減少了電力消耗和散熱壓力。

Rubin CPX:為超長上下文而生的新品類

在常規 Rubin GPU 之外,NVIDIA 還推出了一個全新的 GPU 類別——Rubin CPX(Context Processing eXtreme)。這款專為大規模上下文處理設計的加速器,擁有 8 ExaFLOPS 的運算能力和高達 100TB 的快速記憶體。CPX 的出現,直接回應了大型語言模型(LLM)領域最迫切的需求之一:超長上下文窗口的高效處理。當前的前沿模型已支援數十萬甚至數百萬 Token 的上下文長度,但傳統 GPU 架構在處理此類工作負載時,往往受限於記憶體頻寬和容量。CPX 將 100TB 快速記憶體整合於單一系統中,為這類場景提供了前所未有的硬體基礎。

Rubin 平台核心性能指標

  • 推理效能:50 PetaFLOPS(NVFP4),較 Blackwell 提升 5 倍
  • 推理成本:每 Token 成本降至 Blackwell 的 1/10
  • 訓練效率:MoE 模型訓練所需 GPU 數量減少 75%
  • 記憶體:NVL72 節點配備 288GB HBM4;CPX 配備 100TB 快速記憶體
  • CPX 運算力:8 ExaFLOPS,專為超長上下文場景設計
  • 散熱方案:100% 液冷設計,5 分鐘快速安裝

三、Feynman 架構:已知的未知

如果說 Rubin 代表的是 NVIDIA 已經完成的工程成就,那麼 Feynman 架構則是黃仁勳為 GTC 2026 埋下的最大懸念。以傳奇物理學家理查費曼(Richard Feynman)命名的這一新架構,被廣泛認為將成為 Rubin 的繼任者。從目前已知的資訊碎片來看,Feynman 很可能將採用台積電(TSMC)的 1.6 奈米製程節點,這將是半導體製造技術的又一個里程碑。

1.6 奈米製程相較於 Rubin 所使用的製程,預計將帶來至少 15-20% 的能效提升和更高的電晶體密度。但 Feynman 的意義遠不止製程微縮。黃仁勳在多個場合暗示,下一代架構將在「運算範式」層面帶來根本性的變革。業界猜測包括:原生支援稀疏計算(Sparse Computing)的硬體加速、晶片內光互聯(Optical Interconnect)的初步整合,以及面向物理世界模擬的專用運算單元。

值得注意的是,NVIDIA 的架構命名慣例——Hopper、Blackwell、Rubin——都取自對人類認知產生深遠影響的科學家。選擇 Feynman 這個名字,或許暗示著 NVIDIA 希望這一架構能像費曼之於量子電動力學一樣,為 AI 運算開闢全新的理論與實踐空間。我們預計黃仁勳將在 GTC 主題演講中首次公開展示 Feynman 的架構藍圖,但實際產品可能要到 2028 年才會進入量產。

四、商業地震:200 億美元授權與 300 億美元承諾

技術規格固然重要,但真正讓市場震動的是 NVIDIA 在商業合作層面的兩筆重磅交易。首先,NVIDIA 與推理專用晶片公司 Groq 達成了一項價值 200 億美元的技術授權協議。這筆交易的戰略意義在於:NVIDIA 正在將其軟體生態系統(CUDA、TensorRT、Triton 等)的影響力延伸到自研硬體之外。Groq 以其 LPU(Language Processing Unit)在推理領域的極低延遲著稱,但長期以來受限於 CUDA 生態系統的相容性問題。這項授權很可能意味著 Groq 的硬體未來將能夠原生運行 NVIDIA 的推理最佳化工具鏈,從而為客戶提供更無縫的遷移路徑。

另一方面,OpenAI 向 NVIDIA 承諾了 300 億美元的專用推理算力採購。這筆天文數字的承諾,從側面印證了一個關鍵產業趨勢:隨著 ChatGPT 等消費級 AI 產品的用戶規模突破數億,推理計算的需求正以指數級速度增長,其在 AI 基礎設施總支出中的佔比正在快速超越訓練。OpenAI 的 300 億美元承諾不僅鎖定了 NVIDIA 未來數年的推理產能,也為 Rubin 平台的推理性能優勢提供了最有力的市場背書。

「當 OpenAI 願意為單一供應商的推理算力投入 300 億美元時,這已經不是簡單的採購行為——這是對整個 AI 推理基礎設施未來方向的一次戰略押注。NVIDIA 正在從晶片製造商蛻變為 AI 時代的基礎設施平台。」——香港科技大學電子及計算機工程學系教授

五、生態系統大閱兵:從雲端巨頭到前沿實驗室

Rubin 平台已進入全面量產階段,預計 2026 年下半年起將通過 AWS、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure(OCI)等主要雲端服務商向市場供貨。這意味著從企業客戶到獨立開發者,都能在不自建資料中心的前提下獲取 Rubin 級別的運算力。

在 AI 研究實驗室層面,Rubin 的早期採用者名單堪稱「AI 全明星陣容」。Anthropic、OpenAI、Meta、Mistral、xAI 等前沿模型開發商均已表態將採用 Rubin 平台進行下一代模型的訓練與推理。值得關注的是,開發者工具領域的明星企業 Cursor 也出現在這份名單中,這表明 Rubin 的影響力正從純粹的大模型訓練,向更廣泛的 AI 應用開發基礎設施延伸。

NVIDIA 2026 財年第四季的財報數據更進一步揭示了其在 AI 基礎設施市場的絕對主導地位。681 億美元的單季營收中,資料中心業務貢獻了 623 億美元,年增率高達 73%。這意味著全球每花在 AI 運算上的一美元中,NVIDIA 都佔據著壓倒性的份額。在全球主要科技公司競相宣布數百億美元 AI 基礎設施投資計劃的背景下,NVIDIA 幾乎是所有計劃的「必經之路」。

儲存與光學互聯:補齊最後的拼圖

除了核心運算晶片外,NVIDIA 還在 GTC 2026 前夕宣布了兩項具有深遠意義的技術合作。在 AI 儲存領域,NVIDIA 與 SK 海力士(SK Hynix)和鎧俠(Kioxia)建立了 AI SSD 合作夥伴關係,目標是實現每秒一億次輸入/輸出操作(100M IOPS)的極致儲存性能。這一數字較當前最快的企業級 SSD 提升了數個數量級,將為大規模 AI 模型的數據加載和檢查點儲存提供突破性的速度提升。

在網路層面,NVIDIA 推出了 Spectrum-X 乙太網光子互聯(Ethernet Photonics)技術,採用矽光子學(Silicon Photonics)實現五倍的功耗效率提升。矽光子技術長期以來被視為突破傳統銅纜互聯功耗與頻寬瓶頸的關鍵技術路徑,NVIDIA 的正式商用化意味著這項技術已從實驗室走向了資料中心的實際部署。對於動輒部署數萬顆 GPU 的超大規模 AI 叢集而言,互聯網路的功耗佔比可達系統總功耗的 20-30%,五倍的效率提升將帶來極為可觀的電力節約。

六、香港與亞洲視角:Rubin 時代的機遇與挑戰

對於香港和亞太地區的 AI 產業而言,Rubin 平台的量產標誌著一個關鍵轉折點。隨著 AWS、Google Cloud、Microsoft Azure 和 OCI 在亞太各地持續擴建資料中心,香港和新加坡作為區域金融科技中心的 AI 基礎設施可及性將大幅提升。特別是對於香港的量化金融、醫療 AI 和智慧城市等領域,Rubin 平台十倍的推理成本降幅意味著許多過去因運算成本過高而擱置的創新項目,現在有了重新啟動的經濟基礎。

然而,挑戰同樣不容忽視。首先是地緣政治因素。美國對華晶片出口管制政策的持續演變,為大中華區的 AI 基礎設施建設帶來了持續的不確定性。儘管香港本身並不在出口管制的直接範圍內,但作為中國內地與國際市場之間的橋樑,香港的 AI 產業生態不可避免地受到這些政策波動的間接影響。其次是人才競爭問題。Rubin 平台的全面液冷設計和系統級複雜性要求資料中心運維團隊具備更高的專業技能,而這方面的人才在全球範圍內都極為短缺。

從正面來看,香港的多個大學和研究機構——包括香港科技大學、香港大學和香港中文大學——近年來在 AI 研究領域的國際排名持續攀升。Rubin 平台通過雲端服務商的供貨模式,降低了研究機構獲取頂尖 AI 運算資源的門檻。此外,香港金融管理局和數碼港近期推動的多項 AI 金融科技計劃,也為 Rubin 級別運算力的本地化應用提供了政策框架和資金支持。

值得特別關注的是 Rubin CPX 對亞洲市場的潛在影響。香港和新加坡的金融機構正在積極探索利用超長上下文 AI 模型進行合規審查、法律文件分析和跨語言風險評估。CPX 提供的 100TB 快速記憶體和 8 ExaFLOPS 運算力,恰好為這類需要處理海量多語言文檔的應用場景提供了理想的硬體支撐。

七、產業格局重塑:從訓練經濟到推理經濟

回顧過去三年的 AI 基礎設施發展歷程,一個清晰的結構性轉變正在發生:產業重心正從「訓練經濟」向「推理經濟」快速遷移。2023-2024 年,AI 基礎設施的投資主要集中在模型訓練——企業和實驗室競相建設超大規模 GPU 叢集,爭奪前沿模型的訓練能力。但隨著 AI 產品的用戶規模從數百萬躍升至數億,推理計算的需求開始呈現更為陡峭的增長曲線。

Rubin 平台的核心定位精準地把握了這一趨勢。十倍的推理 Token 成本降幅,不僅是一個技術指標,更是一個經濟拐點。以 ChatGPT 為例,OpenAI 目前為數億用戶提供服務所需的推理運算成本是其最大的單一支出項目。當這一成本降低一個數量級時,AI 服務商的商業模式將發生根本性的改變:利潤率大幅改善、免費增值(Freemium)模式的可持續性增強、新的消費級 AI 應用類別變得經濟可行。

NVIDIA 與 Groq 的 200 億美元授權協議也可以在這一框架下理解。Groq 的 LPU 架構在推理延遲方面具有獨特優勢,但其市場規模受限於與 CUDA 生態的相容性。通過這項授權,NVIDIA 實際上是在「拓寬」其推理生態系統的邊界——即便客戶選擇了非 NVIDIA 的推理硬體,NVIDIA 仍然能夠通過軟體授權獲取價值。這是一種極具遠見的「平台稅」策略,類似於 ARM 在手機晶片領域的商業模式。

八、展望 GTC 2026:黃仁勳的「幾款世界從未見過的晶片」

隨著 3 月 16 日的臨近,業界對 GTC 2026 主題演講的期待已升至空前高度。黃仁勳預告的「幾款世界從未見過的全新晶片」,結合目前已知的 Feynman 架構線索,暗示著 GTC 的舞台上很可能還有超出 Rubin 產品線之外的驚喜。業界分析師猜測,這些「未見過的晶片」可能包括:Feynman 架構的工程樣品首度亮相、面向邊緣推理的全新產品線,以及可能整合了矽光子互聯技術的下一代 NVSwitch。

無論 GTC 的最終揭曉內容為何,有一點已經確定:NVIDIA 正以前所未有的速度推進其產品路線圖。從 Hopper 到 Blackwell 到 Rubin,每一代架構的間隔正在縮短,而性能提升的幅度卻在增大。這種「加速的加速」(Accelerating Acceleration)——黃仁勳本人最鍾愛的敘事——正在真實地體現在產品數據中。

對於全球 AI 產業的參與者而言,GTC 2026 不僅是一場技術發布會,更是一次對未來 2-3 年 AI 基礎設施投資方向的戰略校準。從前沿模型實驗室到雲端服務商,從企業 AI 團隊到香港和亞洲的創業公司,每一個參與者都需要根據 GTC 揭示的新版圖,重新評估自己的技術路線和資源配置策略。

GTC 2026 五大關鍵要點

  • Rubin 全面量產:六款晶片組成完整平台,2026 下半年通過四大雲端服務商供貨,標誌著 AI 基礎設施進入新世代
  • 推理經濟革命:Token 成本降低 10 倍、MoE 訓練 GPU 需求減少 75%,從根本上改變 AI 應用的經濟可行性
  • CPX 新品類誕生:8 ExaFLOPS 運算力搭配 100TB 快速記憶體,為超長上下文處理開闢全新的硬體品類
  • 生態系統擴張:與 Groq 的 200 億美元授權和 OpenAI 的 300 億美元承諾,顯示 NVIDIA 正在從硬體公司向平台公司轉型
  • Feynman 架構預覽:基於台積電 1.6 奈米製程的下一代架構即將曝光,預示著 2028 年的又一次世代飛躍

三月的聖荷西將會非常熱鬧。而對於我們香港和亞洲的 AI 從業者和觀察者而言,最重要的工作不是為數字歡呼,而是冷靜思考:在這場以矽為貨幣的全球 AI 軍備競賽中,我們的獨特價值和不可替代的角色究竟在哪裡。Rubin 提供的是算力,但算力之上的應用創新、行業深耕和跨文化適應力,才是決定最終贏家的關鍵變量。