NVIDIA Blackwell Ultra 實測數據出爐：AI 推理效率提升 50 倍，成本驟降 35 倍

從 Hopper 到 Blackwell Ultra：三年間的 50 倍飛躍

僅僅兩年前，NVIDIA H100（Hopper 架構）還是 AI 訓練和推理的黃金標準，企業為了獲取這些晶片而排隊數月。現在，Blackwell Ultra 平台的出現讓 H100 看起來像是上一個時代的遺物。根據 SemiAnalysis 的獨立基準測試，GB300 NVL72 系統相較 Hopper 平台實現了每瓦吞吐量最高 50 倍的提升，直接轉化為每 Token 成本降低 35 倍。

這個數字意味著什麼？假設一家企業過去每月在 AI 推理上花費 100 萬美元，使用 Blackwell Ultra 後，這筆費用理論上可以降至約 2.9 萬美元——或者在相同預算下處理 35 倍的推理請求。這種量級的成本削減足以改變整個商業模式的可行性邊界。

Blackwell Ultra 的技術核心

Blackwell Ultra 之所以能實現如此驚人的效能提升，源於多項關鍵技術創新的疊加效應。

NVFP4 低精度計算

Blackwell Ultra 原生支持 NVFP4（四位元浮點數）格式，在保持模型精度的同時大幅提升計算效率。相較於前代 Blackwell，Blackwell Ultra 的 NVFP4 計算性能提升了 1.5 倍。業界合作夥伴 DeepInfra 的實測數據顯示，利用 NVFP4 格式，每百萬 Token 的成本從 Hopper 上的 20 美分降至 5 美分——4 倍的成本改善。

注意力處理速度翻倍

Blackwell Ultra 的注意力處理速度是前代的 2 倍，這使得 AI 代理能夠高效地理解完整的代碼庫和長文檔。對於 Agentic AI 工作負載——那些需要反覆閱讀、推理和生成的任務——注意力機制的速度至關重要。

多 Token 預測（MTP）與分離式服務

TensorRT-LLM 的最新優化引入了多 Token 預測技術，允許模型一次生成多個 Token，而不是逐一生成。結合分離式服務（disaggregated serving）架構——將「預填充」（理解用戶輸入）和「解碼」（生成回應）分配到不同的計算單元——系統的整體吞吐量在過去三個月內實現了每 GPU 2.8 倍的提升。

                        Blackwell 世代效能對比
                        Hopper（H100/H200）：基線效能。2023-2024 年 AI 推理的行業標準。
Blackwell（GB200 NVL72）：較 Hopper 降低成本最高 10 倍，由 DeepInfra、Fireworks AI 等推理服務商驗證。
Blackwell Ultra（GB300 NVL72）：較 Hopper 降低成本最高 35 倍，吞吐量提升 50 倍。專為 Agentic AI 工作負載優化。
Rubin（下一代）：NVIDIA 預覽的下一代平台，預計較 Blackwell 再提升 10 倍。

                    

推理服務商的實戰報告

這些不只是實驗室數據。多家主要推理服務商已經在生產環境中驗證了 Blackwell 平台的效能提升。

醫療保健：Sully.ai 的 10 倍成本下降

Sully.ai 是一家專注於醫療 AI 的公司，其 AI 助手需要在醫生問診期間實時生成醫療記錄。轉向 Blackwell 平台後，推理成本下降了 90%（10 倍改善），同時關鍵工作流程的回應時間改善了 65%。這種級別的成本降低使得在更多醫療場景中部署 AI 變得經濟可行。

DeepInfra：開源模型的成本革命

DeepInfra 是最早在生產環境部署 Blackwell 工作負載的推理服務商之一。結合 Mixture of Experts（MoE）架構和 Blackwell 優化，DeepInfra 實現了最高 20 倍的成本削減。該公司的每百萬 Token 價格從 Hopper 上的 20 美分降至 Blackwell 上的 10 美分，再通過 NVFP4 格式降至 5 美分。

雲端巨頭的佈局

Microsoft Azure、CoreWeave 和 Oracle Cloud Infrastructure（OCI）正在部署 GB300 NVL72 系統，主要面向低延遲和長上下文場景，如 Agentic 編程助手和代碼生成工具。這些部署標誌著 Blackwell Ultra 從理論驗證走向大規模商業應用。

AI 推理經濟學的根本性重構

Blackwell Ultra 的出現正在改寫 AI 推理的經濟學邏輯。MIT 最新研究發現，基礎設施和算法效率的改進正在以每年最高 10 倍的速度降低前沿級別推理的成本。這意味著今天花費 1 美元能做的事情，明年可能只需要 10 美分。

這種指數級的成本下降帶來了深遠的影響。首先，更多的 AI 應用場景變得經濟可行——從實時語音翻譯到個人化醫療建議，從全天候客戶服務到自動化代碼審查。其次，開源模型與閉源模型之間的競爭格局正在被重塑——當推理成本低到一定程度，開源模型的「免費」優勢被進一步放大。

Agentic AI：Blackwell Ultra 的殺手級應用

NVIDIA 明確將 Blackwell Ultra 定位為 Agentic AI 的最佳平台。與傳統的單次問答式 AI 不同，Agentic AI 系統需要進行多步驟推理、工具調用、自我驗證和迭代優化。這意味著每個用戶請求可能觸發數十次甚至數百次的推理調用。

在這種場景下，推理成本的重要性遠超訓練成本。一個典型的 Agentic AI 工作流可能需要模型反覆閱讀大量上下文（代碼庫、文檔、歷史對話），然後生成行動計劃、執行步驟、驗證結果。Blackwell Ultra 的 2 倍注意力處理速度和 50 倍每瓦吞吐量，使得這類工作負載的部署成本首次降至大規模商業應用的可接受範圍。

對香港的啟示

AI 推理成本的 35 倍下降對香港企業意味著巨大的機遇。過去，許多中小企業因推理成本過高而無法採用先進的 AI 服務。Blackwell Ultra 時代，即使是小型企業也有可能負擔得起 24/7 的 AI 客服、實時數據分析和智能文檔處理。

香港的數據中心產業也需要關注這一趨勢。隨著 AI 推理需求從雲端向邊緣遷移，香港是否有足夠的 GPU 計算基礎設施來滿足本地企業的需求？在全球 AI 計算基礎設施的軍備競賽中，香港需要明確自己的定位和投資方向。

                        本文要點總結
                        SemiAnalysis InferenceX 數據證實 NVIDIA Blackwell Ultra（GB300 NVL72）較 Hopper 實現 50 倍吞吐量提升和 35 倍成本降低。
關鍵技術包括 NVFP4 低精度計算（1.5 倍提升）、2 倍注意力處理速度、多 Token 預測和分離式服務架構。
推理服務商實戰驗證：Sully.ai 成本降 90%、DeepInfra 每百萬 Token 從 20 美分降至 5 美分。
Blackwell Ultra 被定位為 Agentic AI 的最佳平台，使多步驟推理工作負載的大規模部署首次變得經濟可行。
AI 推理成本每年約降低 10 倍的趨勢，正在根本性地擴大 AI 應用的商業可行性邊界。