NVIDIA Blackwell Ultra 實測數據出爐:AI 推理效率提升 50 倍,成本驟降 35 倍
半導體分析機構 SemiAnalysis 最新發布的 InferenceX 基準測試數據顯示,NVIDIA Blackwell Ultra(GB300 NVL72)系統在 Agentic AI 工作負載下實現每瓦吞吐量 50 倍提升、每 Token 成本 35 倍降低。這組數據正在改寫整個 AI 產業的經濟學邏輯。
半導體分析機構 SemiAnalysis 最新發布的 InferenceX 基準測試數據顯示,NVIDIA Blackwell Ultra(GB300 NVL72)系統在 Agentic AI 工作負載下實現每瓦吞吐量 50 倍提升、每 Token 成本 35 倍降低。這組數據正在改寫整個 AI 產業的經濟學邏輯。
僅僅兩年前,NVIDIA H100(Hopper 架構)還是 AI 訓練和推理的黃金標準,企業為了獲取這些晶片而排隊數月。現在,Blackwell Ultra 平台的出現讓 H100 看起來像是上一個時代的遺物。根據 SemiAnalysis 的獨立基準測試,GB300 NVL72 系統相較 Hopper 平台實現了每瓦吞吐量最高 50 倍的提升,直接轉化為每 Token 成本降低 35 倍。
這個數字意味著什麼?假設一家企業過去每月在 AI 推理上花費 100 萬美元,使用 Blackwell Ultra 後,這筆費用理論上可以降至約 2.9 萬美元——或者在相同預算下處理 35 倍的推理請求。這種量級的成本削減足以改變整個商業模式的可行性邊界。
Blackwell Ultra 之所以能實現如此驚人的效能提升,源於多項關鍵技術創新的疊加效應。
Blackwell Ultra 原生支持 NVFP4(四位元浮點數)格式,在保持模型精度的同時大幅提升計算效率。相較於前代 Blackwell,Blackwell Ultra 的 NVFP4 計算性能提升了 1.5 倍。業界合作夥伴 DeepInfra 的實測數據顯示,利用 NVFP4 格式,每百萬 Token 的成本從 Hopper 上的 20 美分降至 5 美分——4 倍的成本改善。
Blackwell Ultra 的注意力處理速度是前代的 2 倍,這使得 AI 代理能夠高效地理解完整的代碼庫和長文檔。對於 Agentic AI 工作負載——那些需要反覆閱讀、推理和生成的任務——注意力機制的速度至關重要。
TensorRT-LLM 的最新優化引入了多 Token 預測技術,允許模型一次生成多個 Token,而不是逐一生成。結合分離式服務(disaggregated serving)架構——將「預填充」(理解用戶輸入)和「解碼」(生成回應)分配到不同的計算單元——系統的整體吞吐量在過去三個月內實現了每 GPU 2.8 倍的提升。
這些不只是實驗室數據。多家主要推理服務商已經在生產環境中驗證了 Blackwell 平台的效能提升。
Sully.ai 是一家專注於醫療 AI 的公司,其 AI 助手需要在醫生問診期間實時生成醫療記錄。轉向 Blackwell 平台後,推理成本下降了 90%(10 倍改善),同時關鍵工作流程的回應時間改善了 65%。這種級別的成本降低使得在更多醫療場景中部署 AI 變得經濟可行。
DeepInfra 是最早在生產環境部署 Blackwell 工作負載的推理服務商之一。結合 Mixture of Experts(MoE)架構和 Blackwell 優化,DeepInfra 實現了最高 20 倍的成本削減。該公司的每百萬 Token 價格從 Hopper 上的 20 美分降至 Blackwell 上的 10 美分,再通過 NVFP4 格式降至 5 美分。
Microsoft Azure、CoreWeave 和 Oracle Cloud Infrastructure(OCI)正在部署 GB300 NVL72 系統,主要面向低延遲和長上下文場景,如 Agentic 編程助手和代碼生成工具。這些部署標誌著 Blackwell Ultra 從理論驗證走向大規模商業應用。
Blackwell Ultra 的出現正在改寫 AI 推理的經濟學邏輯。MIT 最新研究發現,基礎設施和算法效率的改進正在以每年最高 10 倍的速度降低前沿級別推理的成本。這意味著今天花費 1 美元能做的事情,明年可能只需要 10 美分。
這種指數級的成本下降帶來了深遠的影響。首先,更多的 AI 應用場景變得經濟可行——從實時語音翻譯到個人化醫療建議,從全天候客戶服務到自動化代碼審查。其次,開源模型與閉源模型之間的競爭格局正在被重塑——當推理成本低到一定程度,開源模型的「免費」優勢被進一步放大。
NVIDIA 明確將 Blackwell Ultra 定位為 Agentic AI 的最佳平台。與傳統的單次問答式 AI 不同,Agentic AI 系統需要進行多步驟推理、工具調用、自我驗證和迭代優化。這意味著每個用戶請求可能觸發數十次甚至數百次的推理調用。
在這種場景下,推理成本的重要性遠超訓練成本。一個典型的 Agentic AI 工作流可能需要模型反覆閱讀大量上下文(代碼庫、文檔、歷史對話),然後生成行動計劃、執行步驟、驗證結果。Blackwell Ultra 的 2 倍注意力處理速度和 50 倍每瓦吞吐量,使得這類工作負載的部署成本首次降至大規模商業應用的可接受範圍。
AI 推理成本的 35 倍下降對香港企業意味著巨大的機遇。過去,許多中小企業因推理成本過高而無法採用先進的 AI 服務。Blackwell Ultra 時代,即使是小型企業也有可能負擔得起 24/7 的 AI 客服、實時數據分析和智能文檔處理。
香港的數據中心產業也需要關注這一趨勢。隨著 AI 推理需求從雲端向邊緣遷移,香港是否有足夠的 GPU 計算基礎設施來滿足本地企業的需求?在全球 AI 計算基礎設施的軍備競賽中,香港需要明確自己的定位和投資方向。