OpenAI 於 2026 年 3 月正式宣布關閉 Sora 視頻生成模型的公共 API 存取,這一決定在 AI 產業界引起了廣泛討論。OpenAI 在聲明中坦承,Sora 每分鐘視頻生成的推理成本遠超公司預期,在現有技術條件下無法建立可持續的商業模式。這一事件不僅影響了數千家依賴 Sora API 的應用開發者,更迫使整個視頻 AI 產業對生成式視頻技術的商業前景進行根本性的重新評估。
推理成本的技術剖析
為何視頻生成如此昂貴
視頻生成的計算成本遠超文本和圖像生成,主要源於以下技術因素:
1. 時間維度的指數級複雜度
文本生成是一維序列問題,圖像生成是二維空間問題,而視頻生成是三維時空問題。一段 10 秒、30fps、1080p 的視頻包含 300 幀,每幀約 200 萬像素,總計需要處理約 6 億個像素點的時空一致性。
Sora 使用的 Diffusion Transformer(DiT) 架構需要在這 6 億個像素點之間建立注意力關係。即使使用了多種注意力壓縮技術,計算量仍然是圖像生成的 50-100 倍。
2. 擴散步數的不可壓縮性
Sora 的生成過程涉及多步擴散去噪。典型的高品質視頻生成需要 50-100 步擴散迭代,每一步都需要完整的前向傳播。相較之下,文本模型的每個 Token 只需一次前向傳播。
雖然學術界已提出多種快速採樣方法(如 DDIM、DPM-Solver),但在視頻生成場景中,步數的減少會導致時間一致性的顯著下降,產生閃爍、形變等視覺瑕疵。OpenAI 的內部測試顯示,將步數從 80 減少到 20 時,使用者品質評分下降了約 35%。
3. 超解析度與後處理流水線
Sora 的生成並非一步到位。完整的流水線包括:
- 初始生成:在低解析度(如 256x144)下生成基本動態結構
- 空間超解析度:逐步提升至目標解析度
- 時間插幀:生成中間幀以確保流暢度
- 品質增強:細節增強、色彩校正、穩定化
每一階段都需要額外的計算資源,使得整體成本進一步攀升。
成本估算
根據業界分析師的估算,Sora 的推理成本結構大致如下:
| 項目 | 每分鐘視頻成本(估算) |
|---|---|
| GPU 計算(H100 集群) | $8-15 |
| 記憶體/快取 | $1-3 |
| 網路傳輸/儲存 | $0.5-1 |
| 基礎設施分攤 | $1-2 |
| 總計 | $10-21 |
而 OpenAI 對 Sora API 的定價約為每分鐘 $0.50-2.00(依解析度與品質層級),意味著每生成一分鐘視頻,OpenAI 需要補貼 $8-19。即使以 OpenAI 的融資規模,這種虧損率在大規模使用場景下也是不可持續的。
技術瓶頸分析
硬體限制
當前的 GPU 架構並非為視頻生成工作負載而優化。核心瓶頸包括:
記憶體頻寬
視頻生成需要頻繁存取大量的中間特徵圖。以 1080p、10 秒的視頻為例,中間特徵圖的記憶體佔用可達 200-400GB,遠超單張 GPU 的 HBM 容量(H100 為 80GB)。這迫使計算必須跨多張 GPU 進行,引入了大量的跨裝置通訊開銷。
計算密度
擴散模型的計算模式以矩陣乘法為主,理論上適合 GPU 加速。但視頻生成的注意力計算涉及極長的序列(數十萬到數百萬個 Token),使得注意力運算成為記憶體受限(memory-bound)而非計算受限(compute-bound)的操作,GPU 的計算利用率大幅下降。
演算法限制
一致性與效率的矛盾
視頻生成中的時間一致性(temporal consistency)是品質的核心指標。目前的 DiT 架構透過全域時間注意力來維持一致性,但這正是計算成本的主要來源。輕量化的替代方案(如局部時間注意力、光流引導)雖然能降低計算量,但在複雜動態場景中容易出現一致性破綻。
長度外推的挑戰
Sora 在訓練時使用的視頻長度有限,但使用者往往期望生成更長的視頻。長度外推時,累積誤差會導致品質急劇下降,迫使系統採用分段生成+接續的策略,進一步增加了計算成本和接合處的瑕疵風險。
產業影響分析
對 Sora API 用戶的衝擊
OpenAI 提供了 90 天的過渡期,但影響仍然巨大:
- 內容創作平台:多家基於 Sora API 的視頻創作工具需要尋找替代方案或重新設計產品
- 廣告行業:部分廣告公司已將 Sora 整合進工作流程,需要回退到傳統製作流程
- 教育與培訓:使用 Sora 生成教學視頻的教育科技公司面臨服務中斷
對競爭者的影響
Sora 的退出並非意味著視頻生成市場的萎縮,但它重新定義了市場預期:
Google Veo 3:同樣面臨推理成本壓力,但 Google 擁有自研 TPU 的成本優勢,且可將視頻生成作為 YouTube 生態系統的補貼功能。
Runway Gen-4:作為專注視頻生成的公司,Runway 的策略是針對專業用戶定價($50+/月),而非追求大眾市場。這種高價值、小規模的商業模式可能更具可持續性。
開源社群:Stable Video Diffusion、CogVideo 等開源方案允許用戶在自有硬體上運行,將計算成本轉嫁給用戶自身。
技術路線的重新校準
Sora 的經驗教訓正在推動視頻 AI 領域的技術路線重新校準:
1. 從端到端生成轉向混合流水線
純端到端的視頻生成成本過高,業界正轉向「AI 輔助 + 傳統渲染」的混合方案。例如,使用 AI 生成關鍵幀和動態描述,再使用傳統 3D 渲染引擎生成完整視頻。
2. 從通用模型轉向垂直模型
通用視頻生成模型試圖處理所有類型的視頻內容,導致模型規模和計算需求膨脹。垂直化的模型(如專門生成產品展示、人物動作、場景轉換的小型模型)可以在特定領域提供足夠品質的同時大幅降低成本。
3. 邊緣計算與雲端的混合部署
未來的視頻生成可能採用「雲端規劃 + 邊緣渲染」的架構,將高層語義理解放在雲端,將像素級渲染放在使用者裝置上,利用消費級 GPU 的算力分擔計算負擔。
對 AI 產業的更廣泛啟示
推理成本是下一個核心戰場
Sora 的案例清楚地說明:訓練一個強大的模型只是起點,讓它以可持續的成本運行才是真正的挑戰。隨著 AI 應用從文本擴展到圖像、視頻、3D 等更豐富的模態,推理成本問題將越來越突出。
商業模式與技術能力的對齊
技術上的可行性不等同於商業上的可行性。Sora 在技術上是成功的——它生成的視頻品質令人驚嘆——但在商業上卻無法找到成本與收入之間的平衡點。這提醒所有 AI 公司,在追求技術突破的同時,必須同步考慮部署經濟學。
結論
OpenAI 關閉 Sora 公共 API 是 AI 產業發展中的一個標誌性事件。它標誌著視頻生成技術從「能不能做到」的階段進入了「能不能負擔得起」的階段。這種成本現實主義並非悲觀,而是推動產業從實驗性展示走向可持續商業應用的必要反思。可以預見,推理成本優化將成為 2026 年下半年 AI 產業最核心的技術議題之一。