生成式影片最頑固的敵人:漂移問題
過去兩年,生成式影片技術取得了令人矚目的進展。從 OpenAI 的 Sora 到字節跳動的 Seedance 2、從 Runway 的 Gen 系列到快手的 Kling——這些模型能夠從文字提示生成令人驚嘆的短片。然而,它們都面臨同一個無法迴避的技術瓶頸:時間長度。
所謂「漂移」(drift),是指生成式影片模型在逐幀生成影像的過程中,誤差會隨時間不斷累積。模型在生成第一幀時表現出色,生成第五幀時仍然合理,但到了第五十幀、第一百幀,累積的微小偏差已經如同滾雪球般膨脹。角色的五官開始扭曲,衣物紋理變得不自然,背景場景出現不合邏輯的突變。這不是個別模型的缺陷,而是當前自回歸生成架構的結構性問題——每一幀都以前一幀為基礎生成,而前一幀本身已經包含了些許誤差,這些誤差在每一步都被放大和傳遞。
正因如此,目前市面上的主流 AI 影片工具都將生成長度限制在數秒到十幾秒之間。這個限制不是算力不夠,而是在更長的時間尺度上,模型根本無法維持影像的基本連貫性。對於需要連續敘事的應用場景——電影片段、廣告短片、教育影片——這是一個致命的短板。
漂移問題的本質,是自回歸生成系統中誤差的指數級累積。每一幀都在前一幀的基礎上生成,而每一幀都攜帶着被繼承和放大的誤差。時間越長,偏離越遠,直到輸出完全失控。
EPFL 的解法:誤差回收再訓練
EPFL 團隊提出的「誤差回收再訓練」(retraining by error recycling)方法,以一種出人意料的簡潔方式攻克了這個問題。其核心思路可以用三個步驟來概括:生成、度量、回饋。
第一步:讓模型生成影片並暴露自身缺陷
研究者首先讓模型按照常規流程生成一段影片。在這個過程中,模型不可避免地會產生漂移——角色外觀的微妙偏移、運動軌跡的不連貫、光影邏輯的自相矛盾。在傳統方法中,這些誤差被視為「不可修復的損失」,唯一的應對策略是限制生成長度以避免誤差累積到可感知的程度。
第二步:量化和提取誤差模式
EPFL 的關鍵創新在於,他們沒有丟棄這些包含誤差的生成結果,而是對其進行系統性的度量分析。透過將生成的影像序列與其應有的理想狀態進行比對,研究者能夠精確地提取出模型在不同時間步長上產生的誤差模式——哪些類型的特徵最容易漂移、漂移在什麼時間點開始加速、不同的場景和運動類型如何影響漂移的方向和幅度。
第三步:將誤差作為訓練信號回饋給模型
最精妙的部分在第三步。EPFL 團隊將提取出的誤差模式重新注入模型的訓練過程。換言之,模型不僅從「正確的範例」中學習,也從「自己犯過的錯誤」中學習。這種自我修正的迴路使模型逐漸發展出一種內在的「穩定性意識」——它學會了預見和抵消那些在長時間生成過程中會累積的偏差。
Stable Video Infinity 技術要點
- 核心方法:誤差回收再訓練(retraining by error recycling)——模型生成影片、量化漂移誤差、將誤差作為訓練信號回饋
- 生成能力:穩定、連貫的數分鐘影片(相比現有技術的數秒限制)
- 算力需求:不增加推理階段的計算量,額外成本僅在訓練階段
- 問題層次:架構級解決方案,非單純的規模擴展或後處理修補
- 發表場合:ICLR 2026(2026 年 4 月)
為什麼這是架構級突破而非漸進改進
要充分理解 Stable Video Infinity 的意義,有必要將它與此前業界嘗試過的漂移緩解方案進行對比。過去兩年間,各大 AI 影片公司和研究機構已經嘗試了多種策略來延長生成影片的時長:增加模型參數量、使用更長的訓練影片、引入額外的時序注意力機制、透過後處理算法修復明顯的漂移痕跡。這些方法在一定程度上延長了可用時長,但本質上都是在「緩解症狀」而非「治癒病因」。
Stable Video Infinity 的根本不同之處在於,它改變的是模型與自身誤差的關係。在傳統框架中,誤差是需要被壓制的噪聲;在 EPFL 的框架中,誤差是需要被理解和學習的信號。這個視角的轉換帶來了兩個關鍵優勢。
第一,它不增加推理階段的計算負擔。誤差回收再訓練的額外計算僅發生在訓練過程中。一旦模型完成訓練,生成一段三分鐘的影片與生成一段三秒的影片在每幀的計算成本上幾乎沒有差別。這意味着已經投資了大規模 GPU 基礎設施的企業可以直接受益,而無需額外的硬件升級。
第二,它是可組合的——這項技術可以與現有的任何生成式影片架構結合使用,而不要求從頭開始構建全新的模型。無論底層模型是基於擴散模型、自回歸 Transformer 還是混合架構,誤差回收再訓練都可以作為一個「插件式」的改進層疊加上去。
Stable Video Infinity 的創新不在於讓模型「更大」或「更快」,而在於讓模型學會從自己的失敗中汲取教訓。這是一種根本性的架構思維轉變。
生成式影片市場的競爭背景
EPFL 這項研究的發布時機,恰逢生成式影片市場進入了前所未有的白熱化競爭階段。
Runway 剛於近期完成 3.15 億美元融資,估值衝上 53 億美元,其「世界模型」戰略意圖將影片生成提升至對物理世界的深度理解。字節跳動的 Seedance 2 以多模態輸入和電影級品質震撼了荷里活,透過 CapCut 的全球分發網絡擁有無可匹敵的用戶觸達能力。OpenAI 的 Sora 2 持續迭代並與迪士尼等頂級內容品牌達成合作。快手的 Kling 系列在商業化方面遙遙領先,單月收入已達千萬美元級別。
然而,上述所有競爭者都受制於同一個瓶頸:影片長度。即使是最先進的商業產品,也只能生成十幾秒的片段。Stable Video Infinity 所攻克的漂移問題,正是橫亘在「短片段展示工具」與「真正的影片製作平台」之間的最後一道技術壁壘。哪家公司能最先將這項(或類似的)技術整合進商業產品,誰就有可能在這場百億美元級別的市場爭奪中佔據決定性的先發優勢。
相關突破:遞歸語言模型與上下文管理
值得注意的是,Stable Video Infinity 所解決的「長序列穩定性」問題,在 AI 研究的其他分支中也有同構的呼應。Prime Intellect 團隊近期發表的遞歸語言模型(Recursive Language Models, RLM)便是一個引人注目的例子。
RLM 解決的是語言模型在執行長時間任務時的上下文管理問題。當 AI Agent 需要處理跨越數小時甚至數天的複雜工作流程時,傳統的上下文窗口會被填滿,導致模型「遺忘」早期的關鍵信息。RLM 透過讓模型以強化學習自主學會何時存儲、何時檢索、何時壓縮上下文,從根本上解除了上下文窗口的硬性限制。
這兩項研究之間存在深刻的結構性平行:Stable Video Infinity 解決的是視覺序列中的時間漂移,RLM 解決的是語言序列中的信息衰減。兩者的共同目標是讓 AI 系統能夠在更長的時間尺度上維持輸出的品質和連貫性。它們分別從影片和語言兩個方向,指向同一個未來——AI 系統不再受限於「短期記憶」,而能夠執行持續數分鐘、數小時乃至更久的複雜任務。
對內容創作與香港創意產業的影響
Stable Video Infinity 若成功從學術原型過渡到商業應用,將對全球內容創作產業帶來結構性的改變。
電影與廣告製作
數分鐘級別的穩定 AI 影片,意味着生成式 AI 首次具備了製作完整廣告片、電影預告片和短敘事作品的能力。對獨立電影人而言,這意味着他們可以在極低預算下完成過去需要整個特效團隊才能實現的視覺效果。對廣告公司而言,這意味着從創意構想到影片成品的週期可以從數週壓縮到數天。
香港創意經濟的機遇
對於香港而言,這項技術的商業化具有特殊的意義。香港影視業在全球華語市場曾佔據無可替代的地位,但近年來面臨成本高企和人才流失的雙重壓力。穩定的長時間 AI 影片生成技術,可以顯著降低本地影視製作的資金門檻,讓中小型製作公司和獨立創作者重新獲得競爭力。
更關鍵的是,香港作為國際金融中心和亞太商業樞紐,其廣告和商業影片市場本身就具有龐大的需求。從品牌宣傳片到企業培訓影片,從社交媒體廣告到活動視覺設計——這些場景對影片的時長要求通常在一到三分鐘之間,恰好落入 Stable Video Infinity 所解鎖的能力範圍。能夠率先掌握和應用這項技術的香港創意機構,將在亞太市場中獲得顯著的效率優勢。
教育與培訓領域
香港的教育機構和企業培訓市場同樣值得關注。穩定的長時間 AI 影片生成,可以讓教師和培訓師快速製作高品質的教學影片,而無需昂貴的攝影設備和後期製作團隊。在推動教育數碼化的政策背景下,這項技術的成熟時機與香港的教育轉型需求高度契合。
四月 ICLR 之後:下一步會發生什麼
EPFL 團隊選擇在 ICLR 2026(四月,新加坡)上正式發表這項研究,這是機器學習領域最具影響力的頂級會議之一。論文的正式發表將意味着完整的技術細節向全球研究社群開放,這很可能在數月內引發一波密集的後續研究和工程化嘗試。
可以預見的是,Runway、字節跳動、OpenAI 等生成式影片的主要參與者,都會迅速評估並嘗試將誤差回收再訓練的思路整合進自己的產品管線中。由於這項技術的「插件式」特性——它不要求推翻現有架構,而是可以疊加在任何生成模型之上——從學術論文到商業產品的轉化週期可能會比通常的學術突破更短。
我們正處在生成式影片從「秒級展示」到「分鐘級敘事」的關鍵躍遷節點。Stable Video Infinity 不一定是最終的解決方案,但它所確立的「誤差回收再訓練」範式,極有可能成為這一領域未來數年的核心技術方向。
本文要點總結
- EPFL 研究團隊開發的 Stable Video Infinity 以「誤差回收再訓練」方法,從架構層面解決了生成式影片的漂移問題——模型從自身生成的誤差中學習,發展出內在的穩定性。
- 該技術可在不增加推理算力的前提下,將 AI 影片生成能力從數秒延伸至數分鐘,跨越了「短片段展示」到「連續敘事」的關鍵門檻。
- 該方法具有「插件式」的可組合性,可疊加於任何現有生成式影片架構,加速商業化的可能性。
- 生成式影片市場競爭白熱化(Runway 融資 3.15 億美元、Seedance 2、Sora 2),漂移問題的解決將重塑競爭格局。
- Prime Intellect 的遞歸語言模型(RLM)在語言序列中呈現同構突破,兩者共同指向 AI 系統長序列穩定性的根本性進展。
- 對香港創意產業影響深遠:降低影視製作門檻、賦能中小型創意機構、契合教育數碼化需求,率先採用者將在亞太市場獲得顯著優勢。
- 論文將於 2026 年 4 月 ICLR 正式發表,預計將在數月內引發密集的工程化應用浪潮。