← 返回新聞列表

Stable Video Infinity:EPFL 突破 AI 影片時間壁壘,實現無限長度連貫生成

瑞士洛桑聯邦理工學院(EPFL)VITA Lab 提出一項名為 Stable Video Infinity 的突破性研究,以「錯誤回收再訓練」(retraining by error recycling)方法,從根本上解決了困擾 AI 影片生成領域多年的「漂移退化」難題。該論文已獲選 ICLR 2026 Oral 報告——這是機器學習頂級會議中最高級別的認可。在商業模型仍被困在 15 至 30 秒生成上限的當下,這項學術研究為實現任意長度的連貫 AI 影片打開了一扇全新的大門。

漂移問題:AI 影片生成的「時間詛咒」

要理解 Stable Video Infinity 的突破性意義,首先需要理解它所解決的核心問題。當前所有主流的 AI 影片生成模型——無論是 OpenAI 的 Sora、字節跳動的 Seedance 2.0,還是 Runway 的 Gen 4.5——都面臨同一個根本性限制:它們無法生成超過數十秒的連貫影片。超過這個時間閾值,畫面就會開始出現不自然的色彩偏移、物體形變、角色消失或突然改變外觀,最終退化為毫無意義的視覺噪聲。

這個現象在學術界被稱為「漂移」(drift),其本質是一個累積誤差問題。目前的影片生成模型大多採用自回歸(autoregressive)或滑窗(sliding window)的方式生成影片:先生成前幾幀,然後以這些幀作為條件來生成後續的幀。問題在於,每一步生成都不可避免地引入微小的誤差。在生成短影片時,這些誤差小到人眼無法察覺;但隨着生成步數增加,誤差會以指數級速度累積和放大,就像複印機反覆複印同一份文件,最終只剩下難以辨認的黑白色塊。

這個問題之所以極其棘手,是因為它涉及深度學習中一個基本的矛盾:模型在訓練時「看到」的是真實影片幀,但在推理(生成)時,它所依賴的「前文」卻是自己生成的、帶有誤差的幀。訓練分佈和推理分佈之間存在根本性的不匹配,而這種不匹配會隨着時間的推移而不斷加劇。研究者們嘗試過各種工程方法來緩解漂移——更長的上下文窗口、多尺度生成、關鍵幀錨定——但這些方法都只是延緩了漂移的發生,而非從根本上解決問題。

漂移問題的本質,是模型在訓練時從未學會如何處理自己犯下的錯誤。當錯誤開始累積,模型便陷入了一個它從未見過的數據分佈,於是迅速崩潰。

錯誤回收再訓練:讓模型從自己的錯誤中學習

Stable Video Infinity 的核心創新在於一個出人意料地優雅的想法:既然漂移的根源是模型無法處理自己的誤差,那就讓模型在訓練階段就直接面對這些誤差。

具體而言,EPFL 團隊提出的「錯誤回收再訓練」方法包含以下關鍵步驟:首先,使用已有的影片生成模型生成一批影片片段,這些片段自然會包含模型在自回歸生成過程中產生的各種典型誤差——色彩漂移、形態變異、時序不連貫等。然後,將這些帶有誤差的生成幀重新注入訓練流程,讓模型學習如何在「不完美的前文」條件下仍然生成正確的後續幀。

這個方法的精妙之處在於,它並非試圖消除誤差本身——這在理論上是不可能的——而是讓模型學會在誤差存在的情況下進行自我修正。經過錯誤回收再訓練的模型,即使接收到帶有偏差的輸入幀,也能將輸出「拉回」到正確的軌道上。誤差不再是滾雪球式的累積,而是被控制在一個穩定的、可接受的範圍內。

EPFL VITA Lab 的 Alexandre Alahi 教授用了一個生動的比喻來描述這項技術:「這就像在湍流天氣中訓練飛行員,而不是在萬里無雲的晴天。」在理想條件下訓練的飛行員,遇到真實世界的複雜氣象時會手足無措;同理,只在「乾淨」數據上訓練的影片生成模型,遇到自己生成的帶噪聲輸入時就會崩潰。錯誤回收再訓練的本質,就是讓模型在「湍流」中完成飛行訓練。

LayerSync:加速學習的內部邏輯回收

除了錯誤回收再訓練這個核心方法外,Stable Video Infinity 還引入了一項名為 LayerSync 的輔助技術,用以大幅提升訓練效率。

LayerSync 的基本思路是:在對模型進行微調以適應「帶誤差輸入」的過程中,不需要從頭學習所有的表徵。模型在處理乾淨影片幀時已經建立了一套完整的內部邏輯——從低層的邊緣和紋理特徵,到高層的語義理解和時序推理。LayerSync 將這些已有的內部表徵「回收」到微調過程中,作為新的學習信號。這樣,模型不是在零基礎上學習如何處理誤差,而是在已有知識的基礎上進行增量式的適應。

這項技術的實際意義非常重大。在深度學習研究中,訓練效率往往決定了一項方法能否從實驗室走向實際應用。如果錯誤回收再訓練需要海量的計算資源和訓練數據,那麼即使原理上可行,也很難被廣泛採用。LayerSync 的存在意味着,研究者只需要微調 LoRA(Low-Rank Adaptation)適配器——這是一種輕量級的參數高效微調方法——就能讓現有的影片生成模型獲得抗漂移能力。所需的額外訓練數據和計算資源是極為有限的。

Stable Video Infinity 核心技術架構

  • 錯誤回收再訓練(Retraining by Error Recycling):將模型自身生成的帶誤差幀回饋至訓練流程,讓模型學會在「不完美輸入」下進行自我修正,從根本上打破累積誤差的惡性循環。
  • LayerSync:回收模型在處理乾淨數據時的內部邏輯表徵,將其作為微調的初始化信號,大幅加速模型對帶噪輸入的適應過程。
  • LoRA 微調:僅需調整輕量級的 LoRA 適配器參數,無需對基礎模型進行全量重新訓練,極大地降低了計算成本和數據需求。
  • 開源代碼:完整實現已在 GitHub 開源(vita-epfl/Stable-Video-Infinity),支持社群在不同基礎模型上進行驗證和擴展。

為什麼這個問題困擾了學術界這麼久?

漂移問題並非新問題。事實上,它在自回歸序列生成的幾乎所有領域都曾出現——從早期的文本生成到語音合成,再到影片生成。但影片生成中的漂移問題之所以特別頑固,有幾個深層原因。

第一,影片的信息密度極高。一幀 1080p 影片包含超過 200 萬個像素點,每個像素有 RGB 三個通道。與文本生成(離散的詞元序列)不同,影片生成涉及連續的高維空間,微小的數值偏差在這個高維空間中可以沿着無數個方向擴散和放大。這使得誤差的累積模式極為複雜,難以用簡單的正則化技術來控制。

第二,人類對影片的連貫性極為敏感。在文本生成中,輕微的語義偏移可能不會被讀者注意到;但在影片中,即使是角色膚色的微小變化、背景物體的輕微位移,都會被觀眾即時感知到。這意味着影片生成對漂移的容忍度遠低於其他模態。

第三,也是最根本的,影片生成模型的訓練數據通常是「乾淨」的真實影片片段。模型在訓練時學到的是:「給定前面幾幀真實的影片,預測下一幀。」但在推理時,它面對的情境是:「給定前面幾幀我自己生成的、可能有偏差的影片,預測下一幀。」這種訓練-推理分佈不匹配(distribution mismatch)是所有自回歸模型的通病,但在影片這個高維連續空間中,其後果尤為嚴重。

過去的研究者嘗試了多種策略來應對漂移。一些方法試圖增加模型的上下文窗口長度,讓模型能夠「看到」更早期的幀,從而保持全局一致性。但這種方法受限於顯存容量,且計算成本隨窗口長度呈二次方增長。另一些方法使用關鍵幀錨定技術,即每隔一定間隔插入一個「錨點」幀,強制模型的輸出與錨點保持一致。但這種方法會導致影片在錨點附近出現不自然的跳變。還有研究者嘗試多階段生成——先生成低解析度的「骨架」影片,再逐步提升解析度——但漂移問題在每個階段都會重新出現。

Stable Video Infinity 的突破在於,它不是在「對抗」漂移,而是從訓練範式的層面重新定義了模型與誤差之間的關係。這是一個思維方式的根本轉變。

ICLR 2026 Oral:頂級認可的含金量

這篇論文獲選 ICLR 2026 的 Oral 報告,這一事實本身值得特別關注。ICLR(International Conference on Learning Representations)是機器學習領域最頂級的會議之一,與 NeurIPS 和 ICML 並列為「三大」。在 ICLR 中,Oral 報告的接收率通常低於所有提交論文的 2%,代表着審稿委員會認為該研究在原創性、技術嚴謹性和潛在影響力方面都達到了最高標準。

對於一篇關於影片生成的論文來說,獲得 Oral 認可更加難得。影片生成領域的論文往往面臨一個「評審困境」:視覺結果很難通過靜態的論文頁面充分展示,而定量評估指標(如 FVD、IS 等)與人類感知之間的相關性也常受質疑。Stable Video Infinity 能夠克服這些障礙獲得 Oral,意味着其方法論的嚴謹性和結果的說服力都經受住了最嚴格的同行審查。

商業格局中的學術震盪波

Stable Video Infinity 的出現,對正在高速發展的商業 AI 影片生成市場構成了一個有趣的變量。

目前商業影片生成市場的競爭格局已經相當激烈。字節跳動的 Seedance 2.0 能夠生成帶原生音訊的 15 秒高清影片;Runway 剛完成 3.15 億美元融資,將世界模型作為長期賭注;OpenAI 的 Sora 支援最長 20 秒的生成;迪士尼已與 Sora 達成合作協議,探索 AI 在專業影視製作中的應用。但所有這些商業產品,都仍然被困在「數十秒」的時間牢籠中。

Stable Video Infinity 展示的能力——生成具有合理場景轉換的多分鐘級連貫影片——直接瞄準了商業模型最大的技術瓶頸。更重要的是,由於該方法基於 LoRA 微調,理論上可以應用於任何現有的影片生成基礎模型。這意味着它不是一個封閉的系統,而是一個可以「插入」到現有架構中的通用解決方案。

商業 AI 影片生成模型的時間限制現狀

  • OpenAI Sora:最長約 20 秒,超過此長度後連貫性顯著下降。
  • 字節跳動 Seedance 2.0:最長約 15 秒,強調音視同步而非時長。
  • Runway Gen 4.5:多鏡頭拼接方式延長總時長,但單段仍受限。
  • 快手 Kling 3.0:最長約 15 秒,以 Motion Engine 提升動態品質。
  • Stable Video Infinity:理論上無上限,已展示多分鐘級連貫生成。

開源的戰略意義

EPFL 團隊選擇將 Stable Video Infinity 的完整實現在 GitHub(vita-epfl/Stable-Video-Infinity)上開源,這個決定具有深遠的戰略意義。在 AI 影片生成領域,商業公司傾向於將核心技術封閉在專有系統中——Sora 的架構細節從未完全公開,Seedance 和 Kling 的技術論文也遠不足以讓外部研究者完整復現。Stable Video Infinity 的開源,為全球研究社群提供了一個可驗證、可擴展的基礎方法,有可能催化出一系列後續的改進和應用。

從商業公司的角度看,這項技術的開源既是機遇也是威脅。機遇在於,它們可以直接將錯誤回收再訓練方法整合到自己的產品中,快速突破時長限制。威脅在於,如果這項技術被廣泛採用,「長影片生成能力」將不再是差異化的競爭優勢,而是一個基線功能。這將迫使商業公司在其他維度——如生成質量、音訊整合、互動能力、合規安全——尋找新的護城河。

娛樂產業的範式衝擊

如果 Stable Video Infinity 的方法能夠成功整合進商業級影片生成系統,其對娛樂產業的衝擊將是結構性的。

短片與動畫:最先受到影響的領域

多分鐘級的連貫 AI 影片生成,首先衝擊的是短片和動畫製作領域。目前,一部 5-10 分鐘的高質量動畫短片,即使是小型獨立團隊,也需要數月的製作時間和可觀的預算。如果 AI 能夠生成具有連貫敘事和合理場景轉換的多分鐘影片,這個領域的準入門檻將被徹底重寫。一個有好故事和清晰視覺構想的個人創作者,就有可能在數天內完成過去需要一個團隊數月完成的工作。

這不意味着動畫師和短片導演會被取代。恰恰相反,AI 工具可能會讓更多的人進入這個領域,創造出更多元化的內容。但產業結構的重塑是不可避免的——低端的「按件計費」製作工作將被 AI 大幅壓縮,而高端的創意策劃和藝術指導能力的價值將相對提升。

遊戲內容生成:動態敘事的可能性

長影片生成能力對遊戲產業的影響同樣深遠。遊戲中的過場動畫(cutscene)歷來是製作成本最高的部分之一。3A 級大作的過場動畫通常需要專業的動作捕捉、建模、渲染和配音,成本可達數百萬美元。如果 AI 能夠根據遊戲的劇情腳本和角色設定,即時生成高質量的過場動畫,遊戲的敘事密度和製作效率將同時實現飛躍。

更大膽的設想是「動態敘事」——根據每個玩家的遊戲選擇,AI 即時生成獨一無二的劇情影片。這在技術上要求模型不僅能生成長時間的連貫影片,還需要在角色一致性、場景邏輯和敘事結構方面保持高度的可控性。Stable Video Infinity 解決了時間維度上的連貫性問題,但要實現真正的動態敘事,還需要在語義控制和互動生成方面取得進一步突破。

AI 短片:從概念到現實

迪士尼與 OpenAI Sora 的合作協議,已經發出了一個明確的信號:好萊塢正在認真考慮 AI 影片生成技術在專業影視製作中的應用。但受限於 Sora 目前的時長限制,這種合作更多停留在前期視覺化和概念驗證階段。Stable Video Infinity 所展示的多分鐘級生成能力,如果能在生成質量上達到商業標準,將把 AI 在影視製作中的角色從「輔助工具」推向「核心生產力」。

我們可以合理預期,在未來一到兩年內,完全由 AI 生成的短片將開始出現在主流影展和串流平台上。這些作品的質量和藝術價值將引發激烈的討論——關於創作的本質、作者身份的定義、以及人類藝術家在 AI 時代的角色。

技術前景與未解問題

儘管 Stable Video Infinity 在解決漂移問題上取得了重大突破,但要實現真正的「無限長度」高質量影片生成,仍然面臨若干尚未解決的挑戰。

首先是語義連貫性問題。漂移問題的解決確保了影片在視覺層面不會退化為噪聲,但「視覺上不退化」和「敘事上有意義」是兩個不同的層次。一段多分鐘的影片即使在像素層面保持穩定,也可能在敘事邏輯上缺乏連貫的因果關係和劇情發展。如何讓 AI 生成的長影片具備真正的敘事結構,需要在語言-視覺對齊和高層語義規劃方面取得進一步的突破。

其次是計算效率問題。即使只需要微調 LoRA 適配器,生成多分鐘級的高清影片仍然需要大量的推理計算。如何在保持生成質量的前提下降低計算成本,使之適合實時或近實時的應用場景(如遊戲中的即時生成),是一個重要的工程挑戰。

第三是評估標準問題。現有的影片生成評估指標主要針對短影片設計,缺乏衡量長影片時序連貫性和敘事質量的有效方法。學術界需要開發新的評估框架,才能對長影片生成方法進行公正、系統的比較。

Stable Video Infinity 解決的是生成式 AI 影片的「時間壁壘」,但真正讓 AI 成為一個「導演」,還需要突破「敘事壁壘」——讓 AI 不僅能生成連貫的畫面,還能講述有意義的故事。

對香港研究社群的啟示

Stable Video Infinity 的成功,對香港的 AI 研究社群有着多重啟示。

首先,這項研究再次證明,學術研究在「定義問題」和「提出範式性解決方案」方面的不可替代性。商業公司擁有更多的計算資源和工程人才,但在漂移問題上,投入更多的算力和數據並不能帶來根本性的突破。真正的突破來自對問題本質的深刻理解和對訓練範式的根本性反思——這正是學術研究的優勢所在。香港的大學在計算機視覺和多媒體處理方面擁有世界級的研究實力,完全有能力在類似的基礎性問題上做出原創貢獻。

其次,Stable Video Infinity 的方法具有高度的通用性——它不依賴於特定的基礎模型,可以作為「插件」應用於不同的影片生成架構。這種「方法論級別」的創新,往往比「工程級別」的改進具有更長久的學術和產業影響力。香港的研究者可以考慮在此基礎上,探索錯誤回收再訓練在其他序列生成任務——如長文本生成、音樂生成、3D 場景生成——中的應用潛力。

第三,EPFL 選擇開源的策略值得借鑑。在香港這樣一個研究資源相對有限的環境中,通過開源來擴大研究影響力、吸引國際合作、構建學術社群,是一個極具性價比的策略。

結語:從秒到分鐘,從工具到媒介

Stable Video Infinity 的意義不僅在於它解決了一個具體的技術問題,更在於它改變了我們對 AI 影片生成的想像空間。當 AI 影片從「數秒的視覺奇觀」延長為「數分鐘的連貫敘事」時,它就不再僅僅是一個內容創作工具,而開始具備成為一種獨立媒介形式的潛力。

從 OpenAI Sora 到字節跳動 Seedance,從 Runway 的 3.15 億美元融資到迪士尼的 AI 合作協議,商業世界正在以前所未有的速度和資金投入推動 AI 影片生成的商業化。但正是像 EPFL 這樣的學術團隊,在基礎方法論層面的突破,為整個領域的發展提供了真正的推動力。

Alahi 教授的「湍流飛行員」比喻,或許也適用於整個 AI 影片生成領域的當前狀態:這個領域正在經歷劇烈的技術湍流,而那些能夠在湍流中保持穩定的方法和公司,才會最終抵達目的地。Stable Video Infinity 展示了一條在湍流中保持穩定的路徑。剩下的問題是:這條路徑能帶我們走多遠?

本文要點總結

  • EPFL VITA Lab 提出 Stable Video Infinity,以「錯誤回收再訓練」方法從根本上解決了 AI 影片生成中的漂移退化問題,論文獲選 ICLR 2026 Oral(接收率低於 2%)。
  • 漂移問題的本質是訓練-推理分佈不匹配:模型在訓練時接收乾淨的真實幀,但在推理時面對自身生成的帶誤差幀,導致誤差指數級累積。錯誤回收再訓練讓模型直接面對自己的誤差並學會自我修正。
  • LayerSync 技術回收模型的內部邏輯表徵以加速微調過程,結合 LoRA 適配器,使得整個方法僅需極少的額外訓練數據和計算資源。
  • 商業 AI 影片模型(Sora、Seedance 2.0、Kling 3.0、Gen 4.5)目前仍被困在 15-30 秒的時長限制中。Stable Video Infinity 首次展示了多分鐘級的連貫生成,為突破商業產品的時間壁壘提供了可行路徑。
  • 該方法已在 GitHub 開源(vita-epfl/Stable-Video-Infinity),可作為通用「插件」應用於不同的基礎模型,對短片製作、動畫、遊戲內容生成等娛樂產業領域具有結構性的影響潛力。