← 返回新聞列表

遞歸語言模型(RLM):AI 主動管理自身上下文,長達數月任務的自主 AI 代理時代來臨

PrimeIntellect 最新研究提出全新訓練範式——模型不再被動接受上下文,而是學會主動折疊、委派與重建記憶,為長期自主代理打開新的可能

現今最先進的大型語言模型(LLM),即便上下文窗口已擴展至百萬 token,依然面臨一道根本性的限制:任務只能在一個固定的「記憶空間」內運作。一旦對話或任務超出這個邊界,模型便無能為力。這意味著,讓 AI 代理自主完成跨越數週乃至數月的工作——例如主導一項獨立研究計畫、監控一個長期業務流程,或協調一個多階段工程項目——在現有架構下幾乎是不可能實現的。

2026 年 2 月,來自 PrimeIntellect 的研究人員在 arXiv 發表了一篇題為《遞歸語言模型:2026 年的新範式》的論文,正面挑戰這一限制。他們提出的遞歸語言模型(Recursive Language Models,簡稱 RLM)框架,其核心主張令人震撼:與其讓模型在固定窗口內掙扎,不如訓練模型學會主動管理自身的上下文——知道何時委派、委派什麼、以及如何重建所需資訊。

上下文窗口的根本困境

要理解 RLM 的意義,首先必須明白傳統 LLM 在長期任務上的失敗模式。當一個 AI 代理被要求執行一個持續數小時的任務時,它所有的「記憶」都存在於當前的上下文窗口之中。隨著任務推進,這個窗口逐漸被填滿——早期的指令、中間的分析結果、工具調用的輸出——最終,最舊的資訊開始被截斷丟棄。

過去幾年,業界嘗試了多種解決方案。最常見的做法是「摘要壓縮」:當上下文快滿時,讓模型自動總結先前的內容,以較少的 token 保留「要點」。然而這種方法存在一個致命缺陷:摘要本質上是有損的。細節、推理鏈條、中間狀態——這些對於長期任務而言往往至關重要的資訊,在壓縮過程中不可避免地流失。

「摘要告訴模型『發生了什麼』,但無法保留『為什麼這樣做』以及『下一步需要什麼』。對於真正的長期自主代理而言,這種資訊損失是災難性的。」——PrimeIntellect 研究報告

百萬 token 的超長窗口只是推遲了這個問題的爆發,而非解決它。計算成本隨上下文長度呈二次方增長,且模型對極長上下文末端資訊的注意力本就較弱——「迷失在中間」(Lost in the Middle)現象早有研究記錄。

RLM 的核心洞見:委派,而非壓縮

RLM 的突破性思路在於,它拒絕了「壓縮一切以放入更小空間」的邏輯,轉而採用一個更接近人類工作方式的策略:將資訊委派給外部系統,在需要時再精確地取回。

具體而言,RLM 框架允許模型在執行任務時,將上下文的不同部分委派給兩類外部工具:

  • Python 腳本與外部記憶庫:將結構化的中間結果、數據集、計算狀態序列化存儲。模型不需要記住「三天前分析的那 500 行數據」,只需知道它們被存儲在哪裡,以及如何在需要時調用腳本重新載入。
  • 子 LLM(Sub-LLM):將特定的子任務完整地分發給一個全新的模型實例,由其在獨立的上下文窗口中處理,完成後只返回摘要性的結論或關鍵輸出。這讓複雜任務得以真正並行或分層執行,而每個子任務都能在自己完整的「記憶空間」中高質量地完成。
傳統 LLM vs. RLM 上下文管理對比
傳統 LLM:
  [任務開始] ──► [上下文窗口逐漸填滿] ──► [摘要壓縮,資訊流失] ──► [性能退化]

RLM:
  [任務開始] ──► [模型判斷:何時委派、委派什麼]
                   ├──► [Python 腳本:序列化中間狀態至外部記憶]
                   └──► [子 LLM:在獨立窗口中完成子任務]
  [需要時:精確重建所需上下文] ──► [任務持續推進,無資訊損失]

「學習式上下文折疊」:RLM 最關鍵的技術貢獻

然而,RLM 的真正創新並不只是提供了委派工具,而是改變了模型的訓練方式——讓模型通過強化學習(Reinforcement Learning)端到端地學習上下文管理策略。研究人員將這一能力稱為「學習式上下文折疊」(Learned Context Folding)。

這與此前基於規則的「腳手架」方案有本質區別。早期的 AI 代理框架(如 LangGraph、AutoGen 等)確實也會在代理的工作流程中插入記憶管理步驟,但這些步驟是由工程師預先設計的固定模板:「每隔 N 輪對話就摘要一次」、「當 token 數超過閾值就壓縮」。模型本身並不理解為什麼要這樣做,也不知道在什麼情況下應該例外。

RLM 的訓練過程則直接讓模型承擔後果。在強化學習的框架下,模型因成功完成長期任務而獲得獎勵,因記憶管理不當導致任務失敗而受到懲罰。久而久之,模型學會了三項核心判斷能力:

  1. 何時委派(When to delegate):識別哪些資訊是「現在不需要、但將來會用到的」,並主動將其外移。不是機械地按時間或 token 數觸發,而是基於對任務語義的理解。
  2. 委派什麼(What to compress):決定哪些細節必須完整保留,哪些可以用更緊湊的格式表示。這種判斷是任務相關的——對一個數學推導而言,每一步驟都不可丟失;對一段背景資料,高層摘要可能已經足夠。
  3. 如何重建(How to reconstruct):當需要使用被委派的資訊時,如何精確地重建所需的上下文,而非機械地重新載入所有外移的資料。

學習式上下文折疊 vs. 傳統摘要壓縮

維度 傳統摘要壓縮 RLM 學習式折疊
觸發機制 固定規則(token 閾值、輪次) 模型自主判斷(語義驅動)
資訊保真度 有損(細節不可逆丟失) 高保真(結構化外移,可精確重建)
學習方式 無學習(工程師設計模板) 強化學習(端到端獎勵最大化)
任務適應性 通用但粗糙 任務感知,動態調整策略

為何現在?長期自主代理的產業需求

RLM 的提出並非憑空而來,其背後有深刻的產業背景。當前,OpenAI、Anthropic、Google DeepMind 等頂尖實驗室無一不將「代理記憶」列為核心研究議題。Claude 的記憶功能、Perplexity Computer 所宣稱的「數月級別工作流」支持、DeepMind 的 Aletheia 自主研究代理——都在指向同一個問題:AI 代理如何才能真正持續工作,而不是每隔幾個小時就需要人類介入重啟。

現實情況是殘酷的:目前絕大多數 AI 代理在超過幾個小時的任務上都會顯著退化。失憶、重複勞動、無法在多日後的任務階段正確引用早期的決策依據——這些問題使得真正意義上的「長期自主 AI」在工程實踐中幾乎無法落地。

PrimeIntellect 的研究人員直接聲稱,RLM 有望成為「下一個重大突破」,使 AI 代理能夠解決跨越數週乃至數月的長期任務。這個說法或許雄心勃勃,但其技術邏輯是清晰的:一旦模型學會了真正可靠的上下文管理,長期任務的主要技術瓶頸便會消除。

與 PrimeIntellect 分散式訓練的聯繫

值得注意的是,PrimeIntellect 本身在分散式 AI 訓練領域已有深厚積累——他們早期的工作專注於讓大型模型訓練能夠在去中心化的算力網絡上進行。RLM 的研究方向與這一背景高度契合:子 LLM 的調用本質上是一種任務的分散式執行,而如何協調多個模型實例、管理它們之間的資訊流動,正是 PrimeIntellect 具備獨特優勢的領域。

更重要的是,RLM 的研究以開源方式發布。在 OpenAI 的 o3、Anthropic 的 Claude 等商業模型主導市場的當下,一個能夠實現長期自主任務的開源研究範式,其民主化意義不可低估。

技術挑戰與尚待解決的問題

儘管 RLM 的理論框架令人振奮,距離大規模實用部署仍有若干關鍵問題需要解決。

訓練信號的稀疏性

強化學習訓練長期任務面臨「獎勵稀疏」的經典難題:一個跨越數週的任務,只有在最終完成時才能給出明確的成功或失敗信號。如何設計中間獎勵、如何避免模型因短視而產生次優的記憶管理策略,是 RLM 訓練工程中的核心挑戰。

外部記憶的可靠性與安全性

將上下文委派給外部 Python 腳本和記憶庫,引入了新的可靠性風險:腳本執行失敗、記憶庫數據損壞、子 LLM 輸出不一致——任何一個環節的故障都可能使整個長期任務崩潰。此外,外部記憶的安全性邊界、訪問控制,也是企業級部署必須認真對待的問題。

評估框架的缺失

如何客觀評估一個 RLM 系統是否「真正」保留了資訊的完整性,而非只是在基準測試上表現良好?目前學術界尚缺乏成熟的長期任務評估框架,這也使得 RLM 的比較研究面臨方法論上的困難。

RLM 核心要點總覽

  • 突破點:模型通過強化學習,端到端地習得上下文管理策略,而非遵循工程師設計的固定模板。
  • 技術機制:將上下文委派給 Python 腳本(結構化外部記憶)和子 LLM(獨立子任務窗口),實現高保真的「學習式上下文折疊」。
  • 核心優勢:突破固定上下文窗口的硬限制,資訊損失遠低於傳統摘要壓縮,且策略具備任務感知能力。
  • 潛在影響:若技術成熟,可使 AI 代理執行跨越數週乃至數月的長期自主任務,是當前代理記憶研究的重大方向性突破。
  • 發布方式:開源研究,由 PrimeIntellect 發布,有助於民主化長期自主 AI 的開發能力。

對 AI 代理生態的深遠影響

如果 RLM 的研究方向得到驗證並走向工程化落地,其對現有 AI 代理生態的衝擊將是結構性的。今天許多圍繞「代理記憶」構建的工程解決方案——向量數據庫存儲、RAG(Retrieval-Augmented Generation)管道、各類記憶中間件——其存在部分原因正是模型本身缺乏自主管理上下文的能力。一旦模型本身學會了這種能力,這些外掛式解決方案的必要性將大幅降低,代理架構可能因此得到根本性的簡化。

對於關注長期自主 AI 的研究者和工程師而言,RLM 提供了一個值得深入研究的新視角:上下文管理不應是代理框架強加給模型的外部約束,而應是模型通過訓練內化的核心能力。這一理念的轉變,或許正是突破當前代理智能天花板的關鍵所在。

AI 代理的長期自主能力,一直是研究界和產業界共同期待卻始終未能真正實現的目標。RLM 尚在早期研究階段,距離「代理能夠自主工作數月」這一願景的實現,仍有漫長的工程路要走。但它所提出的問題框架——讓模型學會管理自身的記憶,而非依賴外部規則——方向是清晰的,值得整個領域認真對待。