遞歸語言模型(RLM):AI 主動管理自身上下文,長達數月任務的自主 AI 代理時代來臨
PrimeIntellect 最新研究提出全新訓練範式——模型不再被動接受上下文,而是學會主動折疊、委派與重建記憶,為長期自主代理打開新的可能
PrimeIntellect 最新研究提出全新訓練範式——模型不再被動接受上下文,而是學會主動折疊、委派與重建記憶,為長期自主代理打開新的可能
現今最先進的大型語言模型(LLM),即便上下文窗口已擴展至百萬 token,依然面臨一道根本性的限制:任務只能在一個固定的「記憶空間」內運作。一旦對話或任務超出這個邊界,模型便無能為力。這意味著,讓 AI 代理自主完成跨越數週乃至數月的工作——例如主導一項獨立研究計畫、監控一個長期業務流程,或協調一個多階段工程項目——在現有架構下幾乎是不可能實現的。
2026 年 2 月,來自 PrimeIntellect 的研究人員在 arXiv 發表了一篇題為《遞歸語言模型:2026 年的新範式》的論文,正面挑戰這一限制。他們提出的遞歸語言模型(Recursive Language Models,簡稱 RLM)框架,其核心主張令人震撼:與其讓模型在固定窗口內掙扎,不如訓練模型學會主動管理自身的上下文——知道何時委派、委派什麼、以及如何重建所需資訊。
要理解 RLM 的意義,首先必須明白傳統 LLM 在長期任務上的失敗模式。當一個 AI 代理被要求執行一個持續數小時的任務時,它所有的「記憶」都存在於當前的上下文窗口之中。隨著任務推進,這個窗口逐漸被填滿——早期的指令、中間的分析結果、工具調用的輸出——最終,最舊的資訊開始被截斷丟棄。
過去幾年,業界嘗試了多種解決方案。最常見的做法是「摘要壓縮」:當上下文快滿時,讓模型自動總結先前的內容,以較少的 token 保留「要點」。然而這種方法存在一個致命缺陷:摘要本質上是有損的。細節、推理鏈條、中間狀態——這些對於長期任務而言往往至關重要的資訊,在壓縮過程中不可避免地流失。
「摘要告訴模型『發生了什麼』,但無法保留『為什麼這樣做』以及『下一步需要什麼』。對於真正的長期自主代理而言,這種資訊損失是災難性的。」——PrimeIntellect 研究報告
百萬 token 的超長窗口只是推遲了這個問題的爆發,而非解決它。計算成本隨上下文長度呈二次方增長,且模型對極長上下文末端資訊的注意力本就較弱——「迷失在中間」(Lost in the Middle)現象早有研究記錄。
RLM 的突破性思路在於,它拒絕了「壓縮一切以放入更小空間」的邏輯,轉而採用一個更接近人類工作方式的策略:將資訊委派給外部系統,在需要時再精確地取回。
具體而言,RLM 框架允許模型在執行任務時,將上下文的不同部分委派給兩類外部工具:
然而,RLM 的真正創新並不只是提供了委派工具,而是改變了模型的訓練方式——讓模型通過強化學習(Reinforcement Learning)端到端地學習上下文管理策略。研究人員將這一能力稱為「學習式上下文折疊」(Learned Context Folding)。
這與此前基於規則的「腳手架」方案有本質區別。早期的 AI 代理框架(如 LangGraph、AutoGen 等)確實也會在代理的工作流程中插入記憶管理步驟,但這些步驟是由工程師預先設計的固定模板:「每隔 N 輪對話就摘要一次」、「當 token 數超過閾值就壓縮」。模型本身並不理解為什麼要這樣做,也不知道在什麼情況下應該例外。
RLM 的訓練過程則直接讓模型承擔後果。在強化學習的框架下,模型因成功完成長期任務而獲得獎勵,因記憶管理不當導致任務失敗而受到懲罰。久而久之,模型學會了三項核心判斷能力:
| 維度 | 傳統摘要壓縮 | RLM 學習式折疊 |
|---|---|---|
| 觸發機制 | 固定規則(token 閾值、輪次) | 模型自主判斷(語義驅動) |
| 資訊保真度 | 有損(細節不可逆丟失) | 高保真(結構化外移,可精確重建) |
| 學習方式 | 無學習(工程師設計模板) | 強化學習(端到端獎勵最大化) |
| 任務適應性 | 通用但粗糙 | 任務感知,動態調整策略 |
RLM 的提出並非憑空而來,其背後有深刻的產業背景。當前,OpenAI、Anthropic、Google DeepMind 等頂尖實驗室無一不將「代理記憶」列為核心研究議題。Claude 的記憶功能、Perplexity Computer 所宣稱的「數月級別工作流」支持、DeepMind 的 Aletheia 自主研究代理——都在指向同一個問題:AI 代理如何才能真正持續工作,而不是每隔幾個小時就需要人類介入重啟。
現實情況是殘酷的:目前絕大多數 AI 代理在超過幾個小時的任務上都會顯著退化。失憶、重複勞動、無法在多日後的任務階段正確引用早期的決策依據——這些問題使得真正意義上的「長期自主 AI」在工程實踐中幾乎無法落地。
PrimeIntellect 的研究人員直接聲稱,RLM 有望成為「下一個重大突破」,使 AI 代理能夠解決跨越數週乃至數月的長期任務。這個說法或許雄心勃勃,但其技術邏輯是清晰的:一旦模型學會了真正可靠的上下文管理,長期任務的主要技術瓶頸便會消除。
值得注意的是,PrimeIntellect 本身在分散式 AI 訓練領域已有深厚積累——他們早期的工作專注於讓大型模型訓練能夠在去中心化的算力網絡上進行。RLM 的研究方向與這一背景高度契合:子 LLM 的調用本質上是一種任務的分散式執行,而如何協調多個模型實例、管理它們之間的資訊流動,正是 PrimeIntellect 具備獨特優勢的領域。
更重要的是,RLM 的研究以開源方式發布。在 OpenAI 的 o3、Anthropic 的 Claude 等商業模型主導市場的當下,一個能夠實現長期自主任務的開源研究範式,其民主化意義不可低估。
儘管 RLM 的理論框架令人振奮,距離大規模實用部署仍有若干關鍵問題需要解決。
強化學習訓練長期任務面臨「獎勵稀疏」的經典難題:一個跨越數週的任務,只有在最終完成時才能給出明確的成功或失敗信號。如何設計中間獎勵、如何避免模型因短視而產生次優的記憶管理策略,是 RLM 訓練工程中的核心挑戰。
將上下文委派給外部 Python 腳本和記憶庫,引入了新的可靠性風險:腳本執行失敗、記憶庫數據損壞、子 LLM 輸出不一致——任何一個環節的故障都可能使整個長期任務崩潰。此外,外部記憶的安全性邊界、訪問控制,也是企業級部署必須認真對待的問題。
如何客觀評估一個 RLM 系統是否「真正」保留了資訊的完整性,而非只是在基準測試上表現良好?目前學術界尚缺乏成熟的長期任務評估框架,這也使得 RLM 的比較研究面臨方法論上的困難。
如果 RLM 的研究方向得到驗證並走向工程化落地,其對現有 AI 代理生態的衝擊將是結構性的。今天許多圍繞「代理記憶」構建的工程解決方案——向量數據庫存儲、RAG(Retrieval-Augmented Generation)管道、各類記憶中間件——其存在部分原因正是模型本身缺乏自主管理上下文的能力。一旦模型本身學會了這種能力,這些外掛式解決方案的必要性將大幅降低,代理架構可能因此得到根本性的簡化。
對於關注長期自主 AI 的研究者和工程師而言,RLM 提供了一個值得深入研究的新視角:上下文管理不應是代理框架強加給模型的外部約束,而應是模型通過訓練內化的核心能力。這一理念的轉變,或許正是突破當前代理智能天花板的關鍵所在。
AI 代理的長期自主能力,一直是研究界和產業界共同期待卻始終未能真正實現的目標。RLM 尚在早期研究階段,距離「代理能夠自主工作數月」這一願景的實現,仍有漫長的工程路要走。但它所提出的問題框架——讓模型學會管理自身的記憶,而非依賴外部規則——方向是清晰的,值得整個領域認真對待。