arXiv 前沿：遞歸語言模型與 AI 訓練穩定性的突破性進展

arXiv——這個創建於 1991 年的預印本平台，已成為追蹤 AI 前沿進展最重要的窗口。每天有數百篇 AI 相關論文在這裏發布，而其中偶爾出現的突破性成果往往會在數週內改變整個領域的研究方向。2026 年 2 月，arXiv 上出現了異常密集的高影響力論文，涵蓋了從模型架構到訓練方法、從推理增強到幻覺消減等多個關鍵方向。本文將深入解讀其中六篇最具影響力的論文，以及一項值得關注的元分析研究。

一、遞歸語言模型（RLM）：長程 Agent 的下一個重大突破

由 Prime Intellect 團隊發表的遞歸語言模型（Recursive Language Models, RLM）論文，可能是 2026 年初最具突破性的 AI 研究成果之一。其核心創新在於：讓模型透過強化學習（RL）學會自主管理自己的上下文（context）。

要理解 RLM 的意義，首先需要了解目前 AI Agent 面臨的一個根本性瓶頸——上下文窗口限制。即使最先進的模型已經將上下文窗口擴展到數十萬個 token，但在執行長時間、多步驟的複雜任務時（例如跨越數天的軟體開發項目），上下文窗口仍然會被填滿。傳統的解決方案是透過摘要或截斷來壓縮上下文，但這些方法不可避免地會丟失關鍵信息。

RLM 的方法完全不同。它讓模型學會一組「元操作」：何時將當前的工作記憶存入長期記憶、何時從長期記憶中檢索相關信息、何時壓縮或重組現有上下文。這些操作不是由人類預先設計的規則驅動，而是透過強化學習自動發現的策略。

                        RLM 技術核心
                        自主上下文管理：模型透過 RL 學會決定何時存儲、檢索和壓縮上下文信息
遞歸調用：模型可以「調用自己」來處理子任務，完成後將結果整合回主任務
無限有效上下文：理論上消除了上下文窗口的硬性限制
長程 Agent 應用：特別適用於需要數小時甚至數天持續工作的 AI Agent

                    

更關鍵的是 RLM 的「遞歸調用」能力。模型可以在執行複雜任務時「調用自己」來處理子任務——例如在編寫大型程式時，主任務可以遞歸調用一個子實例來設計某個模組的架構，子實例完成後將結果返回主任務。這種遞歸結構使得模型能夠處理理論上任意複雜度的任務。

「RLM 對 AI Agent 的意義，就像遞歸對計算機科學的意義一樣。它不只是一個技術改進，而是解鎖了一整個新的能力層次。」——Prime Intellect 首席研究員

二、DeepSeek mHC：解決 Transformer 訓練不穩定性的關鍵突破

訓練大型 Transformer 模型時，訓練不穩定性一直是一個令人頭痛的問題。當模型規模增大時，損失函數經常出現突然的「跳升」（loss spike），嚴重時甚至導致整個訓練過程崩潰。這不僅浪費了昂貴的計算資源，更限制了模型的規模上限。

DeepSeek 團隊提出的流形約束超連接（Manifold-Constrained Hyper-Connections, mHC）方法，從數學角度重新分析了這個問題。他們發現，訓練不穩定性的根源在於梯度在高維參數空間中的行為——當模型足夠大時，梯度會在某些方向上不受控地增長，導致參數更新過大而「跳出」損失函數的良性區域。

mHC 的技術原理

mHC 的核心思想是將參數更新約束在一個數學流形（manifold）上。通俗地說，傳統的訓練方法允許參數在高維空間的任何方向上移動，而 mHC 將移動限制在一個更低維度的「表面」上。這個表面的選擇基於模型的結構特性，確保了梯度在所有方向上都是穩定的。

這種方法的實際效果是驚人的。在 DeepSeek 的實驗中，mHC 不僅消除了大型模型訓練中的 loss spike，更重要的是，它使得「激進的參數擴展」成為可能。具體而言，使用 mHC 的模型可以在訓練過程中動態增加參數數量，而不會導致訓練不穩定。這為一種全新的訓練範式打開了大門：模型不再需要從一開始就確定最終規模，而是可以從小規模開始訓練，隨着訓練進展逐步擴展。

                        mHC 對產業的影響
                        消除大規模模型訓練中的 loss spike，降低訓練失敗風險
支援訓練過程中的動態參數擴展，革新模型訓練範式
預計可節省 15-30% 的訓練計算成本（減少因 loss spike 導致的重啟）
為下一代萬億參數模型的穩定訓練鋪平道路

                    

三、SkillRL：遞歸技能增強強化學習

SkillRL 論文解決的是 AI Agent 在複雜環境中執行多步驟任務的效率問題。在標準的強化學習框架中，Agent 需要從原始動作空間中學習策略，這對於需要幾十甚至上百步操作的任務來說極其困難。

SkillRL 的創新在於引入了「技能」（skill）的概念。系統首先從成功的任務軌跡中自動發現可重用的技能模組（例如「打開櫃門」、「拿起物品」、「放置到指定位置」），然後讓 Agent 在技能層面而非原始動作層面進行決策。更關鍵的是，技能可以遞歸組合——一個高階技能可以由多個低階技能組成，形成層次化的技能庫。

在 ALFWorld 基準測試上，SkillRL 達到了 89.9% 的成功率，大幅超越了此前的最佳結果。ALFWorld 是一個模擬家庭環境的基準測試，要求 Agent 完成諸如「在廚房找到蘋果，清洗後放到冰箱裏」之類的複雜任務。89.9% 的成功率意味着 SkillRL 幾乎可以可靠地完成日常家務任務。

四、Google「Thinking States」：輸入處理階段的壓縮推理

Google 研究團隊提出的「Thinking States」方法挑戰了目前主流的「推理時計算」（inference-time compute）範式。目前的推理增強方法（如思維鏈、tree-of-thought 等）主要在模型生成輸出的過程中增加計算量。Thinking States 則另闢蹊徑，將額外的推理計算前置到輸入處理階段。

具體來說，當模型接收到一個複雜的輸入（例如一個長篇文檔加上一個分析問題）時，Thinking States 在模型的內部表示（intermediate representation）中插入「思考狀態」。這些思考狀態不是可見的文字輸出，而是模型內部的隱藏向量，它們在模型的中間層進行迭代計算，對輸入進行深度分析和壓縮。

壓縮推理的優勢

Thinking States 的一個關鍵優勢是效率。傳統的思維鏈推理需要生成大量的中間文字，這些文字佔用了寶貴的上下文窗口空間，也增加了推理延遲。而 Thinking States 的推理發生在模型內部，不佔用上下文窗口，也不產生可見的中間輸出。Google 的實驗顯示，在保持相同推理質量的前提下，Thinking States 可以將推理延遲降低 40-60%。

「思維鏈的問題在於它用語言作為思考的媒介。但人類的深度思考往往是非語言的——是直覺、是模式識別、是難以言表的洞察。Thinking States 試圖在模型中捕捉這種非語言的思考。」——論文作者

五、Goodfire RLFR：58% 幻覺消減，90 倍成本降低

幻覺（hallucination）——即 AI 模型自信地生成不正確的信息——一直是限制 AI 在高風險場景（如醫療、法律、金融）中應用的最大障礙之一。Goodfire 團隊提出的 RLFR（Reinforcement Learning from Factuality Rewards）方法在這個問題上取得了顯著的進展。

RLFR 的核心思想是在強化學習的獎勵函數中引入事實性（factuality）信號。具體做法是：建構一個事實性驗證器，能夠自動判斷模型輸出中每個聲明的真實性，然後用這個驗證器的判斷作為 RL 的獎勵信號。模型在訓練過程中逐漸學會在不確定時表示不確定，而不是編造看似合理的答案。

實驗結果令人印象深刻：RLFR 將幻覺率降低了 58%，同時在推理成本上實現了 90 倍的降低。後者尤其值得注意——之前的幻覺消減方法通常依賴多次推理和交叉驗證，計算成本極高。RLFR 則透過在訓練階段解決問題，使得推理時不需要額外的驗證步驟。

                        RLFR 關鍵成果
                        幻覺率降低 58%，顯著提升模型的事實性
推理成本降低 90 倍（相對於多次推理驗證方法）
模型學會在不確定時明確表示不確定，而非編造答案
對醫療、法律、金融等高風險應用場景意義重大

                    

六、iGRPO：數學推理能力的新高度

iGRPO（improved Group Relative Policy Optimization）是另一項值得關注的強化學習方法改進。它在 AIME 2024 數學推理基準測試上達到了 85.62% 的成績，刷新了該基準的最佳紀錄。AIME（American Invitational Mathematics Examination）是美國最具挑戰性的高中數學競賽之一，能夠在這個基準上達到如此高分，意味着 AI 的數學推理能力已經接近甚至超越了大多數人類數學愛好者的水平。

iGRPO 的改進主要在兩個方面。第一，它引入了更細粒度的獎勵信號——不僅獎勵最終的正確答案，也獎勵推理過程中的正確中間步驟。第二，它改進了策略優化的穩定性，使得模型在長鏈推理中保持一致的推理質量。這兩個改進的結合使得模型能夠可靠地完成需要 10-20 步推理的複雜數學問題。

附加研究：AI 寫作工具的元分析

除了上述技術突破外，Cornell 大學的一項元分析研究也值得關注。這項研究系統性地分析了過去兩年發表的 47 項關於 AI 寫作工具的實證研究，結論是：AI 寫作工具平均可將科學論文的產出量提升 50%，但同時存在顯著的質量隱憂。

具體而言，使用 AI 輔助寫作的論文在語言流暢度和結構完整性方面有明顯提升，但在原創性、論證深度和方法論嚴謹性方面則出現了下降趨勢。研究者特別指出了「同質化」現象——AI 輔助寫作的論文在風格和表達方式上越來越相似，可能削弱學術研究的多樣性。

「AI 正在讓我們更快地寫作，但問題是——我們是在更快地產出好的研究，還是更快地產出平庸的研究？」——Cornell 元分析研究主持人

對香港的啟示

這些 arXiv 論文對香港的 AI 研究和應用有多方面的啟示。首先，RLM 的突破對香港的金融科技行業影響深遠——金融分析和交易策略本質上就是需要長期記憶和多步驟推理的任務，而 RLM 的自主上下文管理能力恰好解決了這個需求。

DeepSeek mHC 的訓練穩定性改進對香港的 AI 研究機構尤其重要。香港的大學計算資源相對有限，訓練不穩定性導致的資源浪費對它們的影響尤為嚴重。mHC 有望大幅降低訓練成本，使香港的研究團隊能夠在有限預算下訓練更大的模型。

Goodfire RLFR 的幻覺消減技術對香港的醫療和法律行業有直接的應用價值。香港作為國際金融中心和醫療服務樞紐，對 AI 輸出的準確性有極高的要求。58% 的幻覺消減率，加上 90 倍的成本降低，可能是推動這些行業採用 AI 的關鍵拐點。

至於 Cornell 的 AI 寫作工具元分析，對香港高度國際化的學術界也提出了重要的反思。香港的大學在全球排名中佔據重要位置，論文產出的質量而非數量才是維持這一地位的關鍵。如何在利用 AI 提升效率的同時保持研究的原創性和深度，是香港學術界需要認真思考的問題。

                        本文要點總結
                        Prime Intellect 的 RLM 讓模型透過 RL 自主管理上下文，為長程 AI Agent 解鎖新能力層次
DeepSeek mHC 從數學角度解決 Transformer 訓練不穩定性，支援動態參數擴展
SkillRL 在 ALFWorld 上達到 89.9% 成功率，遞歸技能組合大幅提升多步驟任務效率
Google Thinking States 將推理計算前置到輸入處理階段，降低 40-60% 推理延遲
Goodfire RLFR 實現 58% 幻覺消減和 90 倍成本降低，對高風險應用場景意義重大
iGRPO 在 AIME24 上達到 85.62%，AI 數學推理能力逼近人類數學競賽選手水平
Cornell 元分析顯示 AI 寫作工具提升 50% 產出但引發質量和同質化隱憂