自 2017 年 Vaswani 等人提出 Transformer 架構以來,殘差連接(Residual Connection)一直扮演着不可或缺的角色。它允許梯度在深層網路中順暢回傳,使得數十層乃至上百層的模型成為可能。然而,隨着模型參數量從數十億攀升至數千億,研究者發現殘差連接的單一信息流通路徑已成為一個隱性瓶頸——它限制了層間信息的表達豐富度,也在極端規模下埋下了訓練不穩定的隱患。
2026 年 2 月,DeepSeek 在 arXiv(arXiv:2512.24880)上發表了一篇由創始人梁文鋒共同署名的論文,正式提出了 mHC(Manifold-Constrained Hyper-Connections,流形約束超連接)。這不是一個漸進式的改良,而是對 Transformer 信息流架構的一次根本性重構。它將單一的殘差流擴展為多條平行信息通道,並透過精巧的數學約束確保這些通道在任意規模下都保持穩定。論文的實驗結果令人信服:在 270 億參數規模下,mHC 徹底消除了困擾原始超連接方案的訓練崩潰問題,且僅引入 6.7% 的額外計算開銷。
殘差連接的瓶頸:從成功走向局限
要理解 mHC 的意義,首先需要回顧殘差連接為何在大規模訓練中逐漸力不從心。在標準 Transformer 中,每一層的輸出是該層自身計算結果與輸入之和:y = x + F(x)。這個簡單的加法操作確保了即使 F(x) 的梯度趨近於零,梯度仍能透過恆等映射路徑回傳。正是這個機制,讓 GPT、BERT 等模型得以訓練數十層深的網路。
但問題在於:殘差連接只提供了一條信息流通道。每一層只能選擇「保留多少原始信息」和「加入多少新信息」,缺乏更細粒度的信息路由能力。當模型深度和寬度同時增加時,這種單一通道的信息流會出現幾個問題:
- 信號累積效應:隨着層數加深,殘差流中累積的信號幅度持續增長,最終導致激活值分佈偏移,影響後續層的學習效率
- 表徵瓶頸:所有層間信息都必須壓縮到同一個殘差流中傳遞,限制了模型在不同抽象層次上同時維護多種信息表徵的能力
- 初始化敏感性:在超大規模模型中,殘差連接對學習率和初始化方案極為敏感,稍有不當便會引發訓練初期的損失函數突變(loss spike)
這些問題在數十億參數規模下尚可透過各種工程手段(如 Pre-Norm、學習率預熱等)緩解,但當模型擴展至數百億乃至上萬億參數時,它們會急劇惡化,成為訓練成功與否的關鍵障礙。
超連接(Hyper-Connections):開拓多通道信息流
DeepSeek 解決這個問題的第一步是提出超連接(Hyper-Connections, HC)的概念。其核心思想直觀而優雅:將原本單一的殘差信息流擴展為多條平行的信息流(streams)。
在 HC 架構中,每一層不再只是計算 y = x + F(x),而是維護 N 條信息流。一個可學習的混合矩陣(mixing matrix)決定了每條信息流如何匯聚各條輸入流的信息,再經過該層的計算後分發到各條輸出流。這種設計賦予了模型前所未有的信息路由靈活性——不同的信息流可以攜帶不同抽象層次的表徵,模型可以學習在不同層之間建立複雜的信息傳遞模式。
超連接 vs 殘差連接:核心差異
- 殘差連接:單一通道,y = x + F(x),所有信息共享一條路徑
- 超連接(HC):N 條平行信息流,透過可學習的混合矩陣進行跨層信息路由
- 關鍵優勢:更豐富的信息表徵、更靈活的層間通訊、更強的模型表達能力
在小規模實驗中,HC 展現出了令人振奮的效果。模型的學習效率和最終性能均有顯著提升。然而,當 DeepSeek 團隊將 HC 擴展至 270 億參數規模時,災難發生了。
規模化的災難:信號增益超過 3000 倍
在 270 億參數的訓練實驗中,未加約束的 HC 出現了災難性的信號爆炸。混合矩陣在訓練過程中學習到的權重配置導致信號在層間傳遞時被持續放大,增益最終超過了 3000 倍。這意味着通過數十層網路後,信號的幅度被放大了三個數量級以上,遠超浮點數的有效表示範圍。
具體表現為:在訓練進行到大約第 12,000 步時,損失函數出現了劇烈的突變(loss spike),梯度範數急劇攀升,隨後模型訓練完全發散,無法恢復。數天的訓練計算付之東流。
這個問題的根源在於,混合矩陣的譜範數(spectral norm)沒有受到任何約束。在無約束的優化過程中,混合矩陣可以自由地發展出大於 1 的特徵值,每經過一層就將信號幅度放大。當數十層乃至上百層的放大效應累積起來,信號爆炸便不可避免。
這個發現揭示了一個深刻的教訓:在小規模下表現良好的架構創新,在擴展至大規模時可能面臨完全不同的數學挑戰。而 DeepSeek 團隊的回應——mHC——展現了他們解決這類根本性問題的數學功底。
mHC 的數學核心:Birkhoff 多胞體與 Sinkhorn-Knopp 演算法
mHC 的核心洞察是:如果將混合矩陣約束為雙隨機矩陣(doubly stochastic matrix),就能從數學上保證信號幅度在層間傳遞時既不爆炸也不消失。
什麼是雙隨機矩陣?
雙隨機矩陣是一種特殊的非負矩陣,其每一行和每一列的元素之和都恰好等於 1。直觀地理解,它描述了一種「守恆的重新分配」——信號的總能量在重新分配到各條信息流時,既不被放大也不被衰減。所有 N 階雙隨機矩陣的集合構成了一個稱為 Birkhoff 多胞體(Birkhoff Polytope)的凸幾何體,其頂點恰好是所有 N 階置換矩陣。
為什麼雙隨機矩陣能解決信號爆炸?
雙隨機矩陣有一個關鍵的數學性質:其譜範數恰好等於 1。這意味着以雙隨機矩陣作為混合矩陣時,信號通過每一層的幅度增益精確地被控制在 1 倍。無論網路有多深、模型有多大,信號幅度都保持在穩定的範圍內。這是一個優雅而強大的理論保證——它不依賴任何經驗性的超參數調整或工程技巧,而是從數學結構上根本性地消除了信號爆炸的可能。
Sinkhorn-Knopp 演算法的應用
如何在訓練過程中高效地將混合矩陣約束到 Birkhoff 多胞體上?DeepSeek 團隊採用了經典的 Sinkhorn-Knopp 演算法。這個演算法透過交替地對矩陣的行和列進行歸一化操作,能夠將任意非負矩陣快速投影到雙隨機矩陣的空間。其收斂速度極快——通常只需幾次迭代就能達到足夠的精度,因此對訓練速度的影響極小。
具體而言,在每次前向傳播時,mHC 對混合矩陣的原始參數施加指數映射(確保非負性),然後執行數次 Sinkhorn-Knopp 迭代(確保雙隨機性)。整個過程完全可微分,能夠與標準的反向傳播梯度計算無縫整合。
mHC 的技術流程
- 參數化:混合矩陣的原始參數為無約束的實數矩陣
- 指數映射:逐元素取指數,確保所有元素為正數
- Sinkhorn-Knopp 迭代:交替行歸一化和列歸一化,將矩陣投影至 Birkhoff 多胞體
- 信息混合:用得到的雙隨機矩陣對多條信息流進行混合和路由
- 梯度回傳:整個流程完全可微,支持端到端的梯度優化
實驗結果:從崩潰到絲滑
mHC 的實驗結果堪稱戲劇性。在 270 億參數規模的對比實驗中:
- 未約束的 HC:在訓練第 12,000 步左右出現劇烈的 loss spike,梯度範數急劇飆升,隨後訓練完全發散,無法恢復
- mHC:整個訓練過程中損失函數平滑下降,梯度範數保持穩定,沒有出現任何 loss spike。訓練曲線幾近理想的教科書形態
更令人印象深刻的是效率數據。mHC 相對於標準 Transformer 僅增加了 6.7% 的計算開銷。這個數字極為關鍵——它意味着 mHC 不是一個「理論上漂亮但實踐中太貴」的方案,而是一個可以直接用於生產環境的工程化解決方案。考慮到它所解決的問題的嚴重性(訓練崩潰意味着數百萬美元的算力浪費),6.7% 的額外開銷可以說是微不足道的。
知名 AI 研究者 Sebastian Raschka 評價 mHC 為「一項令人矚目的突破,可能塑造基礎模型的演化方向」(a striking breakthrough that could shape the evolution of foundational models)。這一評價並非誇大——mHC 解決的是困擾 Transformer 架構近十年的根本性擴展問題。
創始人掛名的戰略信號
值得特別關注的是,DeepSeek 創始人兼 CEO 梁文鋒親自作為這篇論文的共同作者。在學術界和工業界,公司最高領導人在技術論文上署名通常意味着該研究代表了公司的核心戰略方向。
結合 DeepSeek 的產品路線圖,這一信號的含義相當明確:mHC 極有可能被整合進 DeepSeek 的下一代旗艦模型——無論是 R2(推理模型系列)還是 V4(通用模型系列)。梁文鋒的親自參與表明,mHC 不僅是一篇學術論文,更是 DeepSeek 未來模型架構的核心組件。
這一判斷與 DeepSeek 的一貫策略一致。DeepSeek 的歷史表現已經反覆證明了他們將前沿研究快速轉化為產品的能力。從 V3 以約 600 萬美元的訓練成本(相比 GPT-4 估計超過 1 億美元)達到前沿水平,到 R1 以僅約 29.4 萬美元的成本訓練出強大的推理模型,DeepSeek 在效率方面的紀錄無人能出其右。mHC 所帶來的訓練穩定性改善,將進一步放大這一效率優勢——當競爭對手還在為大規模訓練中的 loss spike 浪費算力時,DeepSeek 可以將每一個 GPU 小時都轉化為有效的模型能力提升。
行業影響:深遠而廣泛
對大模型訓練範式的影響
mHC 的出現可能改變大模型訓練的基本範式。目前,大規模訓練中應對不穩定性的主要方法是各種經驗性的工程技巧——學習率預熱(warmup)、梯度裁剪(gradient clipping)、精心調校的初始化方案、以及大量的試錯實驗。這些方法既消耗人力也浪費算力。mHC 提供了一個從數學原理出發的系統性解決方案,有可能大幅減少這些經驗性調校的必要性。
對開源生態的影響
DeepSeek 一貫的開源策略意味着 mHC 的技術細節已經透過論文公開。全球的 AI 研究者和開發者都可以在自己的模型中實現和驗證這一技術。如果 mHC 的效果確如論文所示,它有可能被廣泛採用,成為未來 Transformer 架構的標準組件之一——就像殘差連接本身在 2015 年被提出後迅速成為深度學習的標準配置一樣。
對中美 AI 競賽的影響
mHC 再次證明了 DeepSeek 在基礎架構研究方面的深厚功力。美國的出口管制限制了中國 AI 公司獲取最先進 GPU 的能力,但 DeepSeek 持續展現出在算法和架構層面繞過硬體限制的能力。mHC 本質上是一個軟體層面的創新——它不需要更強的硬體,而是讓現有硬體的利用效率更高。這種「以演算法換算力」的策略,正是 DeepSeek 在受限環境中保持競爭力的核心武器。
對模型擴展上限的影響
或許 mHC 最深遠的意義在於,它移除了阻礙模型繼續擴展的一個關鍵障礙。如果訓練穩定性不再是制約因素,那麼研究者可以更自信地探索更大規模的模型。這不意味着盲目地增加參數量,而是意味着在追求規模化的過程中,工程師可以把更多的精力放在模型設計和數據品質上,而不是反覆應對訓練崩潰的問題。
mHC 的意義不僅在於解決了一個技術問題,更在於它展示了一種思維方式:面對工程難題時,回歸數學基礎尋找結構性的解決方案,而非堆砌經驗性的修補措施。這種思維方式正是 DeepSeek 持續產出高效創新的根本原因。
技術前瞻:mHC 之後的可能方向
mHC 開啟了幾個值得關注的後續研究方向。首先,Birkhoff 多胞體約束是否是最優的選擇?是否存在其他凸集約束能夠在保持穩定性的同時提供更大的表達自由度?其次,mHC 目前應用於密集的 Transformer 層,它能否與 Mixture of Experts(MoE)等稀疏化架構有效結合?第三,mHC 的多通道信息流設計是否可以與注意力機制本身進行更深層的整合,實現更高效的信息路由?
這些問題的答案,可能就蘊藏在 DeepSeek 下一代模型的架構設計中。考慮到梁文鋒親自參與了 mHC 的研究,我們有理由相信 DeepSeek 團隊已經在探索這些方向。
本文要點總結
- 核心問題:殘差連接的單一信息流在超大規模 Transformer 訓練中成為瓶頸,導致信號累積和訓練不穩定
- HC 方案:將殘差流擴展為多條平行信息流,透過可學習的混合矩陣進行信息路由,但在 270 億參數規模下出現信號增益超過 3000 倍的災難性發散
- mHC 突破:透過 Sinkhorn-Knopp 演算法將混合矩陣約束於 Birkhoff 多胞體(雙隨機矩陣集合),從數學上保證信號幅度守恆,徹底消除信號爆炸
- 實驗驗證:mHC 在 270 億參數規模下實現全程無 loss spike 的平滑訓練,僅增加 6.7% 計算開銷
- 戰略意義:創始人梁文鋒親自掛名,mHC 極可能成為 DeepSeek 下一代旗艦模型(R2 或 V4)的架構基底
- 行業影響:解決困擾 Transformer 近十年的擴展穩定性問題,可能改變大模型訓練範式,並進一步鞏固 DeepSeek「以演算法換算力」的競爭優勢
- 論文來源:arXiv:2512.24880,已公開全部技術細節