Mixture-of-Experts(MoE)架構已從學術概念演變為業界主流。繼 Google 的 Gemini 1.5 和 Mistral 的 Mixtral 之後,Meta 在 Llama 4 中全面擁抱 MoE,將這一架構引入全球下載量最大的開源語言模型系列。本文從架構設計角度深度分析 Llama 4 的技術選擇及其對開源 AI 生態的影響。
MoE 架構的核心設計原理
在傳統的密集型 Transformer 中,每個前饋網路(FFN)層的所有參數都參與每次前向傳播計算。MoE 架構的核心思想是「條件計算」(Conditional Computation):模型參數被組織為多個「專家」(Experts),每次前向傳播只啟動其中的少數幾個。
路由機制(Router)的設計
Llama 4 採用了 Top-K 軟路由(Soft Routing)設計,每個輸入 token 被路由到 K 個專家(通常 K=2),路由決策由一個輕量級的線性路由器(Router)做出。路由器輸出 softmax 分數,Top-K 專家的輸出按分數加權求和,形成最終的 FFN 輸出。
這種設計的關鍵挑戰是「負載均衡」(Load Balancing):如果路由器偏向某幾個專家,大多數專家幾乎不被使用,模型實際上退化為密集模型。Llama 4 採用了輔助損失(Auxiliary Loss)強制均衡,同時引入了「專家容量」(Expert Capacity)限制,防止單個專家在一個批次中處理過多 token 而其他專家空轉。
稀疏性與模型質量的 tradeoff
理論上,MoE 模型的「活躍參數數量」(Active Parameters)遠小於總參數數量。Llama 4 的旗艦版本擁有約 400B 總參數,但每次前向傳播只啟動約 50B 活躍參數,大幅降低推理計算量(FLOPs)。
然而,這種「高效」並非免費的午餐:MoE 模型的 KV 快取大小與總參數規模相當,而非活躍參數規模,導致記憶體佔用遠高於等效密集模型。在長上下文推理場景中,這一問題尤為突出。
Llama 4 的具體技術選擇
細粒度 MoE(Fine-grained MoE)
Llama 4 將每個 FFN 層拆分為大量小型專家(而非少數大型專家),每個 token 激活多個小型專家的組合。這種細粒度設計提高了路由的靈活性,同時緩解了負載不均的問題。
共享專家(Shared Experts)設計
Llama 4 在 MoE 層中保留了少數「共享專家」,這些專家不參與路由競爭,對所有 token 始終啟動。研究發現,模型傾向於讓共享專家學習「通用知識」,而讓路由專家學習「領域特定知識」,這種分工有助於提升模型的整體泛化能力。
開源 MoE 生態的影響
Llama 4 的開源發布對推動 MoE 架構的研究和應用具有重要意義。此前,大規模 MoE 模型的研究主要集中在有充足計算資源的頂尖實驗室。Llama 4 的開放讓學術界和中小型企業能夠在此基礎上研究 MoE 的微調方法、量化技術和邊緣部署方案。
目前最受關注的開放研究問題包括:如何在 QLoRA 等參數高效微調框架下有效微調 MoE 模型(路由器的更新策略是關鍵),以及如何在消費級硬體上部署量化後的 MoE 模型(4-bit 量化 + CPU offloading 的組合正在探索中)。
MoE 架構的技術紅利正在向更廣泛的研究者社群擴散,這或許是 Llama 4 最深遠的貢獻。