Meta Llama 4 架構深度解析：Mixture-of-Experts 設計如何實現 10 倍推理效率提升

Mixture-of-Experts（MoE）架構已從學術概念演變為業界主流。繼 Google 的 Gemini 1.5 和 Mistral 的 Mixtral 之後，Meta 在 Llama 4 中全面擁抱 MoE，將這一架構引入全球下載量最大的開源語言模型系列。本文從架構設計角度深度分析 Llama 4 的技術選擇及其對開源 AI 生態的影響。

MoE 架構的核心設計原理

在傳統的密集型 Transformer 中，每個前饋網路（FFN）層的所有參數都參與每次前向傳播計算。MoE 架構的核心思想是「條件計算」（Conditional Computation）：模型參數被組織為多個「專家」（Experts），每次前向傳播只啟動其中的少數幾個。

路由機制（Router）的設計

Llama 4 採用了 Top-K 軟路由（Soft Routing）設計，每個輸入 token 被路由到 K 個專家（通常 K=2），路由決策由一個輕量級的線性路由器（Router）做出。路由器輸出 softmax 分數，Top-K 專家的輸出按分數加權求和，形成最終的 FFN 輸出。

這種設計的關鍵挑戰是「負載均衡」（Load Balancing）：如果路由器偏向某幾個專家，大多數專家幾乎不被使用，模型實際上退化為密集模型。Llama 4 採用了輔助損失（Auxiliary Loss）強制均衡，同時引入了「專家容量」（Expert Capacity）限制，防止單個專家在一個批次中處理過多 token 而其他專家空轉。

稀疏性與模型質量的 tradeoff

理論上，MoE 模型的「活躍參數數量」（Active Parameters）遠小於總參數數量。Llama 4 的旗艦版本擁有約 400B 總參數，但每次前向傳播只啟動約 50B 活躍參數，大幅降低推理計算量（FLOPs）。

然而，這種「高效」並非免費的午餐：MoE 模型的 KV 快取大小與總參數規模相當，而非活躍參數規模，導致記憶體佔用遠高於等效密集模型。在長上下文推理場景中，這一問題尤為突出。

Llama 4 的具體技術選擇

細粒度 MoE（Fine-grained MoE）

Llama 4 將每個 FFN 層拆分為大量小型專家（而非少數大型專家），每個 token 激活多個小型專家的組合。這種細粒度設計提高了路由的靈活性，同時緩解了負載不均的問題。

共享專家（Shared Experts）設計

Llama 4 在 MoE 層中保留了少數「共享專家」，這些專家不參與路由競爭，對所有 token 始終啟動。研究發現，模型傾向於讓共享專家學習「通用知識」，而讓路由專家學習「領域特定知識」，這種分工有助於提升模型的整體泛化能力。

開源 MoE 生態的影響

Llama 4 的開源發布對推動 MoE 架構的研究和應用具有重要意義。此前，大規模 MoE 模型的研究主要集中在有充足計算資源的頂尖實驗室。Llama 4 的開放讓學術界和中小型企業能夠在此基礎上研究 MoE 的微調方法、量化技術和邊緣部署方案。

目前最受關注的開放研究問題包括：如何在 QLoRA 等參數高效微調框架下有效微調 MoE 模型（路由器的更新策略是關鍵），以及如何在消費級硬體上部署量化後的 MoE 模型（4-bit 量化 + CPU offloading 的組合正在探索中）。

MoE 架構的技術紅利正在向更廣泛的研究者社群擴散，這或許是 Llama 4 最深遠的貢獻。