Meta Llama 4 發布:原生多模態開放權重模型改變 AI 格局
首次採用混合專家架構,支援千萬級 token 上下文,在多項基準測試中超越 GPT-4o 和 Gemini
Meta 於 2025 年 4 月發布了備受期待的 Llama 4 系列模型,這是該公司首次推出原生多模態、採用混合專家(Mixture of Experts, MoE)架構的大語言模型。這一系列包括三款不同規模的模型:Scout、Maverick 和 Behemoth,分別針對不同的使用場景和運算資源進行優化。
17B 活躍參數
16 專家 | 109B 總參數
10M token 上下文
單張 H100 可運行
17B 活躍參數
128 專家
超越 GPT-4o
推理和編碼頂尖
288B 活躍參數
16 專家 | 教師模型
超越 GPT-4.5
仍在訓練中
Llama 4 首次在 Llama 系列中採用 MoE 架構。這種設計允許模型擁有大量的總參數,但在每次推理時只激活其中一小部分,從而在保持高性能的同時大幅降低運算成本。
以 Llama 4 Scout 為例,雖然總參數量達到 1,090 億,但每次推理只使用 170 億活躍參數。這意味著該模型可以在單張 NVIDIA H100 GPU 上運行,大大降低了部署門檻。
與之前通過後期融合添加視覺能力的方法不同,Llama 4 從一開始就以多模態方式設計。模型採用「早期融合」技術,在預訓練階段就同時處理大量的文本和視覺 token。
「這是 Llama 系列在智能水平上的重大躍升——不再是將獨立的、凍結的多模態權重拼接在一起,而是真正整合的多模態理解。」
Llama 4 Scout 提供高達 1000 萬 token 的上下文窗口,這是目前業界最長的之一。這種超長上下文能力對於需要處理大量文檔、長篇程式碼或複雜對話的應用場景尤為重要。
根據 Meta 發布的數據,Llama 4 系列在多項基準測試中表現優異:
儘管 Meta 繼續強調其對「開源」的承諾,但開源社群對此提出了質疑。開源倡議組織(OSI)指出,Llama 4 並不符合真正的開源定義。
主要爭議點包括:
Meta 在 Llama 4 的官方文檔中,已經將模型描述為「開放權重」而非「開源」,顯示公司在用語上有所調整。然而,這種區別對於許多用戶來說可能並不明顯。
Llama 4 的設計不僅僅是為了回答問題。根據 Meta 的願景,這些模型將能夠:
這標誌著 Llama 系列從純粹的語言模型向 AI 代理平台的轉變。
Llama 4 Scout 和 Llama 4 Maverick 模型現已可以在 Hugging Face 上下載。開發者可以根據 Llama 4 社群許可協議使用這些模型,但需要注意地理和商業使用限制。
對於不想自行部署的用戶,Meta 也通過其 AI 平台提供雲端 API 訪問。
Llama 4 的發布為香港開發者提供了重要機會。由於這些模型可以免費下載和使用,本地企業和研究機構可以在不支付高昂 API 費用的情況下,開發自己的 AI 應用。
特別值得注意的是,Llama 4 Scout 可以在單張 H100 上運行的特性,使得中小型企業也能負擔得起部署這些先進模型的成本。這為香港的 AI 生態系統帶來了新的可能性。
然而,開發者需要注意許可證的限制條款,特別是如果計劃將應用推向國際市場,需要仔細評估法律風險。