阿里巴巴 Qwen 團隊在 2026 年 2 月至 3 月間以驚人速度完成 Qwen 3.5 全系列發布,涵蓋從 0.8B 到 397B 參數共九個模型,全系採用 Apache 2.0 開源授權,再次宣示開源陣營對閉源巨頭的持續追趕。
模型系列概覽
小模型(裝置端優化)
- Qwen3.5-0.8B、2B、4B、9B — 於 3 月 2 日發布,針對筆記型電腦和邊緣裝置優化
旗艦大模型
- Qwen3.5-397B-A17B — 混合專家(MoE)架構,支援 100 萬 token 上下文,2 月 16 日率先推出
核心技術創新
門控 DeltaNet 混合注意力
Qwen 3.5 採用全新架構,以 3:1 比例混合線性注意力與全注意力機制,在長上下文任務中顯著降低計算複雜度,同時保持標準 Transformer 的推理質量。
主要規格
| 規格 | 數值 |
|---|---|
| 詞彙量 | 248,000 |
| 支援語言 | 201 種 |
| 原生上下文長度 | 262,000 token |
| 9B 最大上下文 | 100 萬 token |
| 架構 | 稀疏 MoE + 線性注意力 |
性能亮點:小模型的大突破
Qwen3.5-9B 的跨越式表現
在多個主流基準測試中,9B 模型的成績令業界震驚:
- GPQA Diamond:81.7 分,超越 OpenAI gpt-oss-120B(參數量大 13 倍的模型)
- MMLU-Pro:82.5 分
- LongBench v2:55.2 分
- MMMU-Pro(視覺任務):70.1 分,大幅領先 GPT-5-Nano 的 57.2 分
效率突破
- Qwen3.5-35B-A3B 僅使用 30 億活躍參數,性能超越上一代 235B 模型
- 相比上代 Qwen,新系列在大型工作負載上成本降低 60%、性能提升 8 倍
開源生態整合
Qwen 3.5 全系列已上架 Hugging Face 及 ModelScope,並支援以下主流推理框架:
- vLLM(高吞吐量服務)
- llama.cpp(本地裝置運行)
- Transformers(原生 HuggingFace 整合)
雲端托管版本已在阿里雲及主要第三方平台提供,支援 Function Calling 工具調用。
行業意義
Qwen 3.5 的發布再次驗證了「開源小模型追趕閉源大模型」的趨勢。9B 模型在特定評測上超越 120B 閉源模型,意味著在許多企業場景中,開源小模型已足以替代昂貴的 API 調用,同時實現更低延遲和更強的數據隱私保護。這對 OpenAI、Anthropic 等依賴 API 計費的商業模式構成了持續的競爭壓力。