Samsung 共同執行長盧泰文(TM Roh)在 CES 2026 上宣布,公司將在 2026 年底前將搭載 Gemini AI 功能的行動裝置數量翻倍至 八億台。這一計劃不僅意味著 AI 功能將從旗艦機型擴展至中階和入門級產品線,更揭示了端側 AI 部署在硬體架構、模型優化和功耗管理上面臨的深層技術挑戰。
從四億到八億:技術升級路線
2025 年的基準線
2025 年,Samsung 在約 四億台裝置上部署了 Gemini AI 功能。這些裝置主要集中在旗艦和高階機型——Galaxy S 系列、Z Fold/Flip 系列以及高階平板。這些裝置配備了強大的 SoC(如 Snapdragon 8 Gen 3/Exynos 2400),擁有充足的算力和記憶體來運行端側 AI 推理。
2026 年的挑戰:中低階裝置
要在 2026 年達到八億台的目標,Gemini AI 必須擴展到 Galaxy A 系列(中階)甚至入門級產品。這些裝置的硬體規格顯著低於旗艦機型:
| 硬體指標 | 旗艦機型 | 中階機型 | 技術挑戰 |
|---|---|---|---|
| NPU 算力 | 45+ TOPS | 10-20 TOPS | 需要 2-4 倍模型壓縮 |
| RAM | 12-16 GB | 6-8 GB | 模型必須 < 2 GB |
| 電池 | 5000+ mAh | 4000 mAh | AI 功耗必須 < 10% |
| 散熱 | 蒸氣室散熱 | 石墨片散熱 | 持續推理時間受限 |
分層 AI 架構
為應對硬體異構性的挑戰,Samsung 可能採用分層 AI 架構:
第一層:雲端推理
- 完整的 Gemini 模型在 Google 雲端運行
- 適用於複雜任務(長文總結、深度分析、圖片生成)
- 所有裝置均可存取,但需要網路連接
第二層:端側大模型
- 精簡版 Gemini Nano 在裝置本地運行
- 適用於中等複雜度任務(文字改寫、即時翻譯、語音指令)
- 僅限旗艦和部分高階中階機型
第三層:端側微模型
- 超輕量模型,專為特定功能優化
- 適用於低延遲任務(照片增強、語音喚醒、文字預測)
- 所有 AI 裝置均支援
模型壓縮技術前沿
量化技術
將 Gemini 模型部署到中低階裝置,量化是最關鍵的壓縮技術:
- INT8 量化:將 32 位元浮點參數壓縮至 8 位元整數,記憶體需求降為 1/4,精度損失通常 < 1%
- INT4 量化:進一步壓縮至 4 位元,記憶體需求降為 1/8,但需要精心設計的校準策略來控制精度損失
- 混合精度:關鍵層保持較高精度,非關鍵層使用低精度,在效能和品質之間取得平衡
知識蒸餾
除了量化,知識蒸餾是另一條重要的壓縮路徑。大型 Gemini 模型作為教師,訓練出參數量小幾個數量級的學生模型。學生模型學習模仿教師的輸出分佈,而非從零開始學習,因此能以更少的參數達到接近教師的性能。
稀疏注意力
對於端側部署,稀疏注意力機制可以大幅降低推理的計算複雜度。傳統的全注意力計算成本隨序列長度的平方增長,而稀疏注意力通過只關注最相關的位置,將複雜度降低至近似線性。
Galaxy AI 功能生態
核心功能分布
Samsung 的 Galaxy AI 功能整合了 Gemini 和 Bixby 兩個 AI 系統:
Gemini 驅動的功能:
- 跨應用的智慧助手對話
- 長文摘要與改寫
- 程式碼輔助
- 複雜的多步驟任務執行
本地 AI 功能:
- 即時語音翻譯(通話中雙向翻譯)
- 照片魔術橡皮擦和生成式編輯
- 手寫筆記整理
- 通話錄音自動轉錄與摘要
Galaxy AI 品牌效應
根據 Samsung 的內部調查數據,Galaxy AI 品牌知名度達到 80%。這一數字表明,AI 功能已成為消費者購買決策中的重要因素。對於 Samsung 而言,將 AI 功能擴展到中低階產品線不僅是技術決策,更是維持市場競爭力的商業必要。
對 AI 晶片市場的影響
Samsung 八億裝置計劃對 AI 晶片供應鏈產生的連鎖效應不容忽視:
NPU 需求激增:每多一億台 AI 裝置意味著額外一億顆需要 NPU 的 SoC。中低階 SoC 的 NPU 設計需要在算力和功耗之間取得更精細的平衡。
記憶體頻寬壓力:AI 推理是記憶體頻寬密集型任務。中低階裝置的 LPDDR4X/5 記憶體頻寬可能成為端側推理的瓶頸。
專用 AI 加速器的機會:隨著端側 AI 需求的爆發,獨立 AI 加速器晶片(如 Google 的 Tensor 系列)的市場空間正在擴大。
技術展望
Samsung 的八億裝置 Gemini 部署計劃代表了端側 AI 大規模民主化的關鍵一步。當 AI 功能不再是旗艦機型的專屬特權,而是所有價位帶的標準配備時,我們將看到 AI 使用模式的根本性轉變——從「嘗鮮」走向「無處不在」。
這一過程中,模型壓縮技術、端側推理框架、以及 AI 晶片設計的創新將成為決定成敗的關鍵技術因素。