研究突破

Google 推出 TurboQuant:LLM 記憶體壓縮 6 倍,零準確率損失

Google Research 發布 TurboQuant 壓縮演算法,能將大型語言模型的 KV 快取記憶體壓縮至 3 位元,實現最高 6 倍記憶體縮減與 8 倍速度提升,且不損失模型準確率。此研究成果將於 ICLR 2026 正式發表。

Google Research 於 2026 年 3 月 25 日正式發布名為 TurboQuant 的突破性 AI 壓縮技術,這項成果能在不損失模型準確率的前提下,將大型語言模型(LLM)的關鍵記憶體需求大幅縮減,為 AI 推理效率帶來革命性突破。

技術原理

TurboQuant 的核心創新在於對 LLM 推理過程中的 KV 快取(Key-Value Cache) 進行極端壓縮。KV 快取是模型處理長文本時儲存注意力機制中間結果的關鍵元件,也是大型模型在部署時最主要的記憶體瓶頸之一。

傳統做法通常採用 8 位元或 4 位元量化,而 TurboQuant 突破性地將精度壓縮至 3 位元,達成:

指標傳統 16 位元TurboQuant 3 位元
記憶體用量100%約 16.7%(縮減 6 倍)
推理速度基準值最高提升 8 倍
準確率損失接近零

演算法創新點

TurboQuant 之所以能在極端壓縮比下維持準確率,歸功於以下關鍵技術突破:

  1. 自適應量化策略:針對不同注意力頭(attention head)的特性,動態調整量化粒度
  2. 旋轉量化空間:在壓縮前對張量進行旋轉變換,使數值分布更適合低位元量化
  3. 分組量化校準:透過小批次校準資料精確估計各層的量化誤差

這套方法在 NVIDIA H100 GPU 上進行測試,實測速度提升達到理論預測的 95% 以上,顯示算法實現效率極高。

對 AI 產業的影響

TurboQuant 的意義遠超技術層面,其對整個 AI 部署生態的影響包括:

降低硬體門檻:過去需要 8 張 H100 才能流暢運行的模型,採用 TurboQuant 後或許只需 1–2 張,大幅降低中小型企業部署前沿 AI 的成本。

延長現有硬體壽命:對於已投入大量硬體資本的企業,TurboQuant 使現有 GPU 叢集的效用倍增,無需立即採購新設備。

推動邊緣端 AI:記憶體需求的大幅下降,使在消費級顯卡甚至行動裝置上運行進階 LLM 成為可能。

發表與開放情況

此研究將於 ICLR 2026(國際機器學習表示學習會議)正式發表,Google Research 表示計劃開源相關程式碼及模型權重,讓學術界與開發者社群能夠廣泛應用。

TurboQuant 的發布,再次確立 Google 在 AI 效率研究領域的領先地位,同時也為 AI 民主化進程注入強力動能。

返回首頁