研究突破
Google 推出 TurboQuant:LLM 記憶體壓縮 6 倍,零準確率損失
Google Research 發布 TurboQuant 壓縮演算法,能將大型語言模型的 KV 快取記憶體壓縮至 3 位元,實現最高 6 倍記憶體縮減與 8 倍速度提升,且不損失模型準確率。此研究成果將於 ICLR 2026 正式發表。
Google Research 發布 TurboQuant 壓縮演算法,能將大型語言模型的 KV 快取記憶體壓縮至 3 位元,實現最高 6 倍記憶體縮減與 8 倍速度提升,且不損失模型準確率。此研究成果將於 ICLR 2026 正式發表。