標籤
vector quantization
向量量化是把高維向量壓成更小表示的核心技術,常見於 LLM KV cache、向量搜尋與推論加速。近期焦點在 TurboQuant 這類線上量化方法,強調在 MSE、inner product 失真與記憶體成本之間取得更好的平衡。
3 篇文章

技術研究/6月8日
TurboQuant 在 Google 測試中省下 6x KV 快取
Google Research 公布 TurboQuant,可把 KV cache 記憶體壓到至少 6x 以上,並在長上下文測試中維持接近全精度表現。

技術研究/4月29日
TurboQuant:線上向量量化更接近最優
TurboQuant 提出可線上運作、適合加速器的向量量化方法,主打 MSE 與 inner-product 失真都能逼近近似最優,並鎖定 KV cache 與向量搜尋場景。

技術研究/4月3日
Google TurboQuant 壓低 LLM 記憶體成本
Google 推出 TurboQuant,結合 QJL 與 PolarQuant,主打壓低 vector quantization 的記憶體開銷,並宣稱 LLM inference 最高可快 8 倍。