標籤

vector quantization

向量量化是把高維向量壓成更小表示的核心技術，常見於 LLM KV cache、向量搜尋與推論加速。近期焦點在 TurboQuant 這類線上量化方法，強調在 MSE、inner product 失真與記憶體成本之間取得更好的平衡。

3 篇文章

TurboQuant 在 Google 測試中省下 6x KV 快取

技術研究/6月8日

TurboQuant 在 Google 測試中省下 6x KV 快取

Google Research 公布 TurboQuant，可把 KV cache 記憶體壓到至少 6x 以上，並在長上下文測試中維持接近全精度表現。

TurboQuant：線上向量量化更接近最優

技術研究/4月29日

TurboQuant：線上向量量化更接近最優

TurboQuant 提出可線上運作、適合加速器的向量量化方法，主打 MSE 與 inner-product 失真都能逼近近似最優，並鎖定 KV cache 與向量搜尋場景。

Google TurboQuant 壓低 LLM 記憶體成本

技術研究/4月3日

Google TurboQuant 壓低 LLM 記憶體成本

Google 推出 TurboQuant，結合 QJL 與 PolarQuant，主打壓低 vector quantization 的記憶體開銷，並宣稱 LLM inference 最高可快 8 倍。