TurboQuant 在 Google 測試中省下 6x KV 快取
Google Research 公布 TurboQuant,可把 KV cache 記憶體壓到至少 6x 以上,並在長上下文測試中維持接近全精度表現。

Google Research 的 TurboQuant 是 2025 年提出的向量量化方法,用來壓縮 LLM 的 KV cache 與 embedding。
Google Research 發表 TurboQuant,主打在線向量量化,目標是把高維向量壓小,同時盡量保留結構。團隊表示,它在長上下文 LLM 測試中,能維持接近全精度基準,壓縮率超過 4x。
| 項目 | 數值 |
|---|---|
| 提出年份 | 2025 |
| KV cache 記憶體減少 | 至少 6x |
| H100 上 attention-logit 加速 | 最高 8x |
| 長上下文測試壓縮率 | 超過 4x |
| KV-cache 品質門檻 | 每通道 3.5 bits |
| 上下文長度 | 4,000 到 104,000 tokens |
發生了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
這篇方法論出自 Amir Zandieh、Majid Daliri、Majid Hadian 和 Vahab Mirrokni 合作的論文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》。它鎖定三個成本最高的場景:LLM 推理、KV cache 壓縮、以及近鄰搜尋。

TurboQuant 分成兩個模式。TurboQuant mse 以最小化均方誤差為目標,TurboQuant prod 則偏向無偏的內積估計。
兩者都先做隨機旋轉,再做純量量化。prod 版本另外加上一個 1-bit 的 Quantized Johnson–Lindenstrauss 步驟,用來修正剩餘誤差。
- mse 版本把旋轉後的每個座標存成純量碼本。
- prod 版本再加上 sign sketch 與 residual norm。
- 論文顯示,bit 數提高時失真會下降,1 到 4 bits 的 MSE 例子約落在 0.36、0.117、0.03、0.009。
- Google Research 也把它放進 LongBench、Needle in a Haystack、ZeroSCROLLS、RULER 和 L-Eval 做測試。
這次的重點不是單純把向量壓小,而是盡量不讓模型行為走樣。對長上下文任務來說,這比單看壓縮率更重要。
為什麼重要
對做 LLM 服務的開發者來說,KV cache 常常就是記憶體瓶頸。Google 表示,TurboQuant 相較未量化的 32-bit keys,可把 KV cache footprint 至少壓到 6x,attention-logit 計算在 Nvidia H100 上最高可快 8x。

這會直接影響部署成本與吞吐量。當上下文長度拉到 4,000 到 104,000 tokens,伺服器能否撐住更多並發請求,往往就取決於 cache 是否夠省。
另一個實際差異在於,它是 online、data-oblivious 的方法,不必像不少舊量化方案那樣先做離線校準或訓練碼本。這讓它更容易塞進現有 serving stack,特別是長對話、檢索增強生成和向量搜尋。
但這類結果還是要看模型、工作負載和硬體是否一致。Google 自己的測試看起來漂亮,真正進到 production,實作成本和跨場景穩定性才是門檻。
如果 TurboQuant 能在更多模型上重現這種結果,KV cache 可能不再只是成本項目,而會變成可被精細管理的資源。問題只剩一個:你的 serving pipeline,準備好吃下這種量化了嗎?