TurboQuant 在 Google 測試中省下 6x KV 快取

OraCore Editors

返回首頁

[RSCH] 2026年6月8日3 分鐘閱讀OraCore 編輯部

TurboQuant 在 Google 測試中省下 6x KV 快取

Google Research 公布 TurboQuant，可把 KV cache 記憶體壓到至少 6x 以上，並在長上下文測試中維持接近全精度表現。

Google Research KV cache LLM inference TurboQuant vector quantization

分享 LinkedIn

Google Research 的 TurboQuant 是 2025 年提出的向量量化方法，用來壓縮 LLM 的 KV cache 與 embedding。

Google Research 發表 TurboQuant，主打在線向量量化，目標是把高維向量壓小，同時盡量保留結構。團隊表示，它在長上下文 LLM 測試中，能維持接近全精度基準，壓縮率超過 4x。

項目	數值
提出年份	2025
KV cache 記憶體減少	至少 6x
H100 上 attention-logit 加速	最高 8x
長上下文測試壓縮率	超過 4x
KV-cache 品質門檻	每通道 3.5 bits
上下文長度	4,000 到 104,000 tokens

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這篇方法論出自 Amir Zandieh、Majid Daliri、Majid Hadian 和 Vahab Mirrokni 合作的論文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》。它鎖定三個成本最高的場景：LLM 推理、KV cache 壓縮、以及近鄰搜尋。

TurboQuant 分成兩個模式。TurboQuant mse 以最小化均方誤差為目標，TurboQuant prod 則偏向無偏的內積估計。

兩者都先做隨機旋轉，再做純量量化。prod 版本另外加上一個 1-bit 的 Quantized Johnson–Lindenstrauss 步驟，用來修正剩餘誤差。

mse 版本把旋轉後的每個座標存成純量碼本。
prod 版本再加上 sign sketch 與 residual norm。
論文顯示，bit 數提高時失真會下降，1 到 4 bits 的 MSE 例子約落在 0.36、0.117、0.03、0.009。
Google Research 也把它放進 LongBench、Needle in a Haystack、ZeroSCROLLS、RULER 和 L-Eval 做測試。

這次的重點不是單純把向量壓小，而是盡量不讓模型行為走樣。對長上下文任務來說，這比單看壓縮率更重要。

為什麼重要

對做 LLM 服務的開發者來說，KV cache 常常就是記憶體瓶頸。Google 表示，TurboQuant 相較未量化的 32-bit keys，可把 KV cache footprint 至少壓到 6x，attention-logit 計算在 Nvidia H100 上最高可快 8x。

這會直接影響部署成本與吞吐量。當上下文長度拉到 4,000 到 104,000 tokens，伺服器能否撐住更多並發請求，往往就取決於 cache 是否夠省。

另一個實際差異在於，它是 online、data-oblivious 的方法，不必像不少舊量化方案那樣先做離線校準或訓練碼本。這讓它更容易塞進現有 serving stack，特別是長對話、檢索增強生成和向量搜尋。

但這類結果還是要看模型、工作負載和硬體是否一致。Google 自己的測試看起來漂亮，真正進到 production，實作成本和跨場景穩定性才是門檻。

如果 TurboQuant 能在更多模型上重現這種結果，KV cache 可能不再只是成本項目，而會變成可被精細管理的資源。問題只剩一個：你的 serving pipeline，準備好吃下這種量化了嗎？

// 相關文章

TurboQuant 在 Google 測試中省下 6x KV 快取

發生了什麼

訂閱 AI 趨勢週報

為什麼重要

Prompt 工程把 codegen 變成可重複流程

2026 Prompt Engineering 快速手冊

35 個 ChatGPT 研究提示詞實作指南

GraphVid 用互動圖控影片生成

可擴張 Flow Map：生成尺寸跟著長

VLM-IE3D替VLM補上3D幾何