UltraQuant：4-bit KV 快取加速長代理

OraCore Editors

返回首頁

[RSCH] 2026年6月25日8 分鐘閱讀OraCore 編輯部

UltraQuant：4-bit KV 快取加速長代理

UltraQuant 證明 4-bit KV 快取能讓長篇多輪代理在更少記憶體下維持更多上下文，並在後段輪次明顯加速服務。

KV cache

分享 LinkedIn

UltraQuant 證明 4-bit KV 快取能讓長篇多輪代理在更少記憶體下維持更多上下文，並在後段輪次明顯加速服務。

研究機構：Advanced Micro Devices + UCLA + Purdue University
核心數據：後段輪次 P50 TTFT 提升 3.47×
突破點：FP4 KV 與 UE8M0 對應

長上下文代理的瓶頸，常常不是模型算不動，而是 KV cache 塞爆 HBM。這篇 UltraQuant: 4-bit KV caching for long agents 想證明一件事：把 KV cache 壓到 4 bit，不一定只是在省記憶體，也可能直接改變多輪服務的延遲表現。

它的重點很明確。不是只問「能不能量化」，而是問「在多輪、會重複使用前文、還要同時服務多個 session 的情境下，4-bit KV 能不能真的跑得順」。這篇論文把品質、cache 常駐率和 kernel 效率當成同一個系統來看。

這篇論文在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

現在的 LLM agent 不只是聊天。它會瀏覽網頁、看程式碼、呼叫工具，還要把一段很長的工作記憶帶著跑很多輪。這時候，KV cache 會快速膨脹，變成高頻寬記憶體的主要消耗者。

問題在於，cache 一大，系統就容易把有用的 prefix 擠出去。prefix 被趕走後，下一輪又得重新 prefill。對 serving 來說，這不只是浪費算力，還會拖慢 TTFT 和 TPOT。

因此，這篇論文處理的不是單純壓縮，而是「壓縮之後還能不能留住上下文」。它把目標放在長上下文、多輪、並發的 agent 工作負載上，因為這才是 cache 壓力真正會爆出來的地方。

論文也把 UltraQuant 放在兩個對照點之間看：一邊是 TurboQuant 類型的 4-bit 量化思路，另一邊是 vLLM 的 FP8 KV caching。FP8 已經能做到約 2× 壓縮，而且品質接近無損，還有原生硬體支援。這代表 4-bit 方案不能只靠「更小」來說服人，還得證明自己在服務面有實際價值。

方法怎麼做，白話講

這篇其實走了兩條路。第一條叫 Ultra-TurboQuant，也就是 Ultra-TQ。它保留 TurboQuant 的表示方式，但把實作做得更順。第二條才是 UltraQuant 本體，直接走向硬體原生的 FP4 近似路徑。

Ultra-TQ 的核心概念，和 TurboQuant 一樣，是先把 KV 向量做旋轉，讓離群值分散到各個 channel，這樣分佈比較好量化。論文用的是 Walsh–Hadamard rotation，並且移除了 QJL，同時把 key 和 value 做成非對稱處理，因為兩者在量化下的行為本來就不一樣。

論文特別強調一個很實際的修正：calibrated centroids。它不是只靠理論上的 Lloyd–Max centroid，而是用實際抓到的 activation 重新擬合 16-entry table。這個步驟成本很低，只需要對每個旋轉後 layer 抽大約 20 個 vector 做一次 forward pass；而且在實作上，只套用到 per-element quantization MSE 較高的 10% layer。

UltraQuant 再往前一步，直接把 codebook 路徑換成 FP4 micro-tensor 的做法。摘要提到它使用 FP8 queries、FP4 KV tensors、UE8M0 group scales，以及 CDNA4 上的 native scaled-MFMA。白話就是：它想讓 dequantization 不要變成額外的軟體查表，而是盡量吸進 matrix core 的硬體路徑裡。

這點很重要。因為 codebook quantization 雖然可以很準，但 serving 時常常會卡在 lookup 和不規則存取。UltraQuant 的判斷是，對服務來說，硬體原生格式可能比更精準、但更難跑快的表示法更有用。

它實際證明了什麼

這篇的評估不是拿單輪 benchmark 來講故事，而是直接對準 agentic workload。論文使用 vLLM 的原生多輪 benchmark，資料來自 ShareGPT conversation，並以 32 個 concurrent chat sessions 來跑，報告指標是 P50 TTFT 和 P50 TPOT。這種設計就是要模擬長時間服務下的 cache 壓力。

結果上，UltraQuant 在長上下文、多輪代理工作負載裡，晚期輪次的 P50 TTFT 提升了 3.47×。如果看全部輪次，TTFT 平均提升 2.3×，輸出吞吐量也比 FP8 KV baseline 高出 1.63×。

但這裡有一個很值得注意的細節：UltraQuant 並不是每個階段都贏。論文提到，在 warm rounds，P50 TTFT 是 FP8 的 0.86×，也就是 FP8 反而更快。真正拉開差距的是後段輪次，當每個 client 的 prefix 越來越長，FP8 的 resident cache 開始不夠用，而 UltraQuant 還能把更多 prefix 留在 device 上。

所以這個結果不是單純的「壓縮越多越快」。論文把提升歸因於 cache residency，而不是重新 prefill。換句話說，UltraQuant 的優勢來自它比較能把上下文留在 GPU 上，而不是每 token 都更快。

論文也給了 calibrated centroids 一個品質面上的數字。和 apples-to-apples 的 fakequant control 相比，重新擬合 codebook 可以把 per-element K quantization MSE 降低 10.3%，從 1.32×10^-4 降到 1.18×10^-4。摘要沒有提供完整 task accuracy 表，所以這個 MSE 數字是目前最清楚的品質證據。

對開發者代表什麼

如果你在做 context-heavy 的 agent，這篇論文在提醒一件事：KV cache 不是後端細節，它本身就是產品體驗的一部分。4-bit 方案只有在量化、kernel 執行和多輪服務都站得住腳時，才真的有價值。

最實用的工程啟發是，壓縮格式和部署格式不是同一件事。TurboQuant 類的 codebook 可能在演算法上很漂亮，但如果它帶來昂貴的 lookup 或 dequantization，服務系統最後還是會把省下來的東西吐回去。UltraQuant 的策略是讓表示法直接對齊硬體路徑，而不是把兩件事分開看。

另一個重點是，最好的指標要看工作負載。這篇沒有想做「一個 benchmark 打天下」的宣告，它盯的是長上下文、並發、多輪的 agent session。這正是 cache 常駐率和 latency 會互相拉扯的場景。如果你的工作負載多半是短 prompt，結果可能完全不同。

限制也很明確

根據目前提供的摘要內容，這篇沒有公開完整的 benchmark 細節。除了 agentic serving 的結果和 quantization MSE 例子之外，沒有看到更廣泛的任務表現數字，所以不適合直接把這些提升外推到所有模型或所有工作負載。

另外，這套方法也明顯綁在 AMD Instinct GPU 和 CDNA4 的原生支援上。UltraQuant 的 FP4 路徑依賴 scaled-MFMA 這類硬體能力，所以它的實作經驗不一定能平移到其他 accelerator。

結果本身也透露出一個 tradeoff：warm rounds 沒有 late rounds 那麼亮眼。這表示它的價值主要來自減少 eviction、把更多 context 留在 device，而不是一種全面性的 per-token 加速。

對開發者來說，真正要問的是：你的 serving stack 現在是不是已經卡在 resident KV capacity。如果是，UltraQuant 提供了一條路，讓 4-bit caching 不只是省記憶體，也可能變成實際的延遲優化。如果不是，這篇看到的 headline 數字，體感可能不會那麼大。

結論

UltraQuant 是一篇很明顯的 serving-first 研究。它不是只談量化精度，而是把量化、cache 版型和 AMD GPU kernel 支援一起考慮，目標是讓壓縮後的 KV state 真的能在多輪代理服務裡派上用場。

這篇論文的核心訊息很直接：對長上下文 agent 來說，4-bit KV cache 可以同時改善記憶體常駐和端到端服務速度，但前提是 representation 和 hardware path 必須一起設計。

4-bit KV caching 的價值，重點在能不能留住上下文。
UltraQuant 的優勢主要出現在後段、cache 壓力大的輪次。
這篇的貢獻是把量化格式和硬體執行路徑對齊。

// 相關文章

UltraQuant：4-bit KV 快取加速長代理

這篇論文在解什麼痛點

訂閱 AI 趨勢週報

方法怎麼做，白話講

它實際證明了什麼

對開發者代表什麼

限制也很明確

結論

OPSD 讓你把點擊變訓練

FLUX3D 讓 3DGS 保住細節

隨機次梯度最後一輪界更緊了

InSight 讓 VLA 自學新技能

Anthropic 警告遞迴自我改進是對的，但真正的問題是 AI 控制已經失速

OpenAI 一週挖出三大瀏覽器漏洞