[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-ultraquant-4bit-kv-caching-agents-zh":3,"article-related-ultraquant-4bit-kv-caching-agents-zh":30,"series-research-a2242009-98d7-409c-9f22-d825a81fef2e":75},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"a2242009-98d7-409c-9f22-d825a81fef2e","ultraquant-4bit-kv-caching-agents-zh","UltraQuant：4-bit KV 快取加速長代理","\u003Cp data-speakable=\"summary\">UltraQuant 證明 4-bit KV 快取能讓長篇多輪代理在更少記憶體下維持更多上下文，並在後段輪次明顯加速服務。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：Advanced Micro Devices + UCLA + Purdue University\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：後段輪次 P50 TTFT 提升 3.47×\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：FP4 KV 與 UE8M0 對應\u003C\u002Fli>\u003C\u002Ful>\u003Cp>長上下文代理的瓶頸，常常不是\u003Ca href=\"\u002Fnews\u002Fdatabricks-model-serving-supported-models-regions-zh\">模型\u003C\u002Fa>算不動，而是 \u003Ca href=\"\u002Ftag\u002Fkv-cache\">KV cache\u003C\u002Fa> 塞爆 HBM。這篇 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F0000.00000\">UltraQuant: 4-bit KV caching for long agents\u003C\u002Fa> 想證明一件事：把 KV cache 壓到 4 bit，不一定只是在省記憶體，也可能直接改變多輪服務的延遲表現。\u003C\u002Fp>\u003Cp>它的重點很明確。不是只問「能不能量化」，而是問「在多輪、會重複使用前文、還要同時服務多個 session 的情境下，4-bit KV 能不能真的跑得順」。這篇論文把品質、cache 常駐率和 kernel 效率當成同一個系統來看。\u003C\u002Fp>\u003Ch2>這篇論文在解什麼痛點\u003C\u002Fh2>\u003Cp>現在的 LLM \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 不只是聊天。它會瀏覽網頁、看程式碼、呼叫工具，還要把一段很長的工作記憶帶著跑很多輪。這時候，KV cache 會快速膨脹，變成高頻寬記憶體的主要消耗者。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782331375909-uhyy.png\" alt=\"UltraQuant：4-bit KV 快取加速長代理\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題在於，cache 一大，系統就容易把有用的 prefix 擠出去。prefix 被趕走後，下一輪又得重新 prefill。對 serving 來說，這不只是浪費算力，還會拖慢 TTFT 和 TPOT。\u003C\u002Fp>\u003Cp>因此，這篇論文處理的不是單純壓縮，而是「壓縮之後還能不能留住上下文」。它把目標放在長上下文、多輪、並發的 agent 工作負載上，因為這才是 cache 壓力真正會爆出來的地方。\u003C\u002Fp>\u003Cp>論文也把 UltraQuant 放在兩個對照點之間看：一邊是 \u003Ca href=\"\u002Ftag\u002Fturboquant\">TurboQuant\u003C\u002Fa> 類型的 4-bit 量化思路，另一邊是 vLLM 的 FP8 KV caching。FP8 已經能做到約 2× 壓縮，而且品質接近無損，還有原生硬體支援。這代表 4-bit 方案不能只靠「更小」來說服人，還得證明自己在服務面有實際價值。\u003C\u002Fp>\u003Ch2>方法怎麼做，白話講\u003C\u002Fh2>\u003Cp>這篇其實走了兩條路。第一條叫 Ultra-TurboQuant，也就是 Ultra-TQ。它保留 TurboQuant 的表示方式，但把實作做得更順。第二條才是 UltraQuant 本體，直接走向硬體原生的 FP4 近似路徑。\u003C\u002Fp>\u003Cp>Ultra-TQ 的核心概念，和 TurboQuant 一樣，是先把 KV 向量做旋轉，讓離群值分散到各個 channel，這樣分佈比較好量化。論文用的是 Walsh–Hadamard rotation，並且移除了 QJL，同時把 key 和 value 做成非對稱處理，因為兩者在量化下的行為本來就不一樣。\u003C\u002Fp>\u003Cp>論文特別強調一個很實際的修正：calibrated centroids。它不是只靠理論上的 Lloyd–Max centroid，而是用實際抓到的 activation 重新擬合 16-entry table。這個步驟成本很低，只需要對每個旋轉後 layer 抽大約 20 個 vector 做一次 forward pass；而且在實作上，只套用到 per-element quantization MSE 較高的 10% layer。\u003C\u002Fp>\u003Cp>UltraQuant 再往前\u003Ca href=\"\u002Fnews\u002Fopenai-custom-chip-right-move-against-nvidia-zh\">一步\u003C\u002Fa>，直接把 codebook 路徑換成 FP4 micro-tensor 的做法。摘要提到它使用 FP8 queries、FP4 KV tensors、UE8M0 group scales，以及 CDNA4 上的 native scaled-MFMA。白話就是：它想讓 dequantization 不要變成額外的軟體查表，而是盡量吸進 matrix core 的硬體路徑裡。\u003C\u002Fp>\u003Cp>這點很重要。因為 codebook quantization 雖然可以很準，但 serving 時常常會卡在 lookup 和不規則存取。UltraQuant 的判斷是，對服務來說，硬體原生格式可能比更精準、但更難跑快的表示法更有用。\u003C\u002Fp>\u003Ch2>它實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇的評估不是拿單輪 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 來講故事，而是直接對準 agentic workload。論文使用 vLLM 的原生多輪 benchmark，資料來自 ShareGPT conversation，並以 32 個 concurrent chat sessions 來跑，報告指標是 P50 TTFT 和 P50 TPOT。這種設計就是要模擬長時間服務下的 cache 壓力。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782331380168-0377.png\" alt=\"UltraQuant：4-bit KV 快取加速長代理\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>結果上，UltraQuant 在長上下文、多輪代理工作負載裡，晚期輪次的 P50 TTFT 提升了 3.47×。如果看全部輪次，TTFT 平均提升 2.3×，輸出吞吐量也比 FP8 KV baseline 高出 1.63×。\u003C\u002Fp>\u003Cp>但這裡有一個很值得注意的細節：UltraQuant 並不是每個階段都贏。論文提到，在 warm rounds，P50 TTFT 是 FP8 的 0.86×，也就是 FP8 \u003Ca href=\"\u002Fnews\u002Fnvidia-ceo-ai-lift-software-stocks-zh\">反而\u003C\u002Fa>更快。真正拉開差距的是後段輪次，當每個 client 的 prefix 越來越長，FP8 的 resident cache 開始不夠用，而 UltraQuant 還能把更多 prefix 留在 device 上。\u003C\u002Fp>\u003Cp>所以這個結果不是單純的「壓縮越多越快」。論文把提升歸因於 cache residency，而不是重新 prefill。換句話說，UltraQuant 的優勢來自它比較能把上下文留在 GPU 上，而不是每 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 都更快。\u003C\u002Fp>\u003Cp>論文也給了 calibrated centroids 一個品質面上的數字。和 apples-to-apples 的 fakequant control 相比，重新擬合 codebook 可以把 per-element K quantization MSE 降低 10.3%，從 1.32×10^-4 降到 1.18×10^-4。摘要沒有提供完整 task accuracy 表，所以這個 MSE 數字是目前最清楚的品質證據。\u003C\u002Fp>\u003Ch2>對開發者代表什麼\u003C\u002Fh2>\u003Cp>如果你在做 context-heavy 的 agent，這篇論文在提醒一件事：KV cache 不是後端細節，它本身就是產品體驗的一部分。4-bit 方案只有在量化、kernel 執行和多輪服務都站得住腳時，才真的有價值。\u003C\u002Fp>\u003Cp>最實用的工程啟發是，壓縮格式和部署格式不是同一件事。TurboQuant 類的 codebook 可能在演算法上很漂亮，但如果它帶來昂貴的 lookup 或 dequantization，服務系統最後還是會把省下來的東西吐回去。UltraQuant 的策略是讓表示法直接對齊硬體路徑，而不是把兩件事分開看。\u003C\u002Fp>\u003Cp>另一個重點是，最好的指標要看工作負載。這篇沒有想做「一個 benchmark 打天下」的宣告，它盯的是長上下文、並發、多輪的 agent session。這正是 cache 常駐率和 latency 會互相拉扯的場景。如果你的工作負載多半是短 prompt，結果可能完全不同。\u003C\u002Fp>\u003Ch2>限制也很明確\u003C\u002Fh2>\u003Cp>根據目前提供的摘要內容，這篇沒有公開完整的 benchmark 細節。除了 agentic serving 的結果和 quantization MSE 例子之外，沒有看到更廣泛的任務表現數字，所以不適合直接把這些提升外推到所有模型或所有工作負載。\u003C\u002Fp>\u003Cp>另外，這套方法也明顯綁在 AMD Instinct GPU 和 CDNA4 的原生支援上。UltraQuant 的 FP4 路徑依賴 scaled-MFMA 這類硬體能力，所以它的實作經驗不一定能平移到其他 accelerator。\u003C\u002Fp>\u003Cp>結果本身也透露出一個 tradeoff：warm rounds 沒有 late rounds 那麼亮眼。這表示它的價值主要來自減少 eviction、把更多 context 留在 device，而不是一種全面性的 per-token 加速。\u003C\u002Fp>\u003Cp>對開發者來說，真正要問的是：你的 serving stack 現在是不是已經卡在 resident KV capacity。如果是，UltraQuant 提供了一條路，讓 4-bit caching 不只是省記憶體，也可能變成實際的延遲優化。如果不是，這篇看到的 headline 數字，體感可能不會那麼大。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>UltraQuant 是一篇很明顯的 serving-first 研究。它不是只談量化精度，而是把量化、cache 版型和 AMD GPU kernel 支援一起考慮，目標是讓壓縮後的 KV state 真的能在多輪代理服務裡派上用場。\u003C\u002Fp>\u003Cp>這篇論文的核心訊息很直接：對長上下文 agent 來說，4-bit KV cache 可以同時改善記憶體常駐和端到端服務速度，但前提是 representation 和 hardware path 必須一起設計。\u003C\u002Fp>\u003Cul>\u003Cli>4-bit KV caching 的價值，重點在能不能留住上下文。\u003C\u002Fli>\u003Cli>UltraQuant 的優勢主要出現在後段、cache 壓力大的輪次。\u003C\u002Fli>\u003Cli>這篇的貢獻是把量化格式和硬體執行路徑對齊。\u003C\u002Fli>\u003C\u002Ful>","UltraQuant 證明 4-bit KV 快取能讓長篇多輪代理在更少記憶體下維持更多上下文，並在後段輪次明顯加速服務。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fhtml\u002F2606.20474v1",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782331375909-uhyy.png","research","zh","9fd702bc-6c80-4d27-8f85-5971f898bef3",[17,18,19,20,21],"KV cache","4-bit quantization","agentic serving","FP4","AMD CDNA4",[23,24,25],"UltraQuant 證明 4-bit KV cache 可以在多輪長上下文代理中提升 resident context。","它的加速主要出現在後段輪次，晚期 P50 TTFT 提升 3.47×。","這篇的重點不是單純壓縮，而是把量化格式和硬體執行路徑一起設計。",0,"2026-06-24T20:02:32.549463+00:00","2026-06-24T20:02:32.542+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":34,"relatedPosts":38},[32],{"name":17,"slug":33},"kv-cache",{"id":15,"slug":35,"title":36,"language":37},"ultraquant-4bit-kv-caching-agents-en","UltraQuant: 4-bit KV caching for long agents","en",[39,45,51,57,63,69],{"id":40,"slug":41,"title":42,"cover_image":43,"image_url":43,"created_at":44,"category":13},"4a0bbfe8-be40-4add-95c8-7ed1d38a641f","opsd-user-feedback-training-loop-zh","OPSD 讓你把點擊變訓練","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782335103935-0efp.png","2026-06-24T21:04:40.411616+00:00",{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"261f4fc9-e9c8-413c-b222-a31008ec2bcf","flux3d-3d-gaussian-generation-diffusion-zh","FLUX3D 讓 3DGS 保住細節","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782284582760-3ja7.png","2026-06-24T07:02:37.306254+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"b3ade74e-f68c-4e65-8dc6-afa9c98ebb75","stochastic-subgradient-last-iterate-bounds-zh","隨機次梯度最後一輪界更緊了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782283671565-zxc9.png","2026-06-24T06:47:29.111822+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"5f0498a5-626f-4217-8c67-3b3404c7c172","insight-vla-self-guided-skill-acquisition-zh","InSight 讓 VLA 自學新技能","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782282781514-vo4g.png","2026-06-24T06:32:30.787554+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"29ea0e09-dbd2-406d-9d74-fd851c59a4f7","anthropic-right-alarm-recursive-self-improvement-zh","Anthropic 警告遞迴自我改進是對的，但真正的問題是 AI 控制已經失速","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782263867507-ive3.png","2026-06-24T01:17:20.490657+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"e6906894-cfe6-48a2-84a2-cd34e6a95186","openai-bug-hunt-chrome-safari-firefox-zh","OpenAI 一週挖出三大瀏覽器漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782258476786-r07m.png","2026-06-23T23:47:30.624426+00:00",[76,81,86,91,96,101,106,111,116,121],{"id":77,"slug":78,"title":79,"created_at":80},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":82,"slug":83,"title":84,"created_at":85},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":87,"slug":88,"title":89,"created_at":90},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":92,"slug":93,"title":94,"created_at":95},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]