標籤

KV cache

KV cache 是大型語言模型推論時最吃記憶體的部分之一，長上下文、低延遲服務與雲端部署都會直接受它影響。這個主題涵蓋量化、壓縮、HBM 容量與頻寬取捨，以及像 TurboQuant 這類降低 KV cache 成本的方法。

25 篇文章

TurboQuant 讓長上下文推理更省記憶體

產業動態/6月29日

TurboQuant 讓長上下文推理更省記憶體

5 項重點看懂 TurboQuant 如何在不重訓下壓縮 KV cache，將記憶體用量最多降 6×，並在長上下文推理中提升吞吐。

UltraQuant：4-bit KV 快取加速長代理

技術研究/6月25日

UltraQuant：4-bit KV 快取加速長代理

UltraQuant 證明 4-bit KV 快取能讓長篇多輪代理在更少記憶體下維持更多上下文，並在後段輪次明顯加速服務。

可變寬度 Transformer 省算力

技術研究/6月17日

可變寬度 Transformer 省算力

這篇論文證明，Transformer 不必每一層都同寬；把前後層加寬、中央層縮窄，可以在維持表現下減少計算與記憶體。

TurboQuant 在 AMD GPU 上把長上下文延遲壓下來

產業動態/6月13日

TurboQuant 在 AMD GPU 上把長上下文延遲壓下來

3.6x 加速、TTFT 13.9 秒降到 0.89 秒：這篇整理 TurboQuant 在 AMD GPU 上最值得採用的 5 個實作選擇。

TurboQuant 讓長上下文 AI 更省錢的 5 個關鍵

產業動態/6月12日

TurboQuant 讓長上下文 AI 更省錢的 5 個關鍵

TurboQuant 把 KV cache 約縮小 100 倍，5 個重點看懂它如何壓低長上下文成本、減少 GPU 需求與影響部署。

Reroute 讓視覺 token 可回流

技術研究/6月11日

Reroute 讓視覺 token 可回流

Reroute 把視覺 token 從「刪掉就沒了」改成「先延後、後面還能回來」，讓 VLM 在降 token 時更保留後段推理需要的圖像細節。

TurboQuant 在 Google 測試中省下 6x KV 快取

技術研究/6月8日

TurboQuant 在 Google 測試中省下 6x KV 快取

Google Research 公布 TurboQuant，可把 KV cache 記憶體壓到至少 6x 以上，並在長上下文測試中維持接近全精度表現。

Tether TurboQuant 讓 AI 記憶體降 5 倍

區塊鏈/6月4日

Tether TurboQuant 讓 AI 記憶體降 5 倍

Tether 把 TurboQuant 納入 QVAC SDK 0.12.0，主打把本地 AI 的 KV cache 記憶體需求最高壓到 5 倍以下，讓長上下文推理更適合筆電與邊緣裝置。

為什麼 Tether 把本地 AI 記憶推進日常裝置是對的

工具應用/6月4日

為什麼 Tether 把本地 AI 記憶推進日常裝置是對的

TurboQuant 的價值不在於更快，而在於把長上下文 AI 從資料中心拉回手機、筆電與邊緣裝置，讓本地 AI 真正可用。

VideoMLA 壓縮影片 KV 快取 92.7%

技術研究/5月29日

VideoMLA 壓縮影片 KV 快取 92.7%

VideoMLA 用共享低秩潛變量重做影片擴散的 KV 快取，把每 token 記憶體降 92.7%，也把長時間 rollout 的系統壓力往下壓。

為什麼 TurboQuant 比模型大小更重要

技術研究/5月27日

為什麼 TurboQuant 比模型大小更重要

TurboQuant 之所以重要，不是因為模型更大，而是因為它直接壓低了決定本地 AI 表現的 KV cache 記憶體瓶頸。

為什麼 llama.cpp 應把 TurboQuant 當成新預設路徑

工具應用/5月23日

為什麼 llama.cpp 應把 TurboQuant 當成新預設路徑

TurboQuant 應成為 llama.cpp 的新預設思路，因為非對稱 KV 壓縮能大幅省記憶體，且不破壞既有相容性。

TurboQuant 把 vLLM KV 快取壓成 3 位元

工具應用/5月20日

TurboQuant 把 vLLM KV 快取壓成 3 位元

我拆 TurboQuant 怎麼把 vLLM 的 KV cache 壓到 3-bit，順手整理成可直接套用的部署判斷與模板。

為什麼 KV-cache 壓縮會決定邊緣 AI 推論

工具應用/5月20日

為什麼 KV-cache 壓縮會決定邊緣 AI 推論

我認為邊緣 AI 推論的勝負，不會先由算力決定，而是由 KV-cache 壓縮這個記憶體瓶頸決定。

5 個 llama.cpp 的 KV cache 重點

產業動態/5月20日

5 個 llama.cpp 的 KV cache 重點

5 個重點帶你看懂 llama.cpp 的 KV cache 壓縮、記憶體節省與效能取捨，判斷該追新方法還是先用現有格式。

為什麼 TurboQuant 重新定義 KV cache 辯論

技術研究/5月6日

為什麼 TurboQuant 重新定義 KV cache 辯論

TurboQuant 不是單純把 KV cache 壓小，而是把壓縮從工程技巧提升成可證明的效率方案。

TurboQuant：線上向量量化更接近最優

技術研究/4月29日

TurboQuant：線上向量量化更接近最優

TurboQuant 提出可線上運作、適合加速器的向量量化方法，主打 MSE 與 inner-product 失真都能逼近近似最優，並鎖定 KV cache 與向量搜尋場景。

TurboQuant、EDEN 與引用爭議

技術研究/4月29日

TurboQuant、EDEN 與引用爭議

TurboQuant 主打 KV-cache 6x 壓縮，卻被指和 DRIVE、EDEN 同源，還有 scale 選擇與 benchmark 公平性爭議。

NVIDIA B300 對 H200：DeepSeek 實…

產業動態/4月3日

NVIDIA B300 對 H200：DeepSeek 實…

B300 有 288GB HBM3e 和 8TB/s 頻寬。這篇直接比 H200，拆解 DeepSeek 推論、KV cache、雲端成本與部署取捨。

TurboQuant 是什麼？Google 新論文重點

技術研究/4月3日

TurboQuant 是什麼？Google 新論文重點

Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸，用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

TurboQuant、冷啟動與 GPU Rust

工具應用/4月3日

TurboQuant、冷啟動與 GPU Rust

TurboQuant 把 KV cache 壓到 4.6 倍，GPU state restore 盯上 32B 模型冷啟動，Rust 也更深入 CUDA 開發。

TurboQuant 解不了記憶體荒

技術研究/4月2日

TurboQuant 解不了記憶體荒

Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍，但更長上下文、更多 agent 與更高吞吐，可能把 DRAM 和 NAND 需求繼續往上推。

Sebastian Raschka 的 LLM 架構圖鑑

技術研究/4月2日

Sebastian Raschka 的 LLM 架構圖鑑

Raschka 的 LLM Architecture Gallery 把 GPT-2、Llama 3、OLMo 2、DeepSeek、Qwen 等模型的層數、注意力與 KV cache 數字攤開來比，工程師一眼就能看出部署差異。

Universal YOCO 想把深度做大但不爆 cache

技術研究/4月2日

Universal YOCO 想把深度做大但不爆 cache

YOCO-U 把 recursive computation 和 efficient attention 結合，想在推理時拉高有效深度，同時壓住 KV cache 成長與額外開銷。

2026 年 3 月 AI 模型新聞重點

模型發布/3月26日

2026 年 3 月 AI 模型新聞重點

2026 年 3 月的 AI 圈看起來很安靜，其實重點早就不在新模型。真正有料的是推論速度、KV cache 壓縮、Agent 權限控制，還有 OpenAI 內部重組。對開發者來說，這些變化比排行榜多 1 分更實際。