標籤
量化
量化在 AI 推論裡多半指把權重或 KV cache 轉成更低位元表示,以換取更少記憶體、更低延遲與更高吞吐。近期焦點集中在 TurboQuant 這類方法,及其對長上下文、伺服器成本與 benchmark 公平性的影響。
8 篇文章

產業動態/6月29日
TurboQuant 讓長上下文推理更省記憶體
5 項重點看懂 TurboQuant 如何在不重訓下壓縮 KV cache,將記憶體用量最多降 6×,並在長上下文推理中提升吞吐。

模型發布/6月2日
Llama 3.1 70B:規格與部署
Meta 的 Llama 3.1 70B 仍是 128K 長上下文的自架文字模型,適合內部聊天、RAG 與 API 編排,重點在成本控制與部署自主性。

產業動態/5月31日
5 個 TurboQuant 向量搜尋重點
5 個重點帶你看懂 TurboQuant 如何在向量搜尋中省記憶體、保品質,並判斷 4-bit、2-bit、標量與二值量化怎麼選。

技術研究/4月29日
TurboQuant、EDEN 與引用爭議
TurboQuant 主打 KV-cache 6x 壓縮,卻被指和 DRIVE、EDEN 同源,還有 scale 選擇與 benchmark 公平性爭議。

技術研究/4月3日
TurboQuant 省 6 倍記憶體,還不掉準確率
Google Research 發表 TurboQuant,主打記憶體用量降到 1/6、推論快 8 倍,且在報告測試中沒有準確率損失。這篇看它怎麼改 AI 伺服器成本。

技術研究/4月3日
TurboQuant 是什麼?Google 新論文重點
Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸,用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

技術研究/4月2日
TurboQuant 解不了記憶體荒
Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍,但更長上下文、更多 agent 與更高吞吐,可能把 DRAM 和 NAND 需求繼續往上推。

技術研究/3月31日
IF4:神經網路量化的聰明選擇
MIT研究團隊提出混合式資料格式,可在浮點與整數表示法間動態切換,改善4位元量化的精度。