返回首頁

標籤

量化

量化在 AI 推論裡多半指把權重或 KV cache 轉成更低位元表示,以換取更少記憶體、更低延遲與更高吞吐。近期焦點集中在 TurboQuant 這類方法,及其對長上下文、伺服器成本與 benchmark 公平性的影響。

8 篇文章

TurboQuant 讓長上下文推理更省記憶體
產業動態/6月29日

TurboQuant 讓長上下文推理更省記憶體

5 項重點看懂 TurboQuant 如何在不重訓下壓縮 KV cache,將記憶體用量最多降 6×,並在長上下文推理中提升吞吐。

Llama 3.1 70B:規格與部署
模型發布/6月2日

Llama 3.1 70B:規格與部署

Meta 的 Llama 3.1 70B 仍是 128K 長上下文的自架文字模型,適合內部聊天、RAG 與 API 編排,重點在成本控制與部署自主性。

5 個 TurboQuant 向量搜尋重點
產業動態/5月31日

5 個 TurboQuant 向量搜尋重點

5 個重點帶你看懂 TurboQuant 如何在向量搜尋中省記憶體、保品質,並判斷 4-bit、2-bit、標量與二值量化怎麼選。

TurboQuant、EDEN 與引用爭議
技術研究/4月29日

TurboQuant、EDEN 與引用爭議

TurboQuant 主打 KV-cache 6x 壓縮,卻被指和 DRIVE、EDEN 同源,還有 scale 選擇與 benchmark 公平性爭議。

TurboQuant 省 6 倍記憶體,還不掉準確率
技術研究/4月3日

TurboQuant 省 6 倍記憶體,還不掉準確率

Google Research 發表 TurboQuant,主打記憶體用量降到 1/6、推論快 8 倍,且在報告測試中沒有準確率損失。這篇看它怎麼改 AI 伺服器成本。

TurboQuant 是什麼?Google 新論文重點
技術研究/4月3日

TurboQuant 是什麼?Google 新論文重點

Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸,用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

TurboQuant 解不了記憶體荒
技術研究/4月2日

TurboQuant 解不了記憶體荒

Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍,但更長上下文、更多 agent 與更高吞吐,可能把 DRAM 和 NAND 需求繼續往上推。

IF4:神經網路量化的聰明選擇
技術研究/3月31日

IF4:神經網路量化的聰明選擇

MIT研究團隊提出混合式資料格式,可在浮點與整數表示法間動態切換,改善4位元量化的精度。