標籤
LLM inference
LLM 推論聚焦模型在部署時的延遲、吞吐量與記憶體成本,尤其是 KV cache、量化與加速器友善的實作。這類技術直接影響大模型能否在雲端與邊緣裝置上穩定運行。
6 篇文章

產業動態/6月28日
OpenAI Jalapeño 指向更快的 LLM 推理
1 顆 Jalapeño、1 次 Broadcom 合作、1 個多代平台:OpenAI 正把 LLM 推理做成更快、更穩、也更可控的硬體路線。

技術研究/6月8日
TurboQuant 在 Google 測試中省下 6x KV 快取
Google Research 公布 TurboQuant,可把 KV cache 記憶體壓到至少 6x 以上,並在長上下文測試中維持接近全精度表現。

技術研究/5月18日
MARLIN 用多代理 RL 省雲端推理資源
MARLIN 把雲端 LLM 推理視為多代理協調問題,用遊戲理論式強化學習來追求更永續的資料中心運作。

技術研究/5月14日
黑箱 LLM 排程更聰明了
這篇論文用「預測輸出長度」來改善黑箱 LLM 推論排程,想在看不到模型內部的情況下,減少排隊摩擦、提升大規模服務效率。

技術研究/5月12日
SAGA 讓 AI Agent 排程看懂工作流
SAGA 主張 GPU 排程不該把 AI agent 的每次 LLM 呼叫拆開看,而是要把一連串請求當成同一個工作流來排。

技術研究/5月5日
SpecKV 讓推測解碼自動調 gamma
SpecKV 把推測解碼的 token 預算改成逐步自動調整,利用 draft 模型訊號在不同壓縮設定下挑出更合適的 gamma。