標籤

LLM inference

LLM 推論聚焦模型在部署時的延遲、吞吐量與記憶體成本，尤其是 KV cache、量化與加速器友善的實作。這類技術直接影響大模型能否在雲端與邊緣裝置上穩定運行。

6 篇文章

OpenAI Jalapeño 指向更快的 LLM 推理

1 顆 Jalapeño、1 次 Broadcom 合作、1 個多代平台：OpenAI 正把 LLM 推理做成更快、更穩、也更可控的硬體路線。

Google Research 公布 TurboQuant，可把 KV cache 記憶體壓到至少 6x 以上，並在長上下文測試中維持接近全精度表現。

MARLIN 把雲端 LLM 推理視為多代理協調問題，用遊戲理論式強化學習來追求更永續的資料中心運作。

這篇論文用「預測輸出長度」來改善黑箱 LLM 推論排程，想在看不到模型內部的情況下，減少排隊摩擦、提升大規模服務效率。

SAGA 主張 GPU 排程不該把 AI agent 的每次 LLM 呼叫拆開看，而是要把一連串請求當成同一個工作流來排。

SpecKV 把推測解碼的 token 預算改成逐步自動調整，利用 draft 模型訊號在不同壓縮設定下挑出更合適的 gamma。