標籤

vLLM

vLLM 是面向大型語言模型的高吞吐推理引擎，重點在 PagedAttention、KV cache 管理與連續批次處理，讓 GPU 更有效率地服務聊天、RAG、批次生成與多模型部署。

16 篇文章

工具應用/6月28日

2026 開發者必備 7 個開源 AI 專案

七個開源 AI 專案正在取代付費 API，涵蓋本地推理、聊天介面、瀏覽器代理、模型服務、微調、協作代理與程式輔助。

工具應用/6月25日

vLLM、SGLang、vMLX：本地 LLM 新選擇

本地 LLM 工具鏈開始分流。vLLM、SGLang、vMLX、MLC-LLM 與 ExLlamaV3，正把重點從「能跑」推向「怎麼跑得更快、更穩、更貼近硬體」。

產業動態/6月22日

llama.cpp vs vLLM：本機模型引擎怎麼選

這篇比較 llama.cpp 和 vLLM，幫你判斷是要用 CPU 友善、適合單人本機推理的方案，還是適合多使用者、高併發服務的 GPU 推理引擎。

工具應用/6月20日

用 vLLM 部署 MiniMax M3 並開啟 OpenAI API

這篇教你用 vLLM 在本機或伺服器部署 MiniMax M3，並開出相容 OpenAI 的 API 端點。

產業動態/6月20日

Red Hat AI 把電信 AI 變成堆疊

拆解 Mavenir 與 Red Hat 怎麼把 telco AI 包成可部署、可營運、可計費的堆疊，重點放在 Kubernetes、MLOps、vLLM 與 AgentOps。

模型發布/6月18日

MiniMax M3 自架 GPU 雲部署分析

MiniMax M3 有 229.9B MoE 權重、1M context 和多模態輸出，但要自架就得準備很大的 GPU 記憶體與成本。

工具應用/6月17日

開源 AI 軟體贏在基礎設施，不贏在話題

開源 AI 軟體真正的勝利，不是模型發表時的聲量，而是它已經成為訓練、推理、部署與工作流的核心基礎設施。

產業動態/6月13日

TurboQuant 在 AMD GPU 上把長上下文延遲壓下來

3.6x 加速、TTFT 13.9 秒降到 0.89 秒：這篇整理 TurboQuant 在 AMD GPU 上最值得採用的 5 個實作選擇。

工具應用/5月20日

TurboQuant 把 vLLM KV 快取壓成 3 位元

我拆 TurboQuant 怎麼把 vLLM 的 KV cache 壓到 3-bit，順手整理成可直接套用的部署判斷與模板。

技術研究/5月15日

TurboQuant 與 FP8 實測結果

vLLM 首次大規模比較 TurboQuant 與 FP8 KV-cache。結果很直白：FP8 在速度上更穩，TurboQuant 的高壓縮版本則常掉準確率。

工具應用/5月9日

Gemma 4 助手模型加速草稿 Token

Gemma 4 的 E2B 與 E4B 助手模型用 centroid masking，把草稿 token 的 lm_head 計算量砍到約 45 倍，且品質損失很小。

工具應用/4月12日

開源 AI 專案清單怎麼挑

這份 GitHub 清單收錄可直接上線的開源 AI 專案，從 PyTorch 到 vLLM 都有，2,486 顆星，適合想找模型、推理、RAG 和代理工具的工程師。

工具應用/4月3日

Unsloth 讓 Qwen3.5 可分層微調

Unsloth 新增 Qwen3.5 視覺模型分層微調，能只訓練 vision、language、attention 或 MLP。VRAM 更省，訓練也更快，對多模態團隊很實用。

技術研究/4月3日

TurboQuant 是什麼？Google 新論文重點

Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸，用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

工具應用/4月3日

TurboQuant、冷啟動與 GPU Rust

TurboQuant 把 KV cache 壓到 4.6 倍，GPU state restore 盯上 32B 模型冷啟動，Rust 也更深入 CUDA 開發。

產業動態/4月2日

NVIDIA 再刷 MLPerf 推論紀錄

NVIDIA 在 MLPerf Inference v6.0 再交出新成績，GB300 NVL72 對 DeepSeek-R1 伺服器推論提升 2.7x，Llama 3.1 405B 也提升 1.5x。