標籤
TensorRT-LLM
TensorRT-LLM 是 NVIDIA 針對大型語言模型推論的最佳化框架,重點在降低延遲、提升吞吐量與硬體利用率。它常與 MLPerf、Blackwell/GB300、Dynamo 等軟體堆疊一起出現,反映 LLM 伺服器效能不只看晶片,也看編譯與排程。
3 篇文章

工具應用/6月7日
NVIDIA AI Models 把選模變成流程
我把 NVIDIA AI Models 頁面拆成一套可直接照做的選模、優化、部署流程,最後附可複製模板。

技術研究/4月3日
Nvidia MLPerf 成績證明軟體還很重要
Nvidia 在 MLPerf v6.0 交出最高 2.77x 推論提升。GB300 NVL72 的成績顯示,Dynamo、TensorRT-LLM 這類軟體優化,已經和 GPU 硬體同樣重要。

產業動態/4月2日
NVIDIA 再刷 MLPerf 推論紀錄
NVIDIA 在 MLPerf Inference v6.0 再交出新成績,GB300 NVL72 對 DeepSeek-R1 伺服器推論提升 2.7x,Llama 3.1 405B 也提升 1.5x。