標籤

TensorRT-LLM

TensorRT-LLM 是 NVIDIA 針對大型語言模型推論的最佳化框架，重點在降低延遲、提升吞吐量與硬體利用率。它常與 MLPerf、Blackwell/GB300、Dynamo 等軟體堆疊一起出現，反映 LLM 伺服器效能不只看晶片，也看編譯與排程。

3 篇文章

NVIDIA AI Models 把選模變成流程

工具應用/6月7日

NVIDIA AI Models 把選模變成流程

我把 NVIDIA AI Models 頁面拆成一套可直接照做的選模、優化、部署流程，最後附可複製模板。

Nvidia MLPerf 成績證明軟體還很重要

技術研究/4月3日

Nvidia MLPerf 成績證明軟體還很重要

Nvidia 在 MLPerf v6.0 交出最高 2.77x 推論提升。GB300 NVL72 的成績顯示，Dynamo、TensorRT-LLM 這類軟體優化，已經和 GPU 硬體同樣重要。

NVIDIA 再刷 MLPerf 推論紀錄

產業動態/4月2日

NVIDIA 再刷 MLPerf 推論紀錄

NVIDIA 在 MLPerf Inference v6.0 再交出新成績，GB300 NVL72 對 DeepSeek-R1 伺服器推論提升 2.7x，Llama 3.1 405B 也提升 1.5x。