[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-nvidia-ai-models-playbook-zh":3,"article-related-nvidia-ai-models-playbook-zh":30,"series-tools-fd6e6e2e-4036-4fc0-8521-0d8237178f85":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"fd6e6e2e-4036-4fc0-8521-0d8237178f85","nvidia-ai-models-playbook-zh","NVIDIA AI Models 把選模變成流程","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fnvidia\">NVIDIA\u003C\u002Fa> 的 AI Models 頁面把選模型這件事，整理成一套能直接拿去部署的流程。\u003C\u002Fp>\u003Cp>我用這種 model directory 很久了，老實說大部分都很煩。看起來像在幫你，但真的要上線時，你只是在十幾個分頁之間來回跳：一半是行銷，一半是文件，沒有一個先回答我最在意的三件事：該跑哪個模型、該在哪裡跑、跑太慢或太貴時要怎麼辦。\u003C\u002Fp>\u003Cp>NVIDIA 的 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fai-models\">AI Models\u003C\u002Fa> 頁面比多數同類頁面好一點，但我還是得用開發者腦袋讀，不是用看型錄的心情讀。它其實比較像一張路由表，從模型家族一路指到部署路徑：\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fai-models#deepseek\">DeepSeek\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fai-models#gemma\">Gemma\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fai-models#gpt-oss\">gpt-oss\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fai-models#kimi\">Kimi\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fai-models#llama\">Llama\u003C\u002Fa>，以及其他家族。等我不再把它當目錄，而是當 decision tree，整頁就順了。\u003C\u002Fp>\u003Cp>我先講結論：這頁不是在說「這裡有一些模型，祝你好運」。它是在說「先選模型家族，再選你的路：用 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fnim\">NIM\u003C\u002Fa> 快速原型、用 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa> 做優化、用 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNeMo\">NeMo\u003C\u002Fa> 做客製、或用 \u003Ca href=\"https:\u002F\u002Follama.com\u002F\">Ollama\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\">vLLM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002F\">Hugging Face\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fggml-org\u002Fllama.cpp\">llama.cpp\u003C\u002Fa> 本地跑。」這才是有用的部分，其他多半是品牌包裝。\u003C\u002Fp>\u003Cp>這篇我會把這頁拆成我在真實專案會怎麼用的工作流，最後再給你一段可以直接複製的模板。你不用再把一週時間燒在 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 嘉年華裡。\u003C\u002Fp>\u003Ch2>先別把它當 catalog，看成路由表\u003C\u002Fh2>\u003Cblockquote>\"Explore and deploy top AI models built by the community, accelerated by NVIDIA’s AI inference platform, and run on NVIDIA-accelerated infrastructure.\"\u003C\u002Fblockquote>\u003Cp>白話一點就是：NVIDIA 想把這頁做成模型選擇的入口，但真正有價值的地方，是它把你導向部署路徑。頁面先按模型家族分類，接著立刻把你推去能把這些模型在 NVIDIA 硬體上跑起來的工具。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780771714449-s6kx.png\" alt=\"NVIDIA AI Models 把選模變成流程\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>我之前在選模型時最常犯的錯，是拿模型名稱互相比。這完全反了。真正該比的是 operational path。因為一個 paper 上很漂亮的模型，如果你唯一能走的路是你不想維護的 stack，那它對你就是麻煩，不是答案。\u003C\u002Fp>\u003Cp>這頁每個家族的節奏都差不多：先看 sample，再接 runtime，再做 \u003Ca href=\"\u002Ftag\u002Finference\">inference\u003C\u002Fa> 優化，最後拿 production-ready 版本。這才是骨架。它比較像「選路線」，不是「逛模型」。\u003C\u002Fp>\u003Cp>我會這樣做：\u003C\u002Fp>\u003Cul>\u003Cli>先看部署限制：edge、workstation、單卡、還是 cluster。\u003C\u002Fli>\u003Cli>再看頁面建議的 runtime 路徑：\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fnim\">NIM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\">vLLM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Follama.com\u002F\">Ollama\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002F\">Hugging Face\u003C\u002Fa>。\u003C\u002Fli>\u003Cli>最後才比模型大小、架構和 benchmark 數字。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這頁一直重複這個模式，不是因為它沒內容，而是因為它在壓縮常見摩擦：模型發現、整合、優化、部署。這才是流程。其他都是小標題。\u003C\u002Fp>\u003Ch2>DeepSeek 是性能優先的示範案例\u003C\u002Fh2>\u003Cblockquote>\"DeepSeek is a family of open-source models that features several powerful models using a mixture-of-experts (MoE) architecture and provides advanced reasoning capabilities.\"\u003C\u002Fblockquote>\u003Cp>翻譯一下就是：DeepSeek 是這頁拿來示範「架構和能力一樣重要」的模型家族。MoE 會直接改變你看待性能的方式，因為你不只在問「它聰不聰明」，你還要問「我能不能用合理成本把它跑到夠快」。\u003C\u002Fp>\u003Cp>這一段 NVIDIA 很明顯在推 optimization。它把 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa> 放在 data center 部署路徑、把 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fnim\">NIM\u003C\u002Fa> 放在快速試跑和 production 包裝、把 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNeMo\">NeMo\u003C\u002Fa> 放在客製化。這三個一起出現，意思很明確：它預期你從實驗一路走到上線，不要每一步都換一套系統。\u003C\u002Fp>\u003Cp>我看過太多團隊卡在「模型品質」的討論，結果真正的 blocker 是 throughput。模型再強，如果成本結構 app 吃不下去，那就是不對的選擇。這也是為什麼頁面一直丟 performance notes。像 DeepSeek-R1 8K\u002F1K 那段，提到在 Blackwell GB200 NVL72 上相對 Hopper H200 有 15x performance benefit 和 revenue opportunity。我不把它當成對所有場景的保證，我把它當成訊號：NVIDIA 要你用硬體角度看模型，而不是只看名字。\u003C\u002Fp>\u003Cp>我會這樣做：\u003C\u002Fp>\u003Cul>\u003Cli>如果你做的是 reasoning-heavy app，先拿 DeepSeek 跑你的 latency 和 token budget。\u003C\u002Fli>\u003Cli>你在 NVIDIA GPU 上想把 inference 壓到更好，就先看 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa>。\u003C\u002Fli>\u003Cli>你想要的是包好的部署路徑，就看 \u003Ca href=\"https:\u002F\u002Fdocs.nvidia.com\u002Fnim\u002F\">NIM docs\u003C\u002Fa>。\u003C\u002Fli>\u003Cli>你要把模型改成吃你自己的資料，就看 \u003Ca href=\"https:\u002F\u002Fdocs.nvidia.com\u002Fnemo-framework\u002F\">NeMo docs\u003C\u002Fa>。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>實務上，DeepSeek 不是單純一個模型家族，它是 NVIDIA 想教你怎麼看 open models 在自家硬體上的模板：先選模型，再選加速路徑。\u003C\u002Fp>\u003Ch2>Gemma 是「到處都能跑」的那種實用派\u003C\u002Fh2>\u003Cblockquote>\"Gemma is Google DeepMind’s family of lightweight, open models.\"\u003C\u002Fblockquote>\u003Cp>白話就是：如果你需要的是比較小、但還能進正經部署流程的模型，Gemma 就是這頁給你的答案。頁面直接提到它支援 data center GPU、Windows RTX、Jetson devices。這不是裝飾，這是在告訴你它是拿來到處搬的。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780771713007-tnfe.png\" alt=\"NVIDIA AI Models 把選模變成流程\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>我喜歡這段，因為它最不浮誇，也最有用。不是每個專案都需要一個巨無霸 reasoning monster。有時候你只需要一個能先在 workstation 上跑、很快能試、之後又能搬進產品的模型。Gemma 比那種「看起來很大」的路線更適合這種工作。\u003C\u002Fp>\u003Cp>頁面還提到 Gemma 3n 原生支援多語與 multimodal，包含 text、image、video、audio。這很重要，因為它會直接改變你能做的 app 類型，不用為每種 modality 再拼一套系統。NVIDIA 接著把你導去 NIM 做 production-grade support、NeMo 做 customization、TensorRT-\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 做 optimization、Ollama 做快速本地實驗。\u003C\u002Fp>\u003Cp>我會這樣做：\u003C\u002Fp>\u003Cul>\u003Cli>如果你的主要限制是跨裝置可攜性，先選 Gemma。\u003C\u002Fli>\u003Cli>先用 \u003Ca href=\"https:\u002F\u002Follama.com\u002F\">Ollama\u003C\u002Fa> 跑一輪本地測試。\u003C\u002Fli>\u003Cli>如果你要在 NVIDIA GPU 上衝 throughput，就用 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa>。\u003C\u002Fli>\u003Cli>如果你要做正常的 fine-tune 或 adaptation，就走 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002F\">Hugging Face\u003C\u002Fa> 的工具鏈。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>頁面也把 sample application 和 Jetson demo 拉出來，這其實是在說：第一版 prototype 不要想太多，先在目標裝置類型上跑起來，看真正的痛點在哪。\u003C\u002Fp>\u003Ch2>gpt-oss 在提醒你：open-weight 也要有 runtime 計畫\u003C\u002Fh2>\u003Cblockquote>\"NVIDIA has optimized both new open-weight models for 10x inference performance on NVIDIA Blackwell architecture, delivering up to 1.5 million tokens per second (TPS) on an NVIDIA GB200 NVL72 system.\"\u003C\u002Fblockquote>\u003Cp>翻譯一下就是：NVIDIA 沒把 gpt-oss 當成單純又一個模型家族，它是在講硬體加 runtime 的整體故事。模型重要，但 runtime 和 kernel 工作一樣重要。你如果忽略這件事，就會錯過這頁真正想講的東西。\u003C\u002Fp>\u003Cp>我對這種直接丟 throughput 數字的頁面一向很警惕，因為上下文不夠時很容易變成 benchmark 口水戰。不過這裡我不需要把它當成比賽，也看得出模式。它在說同一個模型，跑在 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\">vLLM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\">SGLang\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Follama.com\u002F\">Ollama\u003C\u002Fa> 或其他支援路徑上，結果會差很多。這才是重點。\u003C\u002Fp>\u003Cp>這也很清楚地看出 NVIDIA 的生態策略。頁面提到 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgpt-oss\">OpenAI 的 gpt-oss\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\">vLLM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fggml-org\u002Fllama.cpp\">llama.cpp\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Follama.com\u002F\">Ollama\u003C\u002Fa>。這不是亂列，是在示範同一個模型家族可以從多個開發入口切進去。\u003C\u002Fp>\u003Cp>我會這樣做：\u003C\u002Fp>\u003Cul>\u003Cli>如果你要 open-weight 彈性又想快點上線，先看 gpt-oss。\u003C\u002Fli>\u003Cli>如果瓶頸是 NVIDIA GPU 上的 inference，先試 TensorRT-LLM。\u003C\u002Fli>\u003Cli>如果團隊本來就在 vLLM 或 SGLang，那就別硬換。\u003C\u002Fli>\u003Cli>如果你要 local-first 開發迴圈，就用 Ollama 或 llama.cpp。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我的判斷很直接：這段最清楚地說明，model choice 已經不能跟 serving choice 分開看。你如果沒一起想，其實你還沒真的在選模型，你只是在蒐集名字。\u003C\u002Fp>\u003Ch2>Kimi 告訴你，scale 變大後事情就沒那麼乾淨\u003C\u002Fh2>\u003Cblockquote>\"Kimi K2 is a state-of-the-art MoE language model with 32 billion activated parameters and 1 trillion total parameters.\"\u003C\u002Fblockquote>\u003Cp>白話就是：\u003Ca href=\"\u002Fnews\u002Fbest-kimi-models-2026-k2-5-vs-k2-thinking-zh\">Kimi\u003C\u002Fa> 是這頁拿來提醒你，headline 數字只是一半故事的地方。activated parameters 跟 total parameters 不是同一件事，NVIDIA 很明顯在期待你理解這件事，因為這種模型的 serving path 才是重點。\u003C\u002Fp>\u003Cp>頁面說 \u003Ca href=\"\u002Fnews\u002F5-reasons-to-use-kimi-k2-5-on-cloudflare-zh\">Kimi\u003C\u002Fa> K2 Thinking MoE 在 NVIDIA GB200 NVL72 上，相較 NVIDIA HGX H200 有 10x performance leap，還提到 Fireworks AI 在 NVIDIA B200 上部署 Kimi K2，跑到 leaderboard top performance。我不把這些當成對所有環境都成立的真理，我把它們看成訊號：這頁要你把 scale、routing、infrastructure 放在一起看。\u003C\u002Fp>\u003Cp>這是很多團隊容易搞混的地方。他們聽到 open model 就以為 operational burden 比較低。沒有這種事。大型 MoE 模型如果硬體和 serving topology 沒規劃好，很容易變成爛攤子。頁面一直把你拉回 optimized deployment path，就是因為真正常見的麻煩都在這裡。\u003C\u002Fp>\u003Cp>我會這樣做：\u003C\u002Fp>\u003Cul>\u003Cli>當你真的需要大型 open model，而且基礎設施撐得住，再考慮 Kimi。\u003C\u002Fli>\u003Cli>想要包好的部署方式，就先看 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fnim\">NIM\u003C\u002Fa>。\u003C\u002Fli>\u003Cli>想把手上的硬體榨乾，就看 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa>。\u003C\u002Fli>\u003Cli>先用頁面上的 sample 去驗證你的 workload 是 reasoning-heavy、chat-heavy，還是 agent-heavy，再決定要不要跳下去。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我會把 \u003Ca href=\"\u002Fnews\u002Fkimi-k25-agent-code-setup-zh\">Kimi\u003C\u002Fa> 當成「先看細節」的家族。DeepSeek 是 performance-first 的示範，Gemma 是 portable 的示範，Kimi 則是在提醒你：scale 一大，部署問題就會開始反咬人。\u003C\u002Fp>\u003Ch2>Llama 是熟悉的預設值，但 NVIDIA 仍然要你做優化\u003C\u002Fh2>\u003Cblockquote>\"Llama is Meta’s collection of open foundation models, most recently made multimodal with the 2025 release of Llama 4.\"\u003C\u002Fblockquote>\u003Cp>翻譯一下就是：Llama 是最多開發者本來就認得的家族，所以 NVIDIA 把它當成整頁最容易進入的入口。頁面不是只說「這裡有 Llama」，而是說 NVIDIA 跟 \u003Ca href=\"\u002Ftag\u002Fmeta\">Meta\u003C\u002Fa> 一起推進 TensorRT-LLM 的 inference、提供優化過的 NIM microservices，還能用 NeMo 做 customization。\u003C\u002Fp>\u003Cp>我猜大多數團隊會從這裡開始，因為 Llama 最不陌生。這沒問題，熟悉本身就是優勢。但頁面還是在重複同一件事：不要停在模型名。你要決定的是本地實驗、優化 serving，還是拿自己的資料去做客製。\u003C\u002Fp>\u003Cp>我自己也常踩這坑：以為預設模型會有預設的 operational path。通常不是。Llama 這段其實就是 NVIDIA 在說，「你可以用你熟的東西，但如果你在意性能，就請走我們優化過的 stack。」這話很現實，我也認同。\u003C\u002Fp>\u003Cp>我會這樣做：\u003C\u002Fp>\u003Cul>\u003Cli>如果團隊本來就熟 Llama，想最快做出能跑的 prototype，就先用它。\u003C\u002Fli>\u003Cli>如果你想要 production-ready microservice，不要自己從零接，直接看 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fnim\">NIM\u003C\u002Fa>。\u003C\u002Fli>\u003Cli>如果你在 NVIDIA GPU 上要更好的 throughput，就看 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa>。\u003C\u002Fli>\u003Cli>如果業務邏輯吃你的資料，就用 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNeMo\">NeMo\u003C\u002Fa>。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這頁把 Llama 拉長不是沒原因。它是那條橋，從「我知道這模型是什麼」走到「我現在得像個成年人一樣把它跑起來」。\u003C\u002Fp>\u003Ch2>真正的模式是 model、runtime、optimize、ship\u003C\u002Fh2>\u003Cblockquote>\"Get started with the right tools and frameworks for your development environment.\"\u003C\u002Fblockquote>\u003Cp>白話就是：NVIDIA 想把這頁做成工作流清單。每個家族都走同一條路：先探索模型、再接 runtime、再做 inference 優化、最後部署成 production-ready microservice。這個順序就是我會抄的地方。\u003C\u002Fp>\u003Cp>很多 model page 都做錯：不是直接丟一排 checkpoint 給你，就是把 deployment path 包在太多平台話術裡。NVIDIA 至少有把順序講出來，雖然裡面塞了很多 product 名稱。只要你看懂順序，這頁就會從吵鬧變成有用。\u003C\u002Fp>\u003Cp>如果是我接一個真實專案，我會這樣排：\u003C\u002Fp>\u003Cul>\u003Cli>先根據 use case 選一個模型家族，不要先看 hype。\u003C\u002Fli>\u003Cli>先用最快的路徑做 prototype，通常是 NIM 或 Ollama。\u003C\u002Fli>\u003Cli>在自己的硬體上量 latency、memory use、token throughput。\u003C\u002Fli>\u003Cli>需要優化時再上 TensorRT-LLM。\u003C\u002Fli>\u003Cli>真的需要改資料、改行為，再用 NeMo。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這個順序可以避免我把時間燒在錯的層。很多團隊是先 fine-tune，結果根本還沒證明 use case；或是先做優化，卻連基本需求都還沒跑通。這頁有價值，就是因為它在推你走對順序。\u003C\u002Fp>\u003Cp>而且 NVIDIA 這堆基礎設施名字你不用全背：Blackwell、Hopper、Jetson、RTX、DGX、NIM、NeMo、TensorRT-LLM。你只要知道每一層在解什麼問題，夠了。\u003C\u002Fp>\u003Ch2>可抄的模板\u003C\u002Fh2>\u003Cpre>\u003Ccode># 參考 NVIDIA AI Models 頁面的模型選擇模板\n\n## 1) 我要做什麼？\n- Use case:\n- 主要輸入：text \u002F image \u002F audio \u002F video \u002F multimodal\n- 主要限制：latency \u002F cost \u002F portability \u002F customization \u002F throughput\n- 目標部署：local \u002F edge \u002F workstation \u002F data center \u002F cloud\n\n## 2) 先選哪個模型家族？\n- DeepSeek：reasoning-heavy、重視效能的工作\n- Gemma：輕量、可攜、跨裝置流程\n- gpt-oss：open-weight、重視 serving\u002Fruntime\n- Kimi：大型 MoE、需要處理 scale 和 routing\n- Llama：熟悉的通用 foundation model 路線\n- Other:\n\n## 3) 第一條跑法是什麼？\n- 快速原型：NIM \u002F Ollama \u002F Hugging Face \u002F llama.cpp\n- Serving stack：TensorRT-LLM \u002F vLLM \u002F SGLang\n- 客製化：NeMo \u002F Transformers \u002F PyTorch\n- 硬體目標：Blackwell \u002F Hopper \u002F RTX \u002F Jetson\n\n## 4) 我先量什麼？\n- Tokens per second:\n- Time to first token:\n- Memory footprint:\n- Cost per request:\n- 自己 prompt 的品質表現:\n\n## 5) 如果它可行，下一步是什麼？\n- 保留模型，先優化 serving\n- 做 quantization\n- 改用 NIM 打包\n- 用 NeMo 做 fine-tune 或 adaptation\n- 換更小或更快的家族\n\n## 6) 決策規則\n如果模型夠好但太慢，先優化 runtime。\n如果模型太貴，先試更小的家族，不要急著 fine-tune。\n如果模型需要我的資料，先 benchmark，再做 customization。\n如果部署目標變了，就重新選家族，不要硬套舊方案。\n\n## 7) 給內部評估的可複製 prompt\n我需要為以下應用選一個 AI model：\n[describe app]\n\n限制：\n- Deployment target: [local\u002Fedge\u002Fcloud\u002Fdata center]\n- Latency budget: [number]\n- Cost budget: [number]\n- Input types: [text\u002Fimage\u002Faudio\u002Fvideo]\n- Need for customization: [low\u002Fmedium\u002Fhigh]\n\n請從以下家族中推薦一個：\n- DeepSeek\n- Gemma\n- gpt-oss\n- Kimi\n- Llama\n\n再推薦第一條 runtime 路徑：\n- NIM\n- TensorRT-LLM\n- Ollama\n- vLLM\n- llama.cpp\n- NeMo\n\n請用一段話說明原因，並列出我應該先跑的第一個 benchmark。\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>這個模板好用的地方，是它逼你把討論從 model fandom 拉回 shipping。這才是重點。如果你連部署路徑都講不清楚，那你其實還沒真的選模型。\u003C\u002Fp>\u003Cp>這篇是根據 NVIDIA 的 AI Models 頁面整理的：\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fai-models\">https:\u002F\u002Fdeveloper.nvidia.com\u002Fai-models\u003C\u002Fa>。我的拆解方式、敘事順序和模板是原創；模型家族摘要、部署路徑與頁面上的公開內容，則來自 NVIDIA 與其連結文件。其他延伸連結包含 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fnim\">NIM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM\">TensorRT-LLM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNeMo\">NeMo\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\">vLLM\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Follama.com\u002F\">Ollama\u003C\u002Fa>。","我把 NVIDIA AI Models 頁面拆成一套可直接照做的選模、優化、部署流程，最後附可複製模板。","developer.nvidia.com","https:\u002F\u002Fdeveloper.nvidia.com\u002Fai-models",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780771714449-s6kx.png","tools","zh","bece181a-96c8-494b-ac0b-fb254413e051",[17,18,19,20,21],"NVIDIA AI Models","TensorRT-LLM","NIM","NeMo","open models",[23,24,25],"先選部署路徑，再選模型家族，別反過來。","NVIDIA 這頁真正有用的是把 prototype、optimization、customization 串成流程。","最實用的決策準則是先量 latency、throughput、memory，再決定要不要 fine-tune。",0,"2026-06-06T18:48:02.508579+00:00","2026-06-06T18:48:02.486+00:00","05e97311-b970-4686-a46d-eb2994c51ded",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":19,"slug":33},"nim",{"name":21,"slug":35},"open-models",{"name":17,"slug":37},"nvidia-ai-models",{"name":20,"slug":39},"nemo",{"name":18,"slug":41},"tensorrt-llm",{"id":15,"slug":43,"title":44,"language":45},"nvidia-ai-models-playbook-en","NVIDIA AI Models turn model hunting into a playbook","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"34162763-ffe3-416d-a719-e450ba87ac3d","llm-leaderboard-2026-300-models-ranked-zh","2026 LLM 排行榜：309 模型怎麼選","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780776191145-786j.png","2026-06-06T20:02:36.847112+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"09c2902c-97a8-433c-94de-874a7f55d2ff","llama-benchy-api-benchmark-zh","llama-benchy 把 API 也納入基準測試","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780775303246-184z.png","2026-06-06T19:47:53.968325+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"2c75f00f-eb01-418f-a793-45c1522f226e","how-to-start-vibe-coding-with-ai-zh","怎麼開始 AI Vibe Coding","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780773471291-8bu6.png","2026-06-06T19:17:22.400458+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"c62bb593-ee76-46eb-bb3e-c160e78f7a5b","kimi-k25-agent-code-setup-zh","Kimi K2.5 讓代理編碼更穩","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780769047868-ajc6.png","2026-06-06T18:03:19.108312+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"50b75ca3-5060-48d1-966a-56cfaa19b410","why-small-businesses-should-use-ai-for-admin-zh","為什麼小型企業只該把 AI 用在行政，不該什麼都交給它","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780758168808-yjnz.png","2026-06-06T15:02:17.869478+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"cd6961a9-52ee-46f0-8e9b-2de544cd1906","crun-ai-gemini-omni-chat-video-editing-zh","Crun AI 把 Gemini Omni 變聊天剪片","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780733909044-zn45.png","2026-06-06T08:17:59.890613+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"3ce6e6e2-bac5-463e-9f8d-45caabcc61f7","awesome-ai-for-science-research-tools-map-zh","AI 科研工具清單，開始像地圖了","2026-03-27T01:46:50.521945+00:00"]