[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-nvidia-sets-new-mlperf-inference-records-zh":3,"article-related-nvidia-sets-new-mlperf-inference-records-zh":30,"series-industry-d9fda242-d695-4ea4-a0e0-c6c64ad72965":89},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":11},"d9fda242-d695-4ea4-a0e0-c6c64ad72965","nvidia-sets-new-mlperf-inference-records-zh","NVIDIA 再刷 MLPerf 推論紀錄","\u003Cp>\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Fnvidia-extreme-co-design-delivers-new-mlperf-inference-records\u002F\" target=\"_blank\" rel=\"noopener\">NVIDIA\u003C\u002Fa> 這次又來刷榜了。\u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdata-center\u002Fgb300-nvl72\u002F\" target=\"_blank\" rel=\"noopener\">GB300 NVL72\u003C\u002Fa> 在 MLPerf Inference v6.0 的 DeepSeek-R1 伺服器測試，官方說比前一版快了 2.7 倍。Llama 3.1 405B 也提升 1.5 倍。講白了，這種數字不是拿來拍簡報，是拿來算每個 Token 成本的。\u003C\u002Fp>\u003Cp>這次更有意思的點，不是單一成績。\u003Ca href=\"https:\u002F\u002Fmlcommons.org\u002Fen\u002Finference-overview\u002F\" target=\"_blank\" rel=\"noopener\">MLPerf Inference\u003C\u002Fa> v6.0 把題目加難了。它加入多模態、影片生成、互動推理，還有新的推薦系統測試。NVIDIA 這回幾乎全包。像 \u003Ca href=\"https:\u002F\u002Fwww.deepseek.com\u002F\" target=\"_blank\" rel=\"noopener\">DeepSeek-R1\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fqwenlm.github.io\u002F\" target=\"_blank\" rel=\"noopener\">Qwen3-VL-235B-A22B\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-gpt-oss-120b\u002F\" target=\"_blank\" rel=\"noopener\">GPT-OSS-120B\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FWan-Video\u002FWan2.2\" target=\"_blank\" rel=\"noopener\">WAN-2.2-T2V-A14B\u003C\u002Fa> 都有參與。這代表它不是只會跑單一 LLM，而是整套推論堆疊都在拚。\u003C\u002Fp>\u003Cp>你可能會想問，這跟一般開發者有什麼關係。答案很直接。訓練模型很燒錢，但推論才是上線後的日常。吞吐量高一點，伺服器就能多接幾個人。延遲低一點，產品體感就差很多。每秒多吐幾千個 Token，帳單差距也會很真實。\u003C\u002Fp>\u003Ch2>MLPerf v6.0 到底改了什麼\u003C\u002Fh2>\u003Cp>MLPerf Inference 一直在改題目。這次不是小修小補，而是把很多真實場景拉進來。以前你可能只看文字分類、影像辨識。現在直接上多模態、影片、互動式 LLM，還有推薦系統。這些工作負載更接近生產環境，也更難作弊。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775122496881-vxz0.png\" alt=\"NVIDIA 再刷 MLPerf 推論紀錄\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對硬體廠來說，這種變化很煩。因為你不能只靠某個模型的特化優化混過去。你得同時處理 prefill、decode、batch\u003Ca href=\"\u002Fnews\u002Fchainalysis-agents-crypto-investigations-compliance-zh\">in\u003C\u002Fa>g、記憶體搬移，還要顧到網路。說白了，這是整個系統在比，不是單顆 GPU 在比。\u003C\u002Fp>\u003Cp>NVIDIA 這次說自己在新增項目上都拿到頂尖吞吐。這句話聽起來很像公關稿，但背後有工程味。因為新增工作負載越多，代表你的軟體堆疊越不能偏科。只會跑文字模型的時代，現在真的沒那麼好混了。\u003C\u002Fp>\u003Cul>\u003Cli>DeepSeek-R1 server：2,494,310 tokens\u002Fsec\u003C\u002Fli>\u003Cli>GPT-OSS-120B server：1,096,770 tokens\u002Fsec\u003C\u002Fli>\u003Cli>Qwen3-VL offline：79 samples\u002Fsec\u003C\u002Fli>\u003Cli>DLRMv3 offline：104,637 samples\u002Fsec\u003C\u002Fli>\u003Cli>GB300 NVL72 對 DeepSeek-R1 提升：2.77x\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這些數字看起來很硬，但其實很好懂。伺服器吞吐越高，雲端業者越能把同一批機器切給更多客戶。對企業內部 AI 服務來說，則是同樣的機房空間，能跑更多查詢。這就是推論優化最現實的價值。\u003C\u002Fp>\u003Ch2>為什麼軟體會決定成績\u003C\u002Fh2>\u003Cp>很多人看到這種新聞，第一反應是「又是新 GPU 很強」。但老實說，這只對一半。NVIDIA 自己也很清楚，真正拉開差距的，常常是軟體。像 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002Fdynamo\" target=\"_blank\" rel=\"noopener\">NVIDIA Dynamo\u003C\u002Fa>、TensorRT-LLM、以及各種模型專用最佳化，才是把硬體榨乾的關鍵。\u003C\u002Fp>\u003Cp>這次的優化手法很工程宅。像是 kernel fusion，可以減少啟動次數。attention 的資料排程調整，可以讓不同請求更平均地吃到算力。disaggregated serving 則把 prefill 和 decode 分開，讓兩段工作各自調參。這些名詞很硬，但效果很實際。\u003C\u002Fp>\u003Cp>對 MoE 模型來說，Wide Expert Parallel、Multi-Token Prediction、KV-aware routing 也很重要。因為這類模型不是單純堆參數就好。它們的瓶頸常常在路由、記憶體、以及小 batch 互動延遲。只要其中一段卡住，整體體感就會爛掉。\u003C\u002Fp>\u003Cblockquote>“If you can make one thing 10 percent better, that’s great. If you can make 10 things 1 percent better, that’s much more powerful.” — Jensen Huang, NVIDIA GTC 2024 keynote\u003C\u002Fblockquote>\u003Cp>這句話拿來看這次結果，很貼切。NVIDIA 不是靠單一招式吃天下，而是把很多小優化疊起來。每個地方多賺一點，最後就變成很可怕的總和。這種作法很像在做系統工程，不像在賣夢。\u003C\u002Fp>\u003Cp>我覺得這也提醒一件事。做 AI 產品的人，別只盯模型名字。真正影響成本的，還有 serving 架構、batch 策略、網路、KV cache 管理。模型本身很重要，但系統設計常常更誠實。\u003C\u002Fp>\u003Ch2>這次數字為什麼有參考價值\u003C\u002Fh2>\u003Cp>最有用的比較，是看同一套硬體前後差多少。NVIDIA 提到，GB300 NVL72 在 DeepSeek-R1 server 測試，從每 GPU 2,907 tokens\u002Fsec 拉到 8,064 tokens\u002Fsec。這不是小修小補，是非常明顯的提升。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775122506903-fv7d.png\" alt=\"NVIDIA 再刷 MLPerf 推論紀錄\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Llama 3.1 405B 也有進步。server 模式從 170 tokens\u002Fsec\u002Fgpu 變成 259。offl\u003Ca href=\"\u002Fnews\u002Fwhy-prompt-engineering-isnt-engineering-zh\">ine\u003C\u002Fa> 模式從 224 變成 271。這表示就算是比較老的 dense model，系統還是能挖出額外空間。這點對企業很重要，因為很多公司不會只跑最新模型。\u003C\u002Fp>\u003Cp>再看系統層級，NVIDIA 說四套 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdata-center\u002Fgb300-nvl72\u002F\" target=\"_blank\" rel=\"noopener\">GB300 NVL72\u003C\u002Fa> 搭配 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fnetworking\u002Fquantum-x800\u002F\" target=\"_blank\" rel=\"noopener\">Quantum-X800 InfiniBand\u003C\u002Fa>、共 288 顆 Blackwell Ultra GPU，拿下系統級吞吐紀錄。這種配置很像大型 AI 工廠的標配，不是一般實驗室玩具。\u003C\u002Fp>\u003Cul>\u003Cli>DeepSeek-R1 server：2,907 → 8,064 tokens\u002Fsec\u002Fgpu\u003C\u002Fli>\u003Cli>DeepSeek-R1 offline：5,842 → 9,821 tokens\u002Fsec\u002Fgpu\u003C\u002Fli>\u003Cli>Llama 3.1 405B server：170 → 259 tokens\u002Fsec\u002Fgpu\u003C\u002Fli>\u003Cli>Llama 3.1 405B offline：224 → 271 tokens\u002Fsec\u002Fgpu\u003C\u002Fli>\u003Cli>DeepSeek-R1 server 提升：2.77x\u003C\u002Fli>\u003Cli>Llama 3.1 405B server 提升：1.52x\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果把這些數字翻成商業語言，就是同樣一組機器，能服務更多請求，或把相同流量壓到更少機器上。對雲端業者來說，這直接影響毛利。對自建機房的團隊來說，則是少買幾台伺服器的差別。\u003C\u002Fp>\u003Cp>這也是為什麼 inference benchmark 不能只看峰值。你要看的是穩定輸出、互動延遲、以及系統整合後的結果。單點分數很漂亮，但如果上線後 cache 爆掉，照樣沒用。\u003C\u002Fp>\u003Ch2>競品和市場脈絡怎麼看\u003C\u002Fh2>\u003Cp>這波不是 NVIDIA 一家在玩。\u003Ca href=\"https:\u002F\u002Fwww.asus.com\u002F\" target=\"_blank\" rel=\"noopener\">ASUS\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.cisco.com\u002F\" target=\"_blank\" rel=\"noopener\">Cisco\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.coreweave.com\u002F\" target=\"_blank\" rel=\"noopener\">CoreWeave\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.dell.com\u002F\" target=\"_blank\" rel=\"noopener\">Dell Technologies\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.supermicro.com\u002F\" target=\"_blank\" rel=\"noopener\">Supermicro\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.lenovo.com\u002F\" target=\"_blank\" rel=\"noopener\">Lenovo\u003C\u002Fa> 都有在 NVIDIA 平台上提交結果。這代表整個生態系都在圍著推論效能轉。\u003C\u002Fp>\u003Cp>這也解釋了為什麼 NVIDIA 會一直推開源工具。像 TensorRT-LLM、Dynamo，還有 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\" target=\"_blank\" rel=\"noopener\">vLLM\u003C\u002Fa>，都不是單純的附加品。它們讓平台更像預設選項。對很多團隊來說，能少踩坑就是價值。\u003C\u002Fp>\u003Cp>如果拿競品來看，AMD、Intel、甚至雲端自研晶片，現在都在拚推論效率。但現實是，生態完整度很難追。硬體是一層，編譯器是一層，serving 框架又是一層。少一層，整體就會很卡。\u003C\u002Fp>\u003Cul>\u003Cli>NVIDIA：強在 GPU、網路、軟體整套\u003C\u002Fli>\u003Cli>AMD：硬體進步快，但軟體生態還在追\u003C\u002Fli>\u003Cli>Intel：偏向 CPU 與部分加速方案\u003C\u002Fli>\u003Cli>雲端自研晶片：成本漂亮，但可移植性較弱\u003C\u002Fli>\u003Cli>vLLM：對開放生態很重要，已成常見 serving 選項\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我自己的看法很直接。推論市場現在不是比誰會喊口號，而是比誰能把模型真的跑便宜、跑穩、跑快。MLPerf 的價值就在這裡。它至少逼大家面對同一套題目。\u003C\u002Fp>\u003Ch2>台灣團隊該看什麼\u003C\u002Fh2>\u003Cp>如果你是做 AI 產品、SaaS，或內部知識助理，這些數字不是遙遠新聞。它會直接影響你的雲端帳單。尤其是每天有大量互動請求的服務，Token 成本常常比你想像中更快爆。\u003C\u002Fp>\u003Cp>台灣很多團隊現在卡在兩個問題。第一是模型選得太大。第二是 serving 沒有認真調。其實不少場景不需要最強模型，只需要夠穩、夠快、夠便宜。這時候推論系統的優化，比換更大模型還實際。\u003C\u002Fp>\u003Cp>所以這篇新聞的重點，不只是 NVIDIA 又拿了幾個紀錄，而是它把推論當成長期戰場在打。對開發者來說，該學的不是怎麼背 benchmark，而是怎麼看懂 throughput、latency、batch、KV cache、以及網路瓶頸。\u003C\u002Fp>\u003Ch2>結尾：真正該追的不是榜單，是成本\u003C\u002Fh2>\u003Cp>我覺得接下來 12 個月，推論競爭會更像系統戰。模型會繼續長大，但能不能便宜跑、穩定跑，會更重要。你如果在選平台，別只看峰值數字。請直接問供應商：每百萬 Token 成本多少，互動延遲多少，滿載時掉多少。\u003C\u002Fp>\u003Cp>如果你是工程團隊，現在就可以做一件事。把你們最常見的 3 種請求拿出來測。看 prefill、decode、batch size、以及 cache 命中率。很多時候，優化 \u003Ca href=\"\u002Fnews\u002Fapril-2026-ai-model-releases-zh\">20\u003C\u002Fa>% 不是換硬體，而是把 serving 調對。這種事很土，但很有效。\u003C\u002Fp>","NVIDIA 在 MLPerf Inference v6.0 再交出新成績，GB300 NVL72 對 DeepSeek-R1 伺服器推論提升 2.7x，Llama 3.1 405B 也提升 1.5x。","developer.nvidia.com","https:\u002F\u002Fdeveloper.nvidia.com\u002Fblog\u002Fnvidia-extreme-co-design-delivers-new-mlperf-inference-records\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775122496881-vxz0.png","industry","zh","3e10b782-08fe-4a58-aabc-0f4ca77eaa50",[17,18,19,20,21,22,23,24,25,26],"NVIDIA","MLPerf","推論","GB300 NVL72","Blackwell Ultra","DeepSeek-R1","Llama 3.1 405B","AI伺服器","TensorRT-LLM","vLLM",6,"2026-04-02T08:48:38.43437+00:00","2026-04-02T08:48:38.317+00:00",{"tags":31,"relatedLang":48,"relatedPosts":52},[32,34,36,39,41,42,44,46],{"name":18,"slug":33},"mlperf",{"name":22,"slug":35},"deepseek-r1",{"name":37,"slug":38},"Nvidia","nvidia",{"name":21,"slug":40},"blackwell-ultra",{"name":19,"slug":19},{"name":26,"slug":43},"vllm",{"name":24,"slug":45},"ai伺服器",{"name":20,"slug":47},"gb300-nvl72",{"id":15,"slug":49,"title":50,"language":51},"nvidia-sets-new-mlperf-inference-records-en","NVIDIA Sets New MLPerf Inference Records","en",[53,59,65,71,77,83],{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"7e0f06f6-aa23-4151-8a9e-2f971236b411","mistral-ai-14b-valuation-open-weight-models-zh","Mistral AI 估值衝上 140 億美元","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780634885237-y84d.png","2026-06-05T04:47:38.563903+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"ee492aad-8271-4d2e-b18a-c48cce3f9c6e","why-model-version-lifecycles-are-contracts-zh","為什麼模型版本生命週期應被視為合約","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780632174313-gb4b.png","2026-06-05T04:02:21.922156+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"a02ee498-3f22-4f23-9f58-e10099bb3177","why-github-is-right-to-kill-classroom-zh","為什麼 GitHub 這次關掉 Classroom 是對的","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780631270786-fcm8.png","2026-06-05T03:47:21.471461+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"a32403f6-e343-4cce-b59c-ee19cc779ae2","5-github-copilot-plan-changes-for-users-zh","5 個 GitHub Copilot 方案變動","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780630372080-5jht.png","2026-06-05T03:32:19.700923+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"83884a05-5421-47ba-a062-15218ffc1658","steelers-2026-camp-schedule-turns-chaos-into-plan-zh","Steelers 2026 camp 排成可用計畫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780626814688-x8bc.png","2026-06-05T02:32:55.007695+00:00",{"id":84,"slug":85,"title":86,"cover_image":87,"image_url":87,"created_at":88,"category":13},"7cad3355-3d83-4dd2-8865-065b8c6b0629","49th-ces-trains-for-deployment-at-holloman-zh","49th CES 5\u002F28 訓練部署備戰","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780624977410-c8wn.png","2026-06-05T02:02:23.645698+00:00",[90,95,100,105,110,115,120,125,130,135],{"id":91,"slug":92,"title":93,"created_at":94},"ee073da7-28b3-4752-a319-5a501459fb87","ai-in-2026-what-actually-matters-now-zh","2026 AI 真正重要的事","2026-03-26T07:09:12.008134+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"83bd1795-8548-44c9-9a7e-de50a0923f71","trump-ai-framework-power-speech-state-preemption-zh","川普 AI 框架瞄準電力、言論與州權","2026-03-26T07:12:18.695466+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","2026-03-26T07:14:26.62638+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"4bcec76f-4c36-4daa-909f-54cd702f7c93","claude-users-spreading-out-and-getting-better-zh","Claude 用戶更分散，也更會用","2026-03-26T07:22:52.325888+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"bd903b15-2473-4178-9789-b7557816e535","openclaw-raises-hard-question-for-ai-models-zh","OpenClaw 逼問 AI 模型價值","2026-03-26T07:24:54.707486+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"eeac6b9e-ad9d-4831-8eec-8bba3f9bca6a","gap-google-gemini-checkout-fashion-search-zh","Gap 把結帳搬進 Gemini","2026-03-26T07:28:23.937768+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"0740e53f-605d-4d57-8601-c10beb126f3c","google-pushes-gemini-transition-to-march-2026-zh","Google 把 Gemini 轉換延到 2026 年 3…","2026-03-26T07:30:12.825269+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"e660d801-2421-4529-8fa9-86b82b066990","metas-llama-4-benchmark-scandal-gets-worse-zh","Meta Llama 4 分數風波又擴大","2026-03-26T07:34:21.156421+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"183f9e7c-e143-40bb-a6d5-67ba84a3a8bc","accenture-mistral-ai-sovereign-enterprise-deal-zh","Accenture 攜手 Mistral AI 賣主權 AI","2026-03-26T07:38:14.818906+00:00",{"id":136,"slug":137,"title":138,"created_at":139},"191d9b1b-768a-478c-978c-dd7431a38149","mistral-ai-faces-its-hardest-year-yet-zh","Mistral AI 迎來最硬的一年","2026-03-26T07:40:23.716374+00:00"]