Blackwell 6.0 讓訓練速度、規模、穩定性一起升級
5 項 Blackwell MLPerf 6.0 成績,幫你判斷它適不適合追求更快訓練、更大規模與更高可靠性的團隊。

Blackwell 在 MLPerf Training 6.0 拿下七項最快成績,適合想同時提升訓練速度、規模與可靠性的 AI 團隊。
看完這 5 項,你可以直接判斷 Blackwell 值不值得拿來做前沿模型訓練,尤其是當你在意的不只是單次跑分,而是能不能把更大的模型更快、也更穩地訓完。
| 項目 | 規模 | 報告結果 |
|---|---|---|
| NVIDIA Blackwell | MLPerf Training 6.0 | 七項 benchmark 都是最快 time to train |
| GB300 NVL72 | Rack-scale | 比 GB200 NVL72 最多快 1.6x |
| DeepSeek-V3 671B | 8,192 GPUs | 最大規模下仍是最快訓練 |
| Azure 上的 Llama 3.1 405B | 8,192 GPUs | 7.07 分鐘達到 reference quality |
| CoreWeave 上的 DeepSeek-V3 671B | 8,192 GPUs | 2.02 分鐘達到 reference quality |
1. 七項 benchmark 都是最快
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
這次最關鍵的訊號,不是單一模型成績,而是 MLPerf Training 6.0 的整體表現。NVIDIA 是唯一跨七個 benchmark 都有提交的陣營,而且每一項都拿到最快 time to train。對訓練基礎設施來說,這代表它不是只對某一類模型特別有利,而是把「更快完成訓練」當成通用目標。

這種結果對採購和架構選型很直接。你如果在看 dense LLM、MoE,或是 fine-tuning 工作流,這份成績單給的是同一個答案:Blackwell 不只是在某個 demo 上快,而是能在多種訓練型態裡維持領先。
- 7/7 benchmark 都是最快
- 同時涵蓋 GB200 NVL72 與 GB300 NVL72
- 包含新的 MoE 工作負載,如 DeepSeek-V3 671B、GPT-OSS-20B
2. GB300 NVL72 把單機櫃速度再往上推
如果你關心的是同樣 rack-scale 架構下能再省多少時間,GB300 NVL72 是最值得看的結果。NVIDIA 表示,它在相同規模下比 GB200 NVL72 最多快 1.6x,原因包括更高的 compute density、更多記憶體,以及更高的功耗上限,讓效能可以更長時間維持在高位。
這種提升對長時間 pretraining 或反覆 fine-tune 特別有感。當模型本來就很大時,1.6x 不只是分數好看,而是直接改變排程,原本要跨好幾天的工作,可能就能少掉一大段等待時間。
GB300 NVL72 的主要增益來源:
- 更高 compute density,搭配 NVFP4
- 更大的記憶體容量
- 更高功耗上限,支撐持續輸出3. 8,192 GPU 規模證明它不是只會跑小實驗
Blackwell 的另一個重點是能不能把規模做大,而且還維持效率。NVIDIA 把 DeepSeek-V3 671B 擴到 8,192 GPUs,這是目前 MLPerf Training 裡最大的 Blackwell 相關提交。它也把 Llama 3.1 405B 跑到 5,120 GPUs,顯示平台不只是拚單點速度,也是真的能把叢集往外擴。

能撐住這種規模,靠的是互連設計。每個 rack 內,第五代 NVLink Switch 把 72 顆 GPU 連成共享的運算與記憶體池;跨機櫃則依資料中心設計,搭配 Quantum InfiniBand 或 Spectrum-X Ethernet。
- DeepSeek-V3 671B:8,192 GPUs
- Llama 3.1 405B:5,120 GPUs
- 單個 rack 內 72 顆 GPU 共享互連
4. 合作案例顯示它已經進到真實產線
只看 NVIDIA 自家成績還不夠,合作夥伴案例更能看出平台是不是已經進到 production。Cohere 表示,它在 GB200 NVL72 上讓 North agentic AI platform 的訓練速度快了 3 倍;Midjourney 則在 Blackwell 叢集上訓練 v8,並在 CoreWeave 上擴大 Blackwell Ultra GPU fleet,準備下一代影像與影片模型。
其他案例也很有說服力。Microsoft Azure 在 Llama 3.1 405B 上 7.07 分鐘達到 reference quality;CoreWeave 在 DeepSeek-V3 671B 上用 GB300 NVL72 只花 2.02 分鐘;Nebius 則說 Higgsfield 的訓練時間縮短了 30%。
- Cohere:GB200 NVL72 上快 3 倍
- Midjourney:已在 Blackwell 上訓練並擴張
- Azure、CoreWeave、Nebius 都有可量化成果
5. 長訓練最怕中斷,Blackwell 把這點補上
訓練速度再快,如果跑到一半出錯,整體成本還是會爆。NVIDIA 把 Blackwell 的可靠性拆成幾層:出廠前要經過 30+ 道測試,運作時由 Reliability, Availability and Serviceability Engine 幾乎全芯片監控,遇到故障還能用 self-healing 邏輯繞開問題點。
在叢集層,Spectrum-X Ethernet 可以在毫秒內改道失效連線;如果真的中斷,NVIDIA Resiliency Extension,簡稱 NVRx,可以從最近 checkpoint 接著跑,而不是整個重來。對動輒數週、數月、數十萬張 GPU 的工作來說,這些功能往往比單純的峰值效能更值錢。
可靠性堆疊:
- 30+ 道出廠測試
- RAS Engine 監控
- self-healing fault routing
- Spectrum-X 毫秒級改道
- NVRx checkpoint 恢復怎麼挑
如果你最在意 benchmark 成績,先看七項全勝和 GB300 NVL72 的 1.6x 提升;如果你需要把模型做大,8,192 GPUs 的 DeepSeek-V3 671B 是最強證據;如果你想知道它是否已經進入真實業務,Cohere、Midjourney、Azure、CoreWeave 和 Nebius 的案例更有參考價值。
整體來看,Blackwell 比較像一個完整訓練平台,而不是單顆很快的 GPU。適合前沿模型團隊、長週期 pretraining 團隊,以及不能接受頻繁重跑的工作負載。