[IND] 6 分鐘閱讀OraCore 編輯部

Blackwell 6.0 讓訓練速度、規模、穩定性一起升級

5 項 Blackwell MLPerf 6.0 成績,幫你判斷它適不適合追求更快訓練、更大規模與更高可靠性的團隊。

分享 LinkedIn
Blackwell 6.0 讓訓練速度、規模、穩定性一起升級

Blackwell 在 MLPerf Training 6.0 拿下七項最快成績,適合想同時提升訓練速度、規模與可靠性的 AI 團隊。

看完這 5 項,你可以直接判斷 Blackwell 值不值得拿來做前沿模型訓練,尤其是當你在意的不只是單次跑分,而是能不能把更大的模型更快、也更穩地訓完。

項目規模報告結果
NVIDIA BlackwellMLPerf Training 6.0七項 benchmark 都是最快 time to train
GB300 NVL72Rack-scale比 GB200 NVL72 最多快 1.6x
DeepSeek-V3 671B8,192 GPUs最大規模下仍是最快訓練
Azure 上的 Llama 3.1 405B8,192 GPUs7.07 分鐘達到 reference quality
CoreWeave 上的 DeepSeek-V3 671B8,192 GPUs2.02 分鐘達到 reference quality

1. 七項 benchmark 都是最快

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這次最關鍵的訊號,不是單一模型成績,而是 MLPerf Training 6.0 的整體表現。NVIDIA 是唯一跨七個 benchmark 都有提交的陣營,而且每一項都拿到最快 time to train。對訓練基礎設施來說,這代表它不是只對某一類模型特別有利,而是把「更快完成訓練」當成通用目標。

Blackwell 6.0 讓訓練速度、規模、穩定性一起升級

這種結果對採購和架構選型很直接。你如果在看 dense LLM、MoE,或是 fine-tuning 工作流,這份成績單給的是同一個答案:Blackwell 不只是在某個 demo 上快,而是能在多種訓練型態裡維持領先。

  • 7/7 benchmark 都是最快
  • 同時涵蓋 GB200 NVL72 與 GB300 NVL72
  • 包含新的 MoE 工作負載,如 DeepSeek-V3 671B、GPT-OSS-20B

2. GB300 NVL72 把單機櫃速度再往上推

如果你關心的是同樣 rack-scale 架構下能再省多少時間,GB300 NVL72 是最值得看的結果。NVIDIA 表示,它在相同規模下比 GB200 NVL72 最多快 1.6x,原因包括更高的 compute density、更多記憶體,以及更高的功耗上限,讓效能可以更長時間維持在高位。

這種提升對長時間 pretraining 或反覆 fine-tune 特別有感。當模型本來就很大時,1.6x 不只是分數好看,而是直接改變排程,原本要跨好幾天的工作,可能就能少掉一大段等待時間。

GB300 NVL72 的主要增益來源: - 更高 compute density,搭配 NVFP4 - 更大的記憶體容量 - 更高功耗上限,支撐持續輸出

3. 8,192 GPU 規模證明它不是只會跑小實驗

Blackwell 的另一個重點是能不能把規模做大,而且還維持效率。NVIDIA 把 DeepSeek-V3 671B 擴到 8,192 GPUs,這是目前 MLPerf Training 裡最大的 Blackwell 相關提交。它也把 Llama 3.1 405B 跑到 5,120 GPUs,顯示平台不只是拚單點速度,也是真的能把叢集往外擴。

Blackwell 6.0 讓訓練速度、規模、穩定性一起升級

能撐住這種規模,靠的是互連設計。每個 rack 內,第五代 NVLink Switch 把 72 顆 GPU 連成共享的運算與記憶體池;跨機櫃則依資料中心設計,搭配 Quantum InfiniBandSpectrum-X Ethernet

  • DeepSeek-V3 671B:8,192 GPUs
  • Llama 3.1 405B:5,120 GPUs
  • 單個 rack 內 72 顆 GPU 共享互連

4. 合作案例顯示它已經進到真實產線

只看 NVIDIA 自家成績還不夠,合作夥伴案例更能看出平台是不是已經進到 production。Cohere 表示,它在 GB200 NVL72 上讓 North agentic AI platform 的訓練速度快了 3 倍;Midjourney 則在 Blackwell 叢集上訓練 v8,並在 CoreWeave 上擴大 Blackwell Ultra GPU fleet,準備下一代影像與影片模型。

其他案例也很有說服力。Microsoft Azure 在 Llama 3.1 405B 上 7.07 分鐘達到 reference quality;CoreWeave 在 DeepSeek-V3 671B 上用 GB300 NVL72 只花 2.02 分鐘;Nebius 則說 Higgsfield 的訓練時間縮短了 30%。

  • Cohere:GB200 NVL72 上快 3 倍
  • Midjourney:已在 Blackwell 上訓練並擴張
  • Azure、CoreWeave、Nebius 都有可量化成果

5. 長訓練最怕中斷,Blackwell 把這點補上

訓練速度再快,如果跑到一半出錯,整體成本還是會爆。NVIDIA 把 Blackwell 的可靠性拆成幾層:出廠前要經過 30+ 道測試,運作時由 Reliability, Availability and Serviceability Engine 幾乎全芯片監控,遇到故障還能用 self-healing 邏輯繞開問題點。

在叢集層,Spectrum-X Ethernet 可以在毫秒內改道失效連線;如果真的中斷,NVIDIA Resiliency Extension,簡稱 NVRx,可以從最近 checkpoint 接著跑,而不是整個重來。對動輒數週、數月、數十萬張 GPU 的工作來說,這些功能往往比單純的峰值效能更值錢。

可靠性堆疊: - 30+ 道出廠測試 - RAS Engine 監控 - self-healing fault routing - Spectrum-X 毫秒級改道 - NVRx checkpoint 恢復

怎麼挑

如果你最在意 benchmark 成績,先看七項全勝和 GB300 NVL72 的 1.6x 提升;如果你需要把模型做大,8,192 GPUs 的 DeepSeek-V3 671B 是最強證據;如果你想知道它是否已經進入真實業務,Cohere、Midjourney、Azure、CoreWeave 和 Nebius 的案例更有參考價值。

整體來看,Blackwell 比較像一個完整訓練平台,而不是單顆很快的 GPU。適合前沿模型團隊、長週期 pretraining 團隊,以及不能接受頻繁重跑的工作負載。