Blackwell 6.0 讓訓練速度、規模、穩定性一起升級

OraCore Editors

返回首頁

[IND] 2026年6月23日6 分鐘閱讀OraCore 編輯部

Blackwell 6.0 讓訓練速度、規模、穩定性一起升級

5 項 Blackwell MLPerf 6.0 成績，幫你判斷它適不適合追求更快訓練、更大規模與更高可靠性的團隊。

Nvidia Blackwell

分享 LinkedIn

Blackwell 在 MLPerf Training 6.0 拿下七項最快成績，適合想同時提升訓練速度、規模與可靠性的 AI 團隊。

看完這 5 項，你可以直接判斷 Blackwell 值不值得拿來做前沿模型訓練，尤其是當你在意的不只是單次跑分，而是能不能把更大的模型更快、也更穩地訓完。

項目	規模	報告結果
NVIDIA Blackwell	MLPerf Training 6.0	七項 benchmark 都是最快 time to train
GB300 NVL72	Rack-scale	比 GB200 NVL72 最多快 1.6x
DeepSeek-V3 671B	8,192 GPUs	最大規模下仍是最快訓練
Azure 上的 Llama 3.1 405B	8,192 GPUs	7.07 分鐘達到 reference quality
CoreWeave 上的 DeepSeek-V3 671B	8,192 GPUs	2.02 分鐘達到 reference quality

1. 七項 benchmark 都是最快

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這次最關鍵的訊號，不是單一模型成績，而是 MLPerf Training 6.0 的整體表現。NVIDIA 是唯一跨七個 benchmark 都有提交的陣營，而且每一項都拿到最快 time to train。對訓練基礎設施來說，這代表它不是只對某一類模型特別有利，而是把「更快完成訓練」當成通用目標。

這種結果對採購和架構選型很直接。你如果在看 dense LLM、MoE，或是 fine-tuning 工作流，這份成績單給的是同一個答案：Blackwell 不只是在某個 demo 上快，而是能在多種訓練型態裡維持領先。

7/7 benchmark 都是最快
同時涵蓋 GB200 NVL72 與 GB300 NVL72
包含新的 MoE 工作負載，如 DeepSeek-V3 671B、GPT-OSS-20B

2. GB300 NVL72 把單機櫃速度再往上推

如果你關心的是同樣 rack-scale 架構下能再省多少時間，GB300 NVL72 是最值得看的結果。NVIDIA 表示，它在相同規模下比 GB200 NVL72 最多快 1.6x，原因包括更高的 compute density、更多記憶體，以及更高的功耗上限，讓效能可以更長時間維持在高位。

這種提升對長時間 pretraining 或反覆 fine-tune 特別有感。當模型本來就很大時，1.6x 不只是分數好看，而是直接改變排程，原本要跨好幾天的工作，可能就能少掉一大段等待時間。

GB300 NVL72 的主要增益來源：
- 更高 compute density，搭配 NVFP4
- 更大的記憶體容量
- 更高功耗上限，支撐持續輸出

3. 8,192 GPU 規模證明它不是只會跑小實驗

Blackwell 的另一個重點是能不能把規模做大，而且還維持效率。NVIDIA 把 DeepSeek-V3 671B 擴到 8,192 GPUs，這是目前 MLPerf Training 裡最大的 Blackwell 相關提交。它也把 Llama 3.1 405B 跑到 5,120 GPUs，顯示平台不只是拚單點速度，也是真的能把叢集往外擴。

能撐住這種規模，靠的是互連設計。每個 rack 內，第五代 NVLink Switch 把 72 顆 GPU 連成共享的運算與記憶體池；跨機櫃則依資料中心設計，搭配 Quantum InfiniBand 或 Spectrum-X Ethernet。

DeepSeek-V3 671B：8,192 GPUs
Llama 3.1 405B：5,120 GPUs
單個 rack 內 72 顆 GPU 共享互連

4. 合作案例顯示它已經進到真實產線

只看 NVIDIA 自家成績還不夠，合作夥伴案例更能看出平台是不是已經進到 production。Cohere 表示，它在 GB200 NVL72 上讓 North agentic AI platform 的訓練速度快了 3 倍；Midjourney 則在 Blackwell 叢集上訓練 v8，並在 CoreWeave 上擴大 Blackwell Ultra GPU fleet，準備下一代影像與影片模型。

其他案例也很有說服力。Microsoft Azure 在 Llama 3.1 405B 上 7.07 分鐘達到 reference quality；CoreWeave 在 DeepSeek-V3 671B 上用 GB300 NVL72 只花 2.02 分鐘；Nebius 則說 Higgsfield 的訓練時間縮短了 30%。

Cohere：GB200 NVL72 上快 3 倍
Midjourney：已在 Blackwell 上訓練並擴張
Azure、CoreWeave、Nebius 都有可量化成果

5. 長訓練最怕中斷，Blackwell 把這點補上

訓練速度再快，如果跑到一半出錯，整體成本還是會爆。NVIDIA 把 Blackwell 的可靠性拆成幾層：出廠前要經過 30+ 道測試，運作時由 Reliability, Availability and Serviceability Engine 幾乎全芯片監控，遇到故障還能用 self-healing 邏輯繞開問題點。

在叢集層，Spectrum-X Ethernet 可以在毫秒內改道失效連線；如果真的中斷，NVIDIA Resiliency Extension，簡稱 NVRx，可以從最近 checkpoint 接著跑，而不是整個重來。對動輒數週、數月、數十萬張 GPU 的工作來說，這些功能往往比單純的峰值效能更值錢。

可靠性堆疊：
- 30+ 道出廠測試
- RAS Engine 監控
- self-healing fault routing
- Spectrum-X 毫秒級改道
- NVRx checkpoint 恢復

怎麼挑

如果你最在意 benchmark 成績，先看七項全勝和 GB300 NVL72 的 1.6x 提升；如果你需要把模型做大，8,192 GPUs 的 DeepSeek-V3 671B 是最強證據；如果你想知道它是否已經進入真實業務，Cohere、Midjourney、Azure、CoreWeave 和 Nebius 的案例更有參考價值。

整體來看，Blackwell 比較像一個完整訓練平台，而不是單顆很快的 GPU。適合前沿模型團隊、長週期 pretraining 團隊，以及不能接受頻繁重跑的工作負載。

// 相關文章

Blackwell 6.0 讓訓練速度、規模、穩定性一起升級

1. 七項 benchmark 都是最快

訂閱 AI 趨勢週報

2. GB300 NVL72 把單機櫃速度再往上推

3. 8,192 GPU 規模證明它不是只會跑小實驗

4. 合作案例顯示它已經進到真實產線

5. 長訓練最怕中斷，Blackwell 把這點補上

怎麼挑

Citi估8.2兆美元資產將被代幣化

RWA 代幣化把資產變上鏈通道

Micron 合約把財報變訊號

AI 公司該停止把中期選舉支出說成中立

這份 AI 市場地圖清單，比大多數 AI 電子報更有訊號

Worldcoin 的上漲不是追價訊號，而是可信度測試