[RSCH] 4 分鐘閱讀OraCore 編輯部

Nemotron 3 Ultra 證明開源模型仍能和頂尖對手正面競爭

Nemotron 3 Ultra 顯示,開源權重模型不但能追上頂尖對手,還能在推理吞吐上大幅領先,這會直接改寫部署成本與產品選型。

分享 LinkedIn
Nemotron 3 Ultra 證明開源模型仍能和頂尖對手正面競爭

Nemotron 3 Ultra 證明開源權重模型仍能追上頂尖對手,而且推理速度更快。

NVIDIA 的 Nemotron 3 Ultra 不是又一個大模型發布,而是直接把「開源模型只能拚情懷、不能拚生產力」這句老話推翻。官方宣稱,這個 550B total、55B active 的模型,在 8k input、64k output 的設定下,推理吞吐比 GLM-5.1-754B-A40B 高 5.9 倍、比 Kimi-K2.6-1T-A32B 高 4.8 倍、比 Qwen-3.5-397B-17B 高 1.6 倍,同時在準確度上仍站在同級開源 LLM 的前段班。這種組合很少見,因為它把「能不能用」和「用得起不用得起」放在同一張桌上討論。

第一個論點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

開源模型真正的門檻,不是能不能跑分,而是能不能承擔服務成本。很多團隊在 demo 階段看的是 benchmark,到了上線才發現,吞吐量和延遲才是帳單上的主角。NVIDIA 這次給出的 5.9 倍吞吐提升,意義不在於多了幾個百分點,而在於它直接改變 GPU 配置、批次策略與併發上限。

Nemotron 3 Ultra 證明開源模型仍能和頂尖對手正面競爭

8k 輸入、64k 輸出的場景尤其關鍵。這不是單純的摘要任務,而是長對話、代理式工作流、文件生成與多輪推理的真實戰場。當輸出 token 數量快速累積時,模型若只能慢慢吐字,就算準確率漂亮也很難進產品。Nemotron 3 Ultra 在這裡的優勢,等於把高品質模型從「只能小規模試用」拉到「可以被認真部署」的區間。

第二個論點

這次最值得注意的不是規模本身,而是架構選擇明顯在為效率服務。Nemotron 3 Ultra 採用 Mixture-of-Experts Hybrid Mamba-Attention、LatentMoE、MTP layers 與 inference-time reasoning budget control。這些名詞不是裝飾,它們指向同一件事:模型不再只是把參數堆大,而是把推理路徑設計得更可控、更省算力。

尤其是 native speculative decoding 與 reasoning budget control。前者直接對準逐 token 生成的延遲瓶頸,後者則讓產品能依任務難度調整思考深度。對工程團隊來說,這代表模型不再只是黑盒輸出,而是一個可以調參、可以分層、可以按成本管理的系統。當模型開始能被「運營」,開源方案就不再只是研究樣品。

反方可能怎麼說

最強的反對意見其實很合理:吞吐高、跑分近,不等於能取代最強的閉源系統。550B total 的模型仍然是重型基礎設施,記憶體、編排、監控、評測都要自己扛。對多數團隊來說,API 方案的價值就在於把這些複雜度外包出去,開源模型未必划算。

Nemotron 3 Ultra 證明開源模型仍能和頂尖對手正面競爭

另一個批評是,所謂開源常常是「可下載」而不是「可自由複製」。NVIDIA 同時掌握硬體、量化與 serving 生態,這會讓模型雖然技術上開放,商業上卻仍然強化平台優勢。再加上吞吐數字高度依賴工作負載,8k/64k 的結果不保證能在所有上下文與部署環境中重現。

這些質疑成立,但不足以推翻結論。Nemotron 3 Ultra 的重點不是宣告開源已經消滅所有營運成本,而是證明開源與閉源之間的差距,已經小到足以讓「可控性、可檢視性、可自建」成為決策核心。當模型同時具備速度、可修改性與可部署性,團隊就能圍繞它優化;黑盒 API 做不到這件事。

你能做什麼

如果你是工程師,不要只看準確率,請直接拿自己的長上下文工作負載測吞吐、延遲與總 serving 成本,並評估 speculative decoding 是否能落地。如果你是 PM 或創辦人,別再問開源模型「夠不夠好」這種抽象問題,改問你能不能掌握成本曲線、能不能調整行為、能不能把模型留在自己的控制平面裡。Nemotron 3 Ultra 的訊號很清楚:對很多產品來說,答案已經是可以。