DiffusionGemma 在 RTX 與 DGX 跑很快

OraCore Editors

返回首頁

[MODEL] 2026年6月27日6 分鐘閱讀OraCore 編輯部

DiffusionGemma 在 RTX 與 DGX 跑很快

DiffusionGemma 改用平行生成文字，NVIDIA 稱它在 RTX、RTX PRO 與 DGX 上可更快跑本地推論，單機互動體驗更順。

分享 LinkedIn

DiffusionGemma 改用平行生成文字，讓本地推論在 RTX 和 DGX 上跑得更快。

Google DeepMind 在 2026 年 6 月 10 日釋出 DiffusionGemma。NVIDIA 直接把它綁到自家硬體上。像 GeForce RTX、RTX PRO，還有 DGX Spark，都在支援名單裡。

講白了，這不是又一個聊天機器人展示。它是在改生成方式。不是一個 token 一個 token 吐字，而是一次補一整塊文字。對做 AI 工具的人來說，這種差異很實際。

項目	數字	意思
釋出日期	2026-06-10	DiffusionGemma 正式公開
每步去噪 token	256	一次處理一整塊文字
模型大小	26B	基於 Gemma 4 MoE 架構
每步啟用參數	3.8B	不是整個模型都一起跑
H100 速度	1,000 tokens/sec	單機推論速度很高
DGX Spark 速度	150 tokens/sec	桌面級本地速度
DGX Station 速度	2,000 tokens/sec	更高階工作站速度

平行生成，才是這次重點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

多數 LLM 都是 autoregressive。意思很簡單。先猜下一個 token，再猜下一個。這種方式穩，但也慢。你如果在寫 agent、做 coding assistant，等待感會很明顯。

DiffusionGemma 走 diffusion 路線。它從雜訊開始，然後把整段文字一起修正。每一步最多處理 256 個 token。這讓它更像是在「補句子」，不是在「慢慢打字」。

NVIDIA 的說法也很直白。token-by-token 的生成比較吃記憶體頻寬。block generation 則更吃算力。GPU 本來就擅長這種事，所以它才會把這模型和 RTX、DGX 綁這麼緊。

每步可去噪 256 個 token，不是一個一個吐。
模型總量是 26B，但每步只啟用 3.8B。
這代表活躍負載比較小，延遲也更好控。
NVIDIA 說它在同場景下可比 autoregressive 模型快約 4 倍。

NVIDIA 想賣的是本地速度

這次最有意思的地方，不是模型本身，而是硬體對位。NVIDIA 很清楚地把 DiffusionGemma 放進自己的產品線裡。從消費級 GPU，到桌機工作站，再到 DGX 系統，都有對應位置。

在 DGX Spark 上，NVIDIA 說它能跑到 150 tokens/sec，搭配 GB10 Grace Blackwell Superchip 和 128GB unified memory。DGX Station 則喊出最高 2,000 tokens/sec，還有 748GB coherent memory。這些數字很像在說：本地 AI 不必只靠雲端。

如果你做過本地模型部署，就知道速度不是唯一問題，但速度常常是第一個卡點。互動式工具只要慢一點，使用者就會跑掉。這也是為什麼 NVIDIA 一直強調低延遲。

“The ultimate goal of AI is to understand and replicate intelligence.” — Jensen Huang, NVIDIA GTC 2024 keynote

這句話出自 Jensen Huang。套在這次發布上很合。NVIDIA 要證明的不是「模型很會講」，而是「模型夠快，能待在你桌上」。

H100：1,000 tokens/sec。
DGX Spark：150 tokens/sec。
DGX Station：最高 2,000 tokens/sec。
同場景下，autoregressive 模型約慢 4 倍。

軟體堆疊也很重要

只談模型速度，常常是在自嗨。真正麻煩的是部署。runtime、kernel、記憶體配置，任何一個環節出事，開發者就會放棄。

所以 NVIDIA 也把支援範圍拉到 Hugging Face Transformers、vLLM，還有 Unsloth。這種做法很務實。開發者不想研究一堆奇怪的自訂流程，只想把模型拉下來跑。

而且 DiffusionGemma 用的是 Apache 2.0 授權。這點很重要。開放權重不代表部署就簡單，但至少你能更自由地測、改、整合到自己的產品裡。

對做 assistant、coding tool、agent loop 的團隊來說，問題已經不是「能不能跑」，而是「跑起來像不像本地」。NVIDIA 想把答案推向肯定。

Transformers 可直接測試。
vLLM 適合做服務端推論。
Unsloth 對微調流程更友善。
Apache 2.0 讓產品整合更自由。

跟傳統 decoder 模型比，差在哪

如果拿傳統 LLM 來看，DiffusionGemma 的路線很不一樣。一般 decoder 模型是順序生成，所以延遲很容易被拉高。你輸入一長串 prompt，它還得一個 token 一個 token 算。

DiffusionGemma 的 26B 參數看起來很大，但每步只啟用 3.8B。這種 MoE 設計，重點是把活躍計算壓低。對本地硬體來說，這比單純堆參數更有意義。

再看 NVIDIA 給的數字，差距就更清楚。H100 上 1,000 tokens/sec，DGX Station 上最高 2,000 tokens/sec。這不是玩具級 demo。這是可以拿來做互動產品的速度。

傳統 decoder：順序吐字，延遲較高。
DiffusionGemma：平行補字，互動感更好。
26B 總參數，但只啟用 3.8B。
本地速度數字已經接近實用門檻。

這背後是本地 AI 的路線戰

這件事其實不只在比模型。它也在比誰能定義本地 AI 的預設路線。NVIDIA 想把模型、runtime、硬體一起包好。這樣一來，開發者比較容易直接上手。

另一邊，雲端 API 還是很強。像 GPT、Claude 這類服務，省事很多。但本地推論有自己的優勢。資料不必每次都送出去，延遲也比較穩。對內部工具、私有資料、離線場景，這很有吸引力。

我覺得這次最值得看的，不是 DiffusionGemma 會不會取代誰，而是它把一件事講得很清楚：生成文字不一定只能照舊玩法。只要速度夠快，很多產品設計都會跟著變。

如果你在做 AI 工具，現在就該測三件事。第一，這種 diffusion 式生成在你的工作流裡會不會更順。第二，你的 GPU 或工作站吃不吃得下。第三，使用者到底在乎的是品質，還是回應時間。

接下來該看什麼

我會先看兩件事。第一，DiffusionGemma 在實際產品裡的延遲表現。第二，這種平行生成會不會被更多開源模型跟進。只要有更多模型採用類似路線，本地 AI 的設計思維就會慢慢改變。

如果你手上有 RTX、RTX PRO，或 DGX 系統，這波很值得試。不是因為它聽起來酷，而是因為它可能真的比較快。對開發者來說，快一點，常常就夠了。

接下來最實際的動作，就是把它放進你自己的 benchmark。不要只看官方數字。把你的 prompt、你的資料、你的 workflow 拿去跑，答案才會準。

// 相關文章

DiffusionGemma 在 RTX 與 DGX 跑很快

平行生成，才是這次重點

訂閱 AI 趨勢週報

NVIDIA 想賣的是本地速度

軟體堆疊也很重要

跟傳統 decoder 模型比，差在哪

這背後是本地 AI 的路線戰

接下來該看什麼

Google OpenRL 把 RL 細調搬上 Kubernetes

GLM-5.2 用更低成本打贏 GPT-5.5

OpenAI 收緊 GPT-5.6 上線節奏

Ubuntu 26.10 Snapshot 2 進入測試期

Claude Fable 5 上線：1M 上下文、$10/$50

Google 把 Gemini 3.5 Pro 延到 7 月