DiffusionGemma 在 RTX 與 DGX 跑很快
DiffusionGemma 改用平行生成文字,NVIDIA 稱它在 RTX、RTX PRO 與 DGX 上可更快跑本地推論,單機互動體驗更順。

DiffusionGemma 改用平行生成文字,讓本地推論在 RTX 和 DGX 上跑得更快。
Google DeepMind 在 2026 年 6 月 10 日釋出 DiffusionGemma。NVIDIA 直接把它綁到自家硬體上。像 GeForce RTX、RTX PRO,還有 DGX Spark,都在支援名單裡。
講白了,這不是又一個聊天機器人展示。它是在改生成方式。不是一個 token 一個 token 吐字,而是一次補一整塊文字。對做 AI 工具的人來說,這種差異很實際。
| 項目 | 數字 | 意思 |
|---|---|---|
| 釋出日期 | 2026-06-10 | DiffusionGemma 正式公開 |
| 每步去噪 token | 256 | 一次處理一整塊文字 |
| 模型大小 | 26B | 基於 Gemma 4 MoE 架構 |
| 每步啟用參數 | 3.8B | 不是整個模型都一起跑 |
| H100 速度 | 1,000 tokens/sec | 單機推論速度很高 |
| DGX Spark 速度 | 150 tokens/sec | 桌面級本地速度 |
| DGX Station 速度 | 2,000 tokens/sec | 更高階工作站速度 |
平行生成,才是這次重點
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
多數 LLM 都是 autoregressive。意思很簡單。先猜下一個 token,再猜下一個。這種方式穩,但也慢。你如果在寫 agent、做 coding assistant,等待感會很明顯。

DiffusionGemma 走 diffusion 路線。它從雜訊開始,然後把整段文字一起修正。每一步最多處理 256 個 token。這讓它更像是在「補句子」,不是在「慢慢打字」。
NVIDIA 的說法也很直白。token-by-token 的生成比較吃記憶體頻寬。block generation 則更吃算力。GPU 本來就擅長這種事,所以它才會把這模型和 RTX、DGX 綁這麼緊。
- 每步可去噪 256 個 token,不是一個一個吐。
- 模型總量是 26B,但每步只啟用 3.8B。
- 這代表活躍負載比較小,延遲也更好控。
- NVIDIA 說它在同場景下可比 autoregressive 模型快約 4 倍。
NVIDIA 想賣的是本地速度
這次最有意思的地方,不是模型本身,而是硬體對位。NVIDIA 很清楚地把 DiffusionGemma 放進自己的產品線裡。從消費級 GPU,到桌機工作站,再到 DGX 系統,都有對應位置。
在 DGX Spark 上,NVIDIA 說它能跑到 150 tokens/sec,搭配 GB10 Grace Blackwell Superchip 和 128GB unified memory。DGX Station 則喊出最高 2,000 tokens/sec,還有 748GB coherent memory。這些數字很像在說:本地 AI 不必只靠雲端。
如果你做過本地模型部署,就知道速度不是唯一問題,但速度常常是第一個卡點。互動式工具只要慢一點,使用者就會跑掉。這也是為什麼 NVIDIA 一直強調低延遲。
“The ultimate goal of AI is to understand and replicate intelligence.” — Jensen Huang, NVIDIA GTC 2024 keynote
這句話出自 Jensen Huang。套在這次發布上很合。NVIDIA 要證明的不是「模型很會講」,而是「模型夠快,能待在你桌上」。
- H100:1,000 tokens/sec。
- DGX Spark:150 tokens/sec。
- DGX Station:最高 2,000 tokens/sec。
- 同場景下,autoregressive 模型約慢 4 倍。
軟體堆疊也很重要
只談模型速度,常常是在自嗨。真正麻煩的是部署。runtime、kernel、記憶體配置,任何一個環節出事,開發者就會放棄。

所以 NVIDIA 也把支援範圍拉到 Hugging Face Transformers、vLLM,還有 Unsloth。這種做法很務實。開發者不想研究一堆奇怪的自訂流程,只想把模型拉下來跑。
而且 DiffusionGemma 用的是 Apache 2.0 授權。這點很重要。開放權重不代表部署就簡單,但至少你能更自由地測、改、整合到自己的產品裡。
對做 assistant、coding tool、agent loop 的團隊來說,問題已經不是「能不能跑」,而是「跑起來像不像本地」。NVIDIA 想把答案推向肯定。
- Transformers 可直接測試。
- vLLM 適合做服務端推論。
- Unsloth 對微調流程更友善。
- Apache 2.0 讓產品整合更自由。
跟傳統 decoder 模型比,差在哪
如果拿傳統 LLM 來看,DiffusionGemma 的路線很不一樣。一般 decoder 模型是順序生成,所以延遲很容易被拉高。你輸入一長串 prompt,它還得一個 token 一個 token 算。
DiffusionGemma 的 26B 參數看起來很大,但每步只啟用 3.8B。這種 MoE 設計,重點是把活躍計算壓低。對本地硬體來說,這比單純堆參數更有意義。
再看 NVIDIA 給的數字,差距就更清楚。H100 上 1,000 tokens/sec,DGX Station 上最高 2,000 tokens/sec。這不是玩具級 demo。這是可以拿來做互動產品的速度。
- 傳統 decoder:順序吐字,延遲較高。
- DiffusionGemma:平行補字,互動感更好。
- 26B 總參數,但只啟用 3.8B。
- 本地速度數字已經接近實用門檻。
這背後是本地 AI 的路線戰
這件事其實不只在比模型。它也在比誰能定義本地 AI 的預設路線。NVIDIA 想把模型、runtime、硬體一起包好。這樣一來,開發者比較容易直接上手。
另一邊,雲端 API 還是很強。像 GPT、Claude 這類服務,省事很多。但本地推論有自己的優勢。資料不必每次都送出去,延遲也比較穩。對內部工具、私有資料、離線場景,這很有吸引力。
我覺得這次最值得看的,不是 DiffusionGemma 會不會取代誰,而是它把一件事講得很清楚:生成文字不一定只能照舊玩法。只要速度夠快,很多產品設計都會跟著變。
如果你在做 AI 工具,現在就該測三件事。第一,這種 diffusion 式生成在你的工作流裡會不會更順。第二,你的 GPU 或工作站吃不吃得下。第三,使用者到底在乎的是品質,還是回應時間。
接下來該看什麼
我會先看兩件事。第一,DiffusionGemma 在實際產品裡的延遲表現。第二,這種平行生成會不會被更多開源模型跟進。只要有更多模型採用類似路線,本地 AI 的設計思維就會慢慢改變。
如果你手上有 RTX、RTX PRO,或 DGX 系統,這波很值得試。不是因為它聽起來酷,而是因為它可能真的比較快。對開發者來說,快一點,常常就夠了。
接下來最實際的動作,就是把它放進你自己的 benchmark。不要只看官方數字。把你的 prompt、你的資料、你的 workflow 拿去跑,答案才會準。