[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-diffusiongemma-runs-fast-on-nvidia-rtx-dgx-zh":3,"article-related-diffusiongemma-runs-fast-on-nvidia-rtx-dgx-zh":34,"series-model-release-9258a3d6-b70c-493d-84b9-c791df86f495":77},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":30,"created_at":31,"published_at":32,"topic_cluster_id":33},"9258a3d6-b70c-493d-84b9-c791df86f495","diffusiongemma-runs-fast-on-nvidia-rtx-dgx-zh","DiffusionGemma 在 RTX 與 DGX 跑很快","\u003Cp data-speakable=\"summary\">DiffusionGemma 改用平行生成文字，讓本地推論在 RTX 和 DGX 上跑得更快。\u003C\u002Fp>\u003Cp>\u003Ca href=\"\u002Ftag\u002Fgoogle-deepmind\">Google DeepMind\u003C\u002Fa> 在 2026 年 6 月 10 日釋出 \u003Ca href=\"https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemma\u002F\" target=\"_blank\" rel=\"noopener\">DiffusionGemma\u003C\u002Fa>。\u003Ca href=\"https:\u002F\u002Fblogs.nvidia.com\" target=\"_blank\" rel=\"noopener\">NVIDIA\u003C\u002Fa> 直接把它綁到自家硬體上。像 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fgeforce\u002F\" target=\"_blank\" rel=\"noopener\">GeForce RTX\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fworkstations\u002Frtx-pro\u002F\" target=\"_blank\" rel=\"noopener\">RTX PRO\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdata-center\u002Fdgx-spark\u002F\" target=\"_blank\" rel=\"noopener\">DGX Spark\u003C\u002Fa>，都在支援名單裡。\u003C\u002Fp>\u003Cp>講白了，這不是又一個聊天機器人展示。它是在改生成方式。不是一個 token 一個 token 吐字，而是一次補一整塊文字。對做 AI 工具的人來說，這種差異很實際。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>數字\u003C\u002Fth>\u003Cth>意思\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>釋出日期\u003C\u002Ftd>\u003Ctd>2026-06-10\u003C\u002Ftd>\u003Ctd>DiffusionGemma 正式公開\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>每步去噪 token\u003C\u002Ftd>\u003Ctd>256\u003C\u002Ftd>\u003Ctd>一次處理一整塊文字\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>模型大小\u003C\u002Ftd>\u003Ctd>26B\u003C\u002Ftd>\u003Ctd>基於 Gemma 4 MoE 架構\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>每步啟用參數\u003C\u002Ftd>\u003Ctd>3.8B\u003C\u002Ftd>\u003Ctd>不是整個模型都一起跑\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>H100 速度\u003C\u002Ftd>\u003Ctd>1,000 tokens\u002Fsec\u003C\u002Ftd>\u003Ctd>單機推論速度很高\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>DGX Spark 速度\u003C\u002Ftd>\u003Ctd>150 tokens\u002Fsec\u003C\u002Ftd>\u003Ctd>桌面級本地速度\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>DGX Station 速度\u003C\u002Ftd>\u003Ctd>2,000 tokens\u002Fsec\u003C\u002Ftd>\u003Ctd>更高階工作站速度\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>平行生成，才是這次重點\u003C\u002Fh2>\u003Cp>多數 LLM 都是 autoregressive。意思很簡單。先猜下一個 token，再猜下一個。這種方式穩，但也慢。你如果在寫 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>、做 coding assistant，等待感會很明顯。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782570778712-u643.png\" alt=\"DiffusionGemma 在 RTX 與 DGX 跑很快\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>DiffusionGemma 走 diffusion \u003Ca href=\"\u002Fnews\u002Fmlops-roadmap-2026-turns-learning-into-delivery-zh\">路線\u003C\u002Fa>。它從雜訊開始，然後把整段文字一起修正。每一步最多處理 256 個 token。這讓它更像是在「補句子」，不是在「慢慢打字」。\u003C\u002Fp>\u003Cp>\u003Ca href=\"\u002Ftag\u002Fnvidia\">NVIDIA\u003C\u002Fa> 的說法也很直白。token-by-token 的生成比較吃記憶體頻寬。block generation 則更吃算力。GPU 本來就擅長這種事，所以它才\u003Ca href=\"\u002Fnews\u002Fage-verification-surveillance-checkpoint-internet-zh\">會把\u003C\u002Fa>這\u003Ca href=\"\u002Fnews\u002Fllm-fine-tuning-turns-generic-models-into-domain-tools-zh\">模型\u003C\u002Fa>和 RTX、DGX 綁這麼緊。\u003C\u002Fp>\u003Cul>\u003Cli>每步可去噪 256 個 token，不是一個一個吐。\u003C\u002Fli>\u003Cli>模型總量是 26B，但每步只啟用 3.8B。\u003C\u002Fli>\u003Cli>這代表活躍負載比較小，延遲也更好控。\u003C\u002Fli>\u003Cli>NVIDIA 說它在同場景下可比 autoregressive 模型快約 4 倍。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>NVIDIA 想賣的是本地速度\u003C\u002Fh2>\u003Cp>這次最有意思的地方，不是模型本身，而是硬體對位。NVIDIA 很清楚地把 DiffusionGemma 放進自己的產品線裡。從消費級 GPU，到桌機工作站，再到 DGX 系統，都有對應位置。\u003C\u002Fp>\u003Cp>在 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdata-center\u002Fdgx-spark\u002F\" target=\"_blank\" rel=\"noopener\">DGX Spark\u003C\u002Fa> 上，NVIDIA 說它能跑到 150 tokens\u002Fsec，搭配 GB10 Grace Blackwell Superchip 和 128GB unified memory。\u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdata-center\u002Fdgx-station\u002F\" target=\"_blank\" rel=\"noopener\">DGX Station\u003C\u002Fa> 則喊出最高 2,000 tokens\u002Fsec，還有 748GB coherent memory。這些數字很像在說：本地 AI 不必只靠雲端。\u003C\u002Fp>\u003Cp>如果你做過本地模型部署，就知道速度不是唯一問題，但速度常常是第一個卡點。互動式工具只要慢一點，使用者就會跑掉。這也是為什麼 NVIDIA 一直強調低延遲。\u003C\u002Fp>\u003Cblockquote>“The ultimate goal of AI is to understand and replicate intelligence.” — Jensen Huang, NVIDIA GTC 2024 keynote\u003C\u002Fblockquote>\u003Cp>這句話出自 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fon-demand\u002Fsession\u002Fgtc24-s62798\u002F\" target=\"_blank\" rel=\"noopener\">Jensen Huang\u003C\u002Fa>。套在這次發布上很合。NVIDIA 要證明的不是「模型很會講」，而是「模型夠快，能待在你桌上」。\u003C\u002Fp>\u003Cul>\u003Cli>H100：1,000 tokens\u002Fsec。\u003C\u002Fli>\u003Cli>DGX Spark：150 tokens\u002Fsec。\u003C\u002Fli>\u003Cli>DGX Station：最高 2,000 tokens\u002Fsec。\u003C\u002Fli>\u003Cli>同場景下，autoregressive 模型約慢 4 倍。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>軟體堆疊也很重要\u003C\u002Fh2>\u003Cp>只談模型速度，常常是在自嗨。真正麻煩的是部署。runtime、kernel、記憶體配置，任何一個環節出事，開發者就會放棄。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782570777914-k321.png\" alt=\"DiffusionGemma 在 RTX 與 DGX 跑很快\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>所以 NVIDIA 也把支援範圍拉到 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Findex\" target=\"_blank\" rel=\"noopener\">Hugging Face Transformers\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\" target=\"_blank\" rel=\"noopener\">vLLM\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Funslothai\u002Funsloth\" target=\"_blank\" rel=\"noopener\">Unsloth\u003C\u002Fa>。這種做法很務實。開發者不想研究一堆奇怪的自訂流程，只想把模型拉下來跑。\u003C\u002Fp>\u003Cp>而且 DiffusionGemma 用的是 Apache 2.0 授權。這點很重要。開放權重不代表部署就簡單，但至少你能更自由地測、改、整合到自己的產品裡。\u003C\u002Fp>\u003Cp>對做 assistant、coding tool、agent loop 的團隊來說，問題已經不是「能不能跑」，而是「跑起來像不像本地」。NVIDIA 想把答案推向肯定。\u003C\u002Fp>\u003Cul>\u003Cli>Transformers 可直接測試。\u003C\u002Fli>\u003Cli>vLLM 適合做服務端推論。\u003C\u002Fli>\u003Cli>Unsloth 對微調流程更友善。\u003C\u002Fli>\u003Cli>Apache 2.0 讓產品整合更自由。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>跟傳統 decoder 模型比，差在哪\u003C\u002Fh2>\u003Cp>如果拿傳統 LLM 來看，DiffusionGemma 的路線很不一樣。一般 decoder 模型是順序生成，所以延遲很容易被拉高。你輸入一長串 prompt，它還得一個 token 一個 token 算。\u003C\u002Fp>\u003Cp>DiffusionGemma 的 26B 參數看起來很大，但每步只啟用 3.8B。這種 MoE 設計，重點是把活躍計算壓低。對本地硬體來說，這比單純堆參數更有意義。\u003C\u002Fp>\u003Cp>再看 NVIDIA 給的數字，差距就更清楚。H100 上 1,000 tokens\u002Fsec，DGX Station 上最高 2,000 tokens\u002Fsec。這不是玩具級 demo。這是可以拿來做互動產品的速度。\u003C\u002Fp>\u003Cul>\u003Cli>傳統 decoder：順序吐字，延遲較高。\u003C\u002Fli>\u003Cli>DiffusionGemma：平行補字，互動感更好。\u003C\u002Fli>\u003Cli>26B 總參數，但只啟用 3.8B。\u003C\u002Fli>\u003Cli>本地速度數字已經接近實用門檻。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>這背後是本地 AI 的路線戰\u003C\u002Fh2>\u003Cp>這件事其實不只在比模型。它也在比誰能定義本地 AI 的預設路線。\u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002F\" target=\"_blank\" rel=\"noopener\">NVIDIA\u003C\u002Fa> 想把模型、runtime、硬體一起包好。這樣一來，開發者比較容易直接上手。\u003C\u002Fp>\u003Cp>另一邊，雲端 API 還是很強。像 GPT、\u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa> 這類服務，省事很多。但本地推論有自己的優勢。資料不必每次都送出去，延遲也比較穩。對內部工具、私有資料、離線場景，這很有吸引力。\u003C\u002Fp>\u003Cp>我覺得這次最值得看的，不是 DiffusionGemma 會不會取代誰，而是它把一件事講得很清楚：生成文字不一定只能照舊玩法。只要速度夠快，很多產品設計都會跟著變。\u003C\u002Fp>\u003Cp>如果你在做 AI 工具，現在就該測三件事。第一，這種 diffusion 式生成在你的工作流裡會不會更順。第二，你的 GPU 或工作站吃不吃得下。第三，使用者到底在乎的是品質，還是回應時間。\u003C\u002Fp>\u003Ch2>接下來該看什麼\u003C\u002Fh2>\u003Cp>我會先看兩件事。第一，DiffusionGemma 在實際產品裡的延遲表現。第二，這種平行生成會不會被更多開源模型跟進。只要有更多模型採用類似路線，本地 AI 的設計思維就會慢慢改變。\u003C\u002Fp>\u003Cp>如果你手上有 RTX、RTX PRO，或 DGX 系統，這波很值得試。不是因為它聽起來酷，而是因為它可能真的比較快。對開發者來說，快一點，常常就夠了。\u003C\u002Fp>\u003Cp>接下來最實際的動作，就是把它放進你自己的 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>。不要只看官方數字。把你的 prompt、你的資料、你的 workflow 拿去跑，答案才會準。\u003C\u002Fp>","DiffusionGemma 改用平行生成文字，NVIDIA 稱它在 RTX、RTX PRO 與 DGX 上可更快跑本地推論，單機互動體驗更順。","blogs.nvidia.com","https:\u002F\u002Fblogs.nvidia.com\u002Fblog\u002Frtx-ai-garage-local-gemma-diffusion\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782570778712-u643.png","model-release","zh","8fe33efd-3a68-4fe3-935f-f0f5d3f058fc",[17,18,19,20,21,22,23,24],"DiffusionGemma","NVIDIA RTX","DGX","本地推論","diffusion","Gemma 4","LLM","GPU",[26,27,28,29],"DiffusionGemma 改用 diffusion 式平行生成，單次可處理 256 個 token。","NVIDIA 把它對應到 RTX、RTX PRO、DGX Spark 和 DGX Station。","官方數字顯示，本地推論速度可達 150 到 2,000 tokens\u002Fsec。","對開發者來說，重點是延遲、部署難度和硬體成本一起看。",0,"2026-06-27T14:32:34.436232+00:00","2026-06-27T14:32:34.427+00:00","0ccb5d2e-69f1-4354-a3e0-cb370221cd95",{"tags":35,"relatedLang":36,"relatedPosts":40},[],{"id":15,"slug":37,"title":38,"language":39},"diffusiongemma-runs-fast-on-nvidia-rtx-dgx-en","DiffusionGemma runs fast on NVIDIA RTX and DGX","en",[41,47,53,59,65,71],{"id":42,"slug":43,"title":44,"cover_image":45,"image_url":45,"created_at":46,"category":13},"186b266a-5b45-4bd4-85a4-5fa62fcc50dc","google-openrl-llm-fine-tuning-kubernetes-zh","Google OpenRL 把 RL 細調搬上 Kubernetes","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782572576166-gzxw.png","2026-06-27T15:02:27.036919+00:00",{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"1f01e408-91a8-4d9b-839d-57e751bd646f","glm-52-beats-gpt-55-coding-benchmarks-zh","GLM-5.2 用更低成本打贏 GPT-5.5","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782564470376-xtcx.png","2026-06-27T12:47:27.330349+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"611bdb86-e048-42b1-8bc5-c1adbd7fdcd9","openai-gpt-56-rollout-us-request-zh","OpenAI 收緊 GPT-5.6 上線節奏","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782555471713-w9pw.png","2026-06-27T10:17:28.515168+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"a5eb3216-fbe6-49cd-b61c-12106c736ac9","ubuntu-2610-snapshot-2-gnome-50-kernel-70-zh","Ubuntu 26.10 Snapshot 2 進入測試期","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782536575342-rok4.png","2026-06-27T05:02:30.419181+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"b4235bcf-4a42-4316-9b4c-2c32107a19f8","claude-fable-5-mythos-5-launch-1m-context-pricing-zh","Claude Fable 5 上線：1M 上下文、$10\u002F$50","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782518557709-jnuk.png","2026-06-27T00:02:12.917031+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"c1054826-22d4-45cb-b7e4-31b4c2e1240c","google-gemini-35-pro-july-release-delay-zh","Google 把 Gemini 3.5 Pro 延到 7 月","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782439370656-kj28.png","2026-06-26T02:02:27.975622+00:00",[78,83,88,93,98,103,108,113,118,123],{"id":79,"slug":80,"title":81,"created_at":82},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":84,"slug":85,"title":86,"created_at":87},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]