[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-cuda-toolkit-13-3-fixes-nested-divergence-bug-zh":3,"article-related-cuda-toolkit-13-3-fixes-nested-divergence-bug-zh":34,"series-research-5431a65e-76da-4a2a-96c5-73a6a7635903":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":30,"created_at":31,"published_at":32,"topic_cluster_id":33},"5431a65e-76da-4a2a-96c5-73a6a7635903","cuda-toolkit-13-3-fixes-nested-divergence-bug-zh","CUDA 13.3 修掉巢狀分歧編譯錯誤","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fcuda\">CUDA\u003C\u002Fa> Toolkit 13.3 修掉一個從 12.8 就存在的編譯器錯誤，這個 bug 會在巢狀分歧的 \u003Ca href=\"\u002Ftag\u002Fgpu\">GPU\u003C\u002Fa> kernel 裡弄壞暫存器值。\u003C\u002Fp>\u003Cp>說真的，這種 bug 很煩。程式不一定當掉，但答案可能錯。對做 GPU 軟體的人來說，這比 crash 更難抓。\u003C\u002Fp>\u003Cp>\u003Ca href=\"\u002Ftag\u002Fnvidia\">NVIDIA\u003C\u002Fa> 的 \u003Ca href=\"https:\u002F\u002Fdocs.nvidia.com\u002Fcuda\u002Fcuda-toolkit-release-notes\u002Findex.html\" target=\"_blank\" rel=\"noopener\">CUDA Toolkit 13.3 release notes\u003C\u002Fa> 直接點出這個修正。它不是那種看起來很炫的版本號更新，但它碰到的是正確性問題。\u003C\u002Fp>\u003Cp>這次更新還整理了工具鏈版本、驅動需求，還補了 Windows 的 ETW 支援。講白了，13.3 比較像維護版，但裡面有一個你真的該在意的修補。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>釋出版本\u003C\u002Ftd>\u003Ctd>CUDA Toolkit 13.3\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>錯誤首次出現\u003C\u002Ftd>\u003Ctd>CUDA 12.8\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>CUDA 13.x 最低驅動\u003C\u002Ftd>\u003Ctd>580 或更新\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Windows 驅動綁定\u003C\u002Ftd>\u003Ctd>從 CUDA 13.1 起移除\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Windows 新診斷\u003C\u002Ftd>\u003Ctd>ETW 支援 CUDA driver activity\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>這個修正為什麼很重要\u003C\u002Fh2>\u003Cp>這次修掉的是 compiler 插入的 thread reconvergence。NVIDIA 說，問題只會出現在兩層以上的 nested divergence。還要剛好碰到 compiler 省掉 convergence instructions。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782676982948-afr9.png\" alt=\"CUDA 13.3 修掉巢狀分歧編譯錯誤\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>你可能會想，這聽起來很少見。可是在 GPU 世界，這種分支其實很常見。像 ray tracing、稀疏運算、非規則資料處理，還有很多控制流很重的 kernel，都會走到這種路。\u003C\u002Fp>\u003Cp>最麻煩的是，這類錯誤不一定報錯。它可能只是留下舊的 register 值，或把值弄壞。結果就是算出錯答案，而且很難重現。\u003C\u002Fp>\u003Cul>\u003Cli>問題從 CUDA 12.8 就存在。\u003C\u002Fli>\u003Cli>只影響巢狀 thread divergence 的 kernel。\u003C\u002Fli>\u003Cli>可能產生錯誤輸出，不一定會 crash。\u003C\u002Fli>\u003Cli>是否出錯，和 compiler 怎麼處理 convergence 有關。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>13.3 還改了哪些地方\u003C\u002Fh2>\u003Cp>CUDA 13.3 也反映了 NVIDIA 近年的工具鏈切分方式。現在很多元件都有自己的版本號，不再是整包一起走。這對維護者來說很實際，但也更容易看花眼。\u003C\u002Fp>\u003Cp>像 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-toolkit\" target=\"_blank\" rel=\"noopener\">CUDA Toolkit\u003C\u002Fa> 裡的 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-toolkit\" target=\"_blank\" rel=\"noopener\">NVCC\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-toolkit\" target=\"_blank\" rel=\"noopener\">NVRTC\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-toolkit\" target=\"_blank\" rel=\"noopener\">CUPTI\u003C\u002Fa> 和 runtime，都有各自版本。這代表你在 pin build、比對 profiling 結果、或排查環境不一致時，得看更細。\u003C\u002Fp>\u003Cp>官方列出的數字也很明確。CUDA Runtime 是 13.3.29，NVCC 是 13.3.33，CUPTI 是 13.3.35，文件則是 13.3.40。這些版本號看起來瑣碎，但實務上很有用。\u003C\u002Fp>\u003Cul>\u003Cli>CUDA Runtime：13.3.29\u003C\u002Fli>\u003Cli>NVCC：13.3.33\u003C\u002Fli>\u003Cli>CUPTI：13.3.35\u003C\u002Fli>\u003Cli>CUDA Documentation：13.3.40\u003C\u002Fli>\u003C\u002Ful>\u003Cp>另外，CUDA 13.x 的最低驅動需求是 580 或更新。NVIDIA 也重申相容規則，意思是新驅動通常能跑舊工具鏈建出的程式。\u003C\u002Fp>\u003Cblockquote>\u003Cp>“CUDA is a parallel computing platform and programming model developed by NVIDIA for general computing on GPUs.”\u003C\u002Fp>\u003Ccite>NVIDIA CUDA documentation\u003C\u002Fcite>\u003C\u002Fblockquote>\u003Ch2>Windows 驅動政策更麻煩了\u003C\u002Fh2>\u003Cp>CUDA 以前會順手包一份 display driver。對開發環境來說很方便，但官方早就不建議把它當 production 用，尤其是 Tesla GPU 場景。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782676986652-sz4a.png\" alt=\"CUDA 13.3 修掉巢狀分歧編譯錯誤\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>從 CUDA 13.1 開始，Windows 版更直接。工具包不再綁 driver。你要自己去 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fdrivers\" target=\"_blank\" rel=\"noopener\">NVIDIA driver downloads\u003C\u002Fa> 下載安裝。Linux 則還能透過避免 driver \u003Ca href=\"\u002Ftag\u002Fmeta\">meta\u003C\u002Fa> packages 來跳過這一步。\u003C\u002Fp>\u003Cp>這種改動很容易害到自動化。CI image、\u003Ca href=\"\u002Fnews\u002Fcodex-app-april-upgrade-agent-work-units-zh\">工作\u003C\u002Fa>站腳本、實驗室機器，如果還假設安裝 toolkit 就會帶 driver，13.3 就會讓你踩雷。官方也把人導去 \u003Ca href=\"https:\u002F\u002Fdocs.nvidia.com\u002Fdeploy\u002Fcuda-compatibility\u002Findex.html\" target=\"_blank\" rel=\"noopener\">CUDA Compatibility Guide for Drivers\u003C\u002Fa> 看細節。\u003C\u002Fp>\u003Cul>\u003Cli>Windows 不再內建 display driver。\u003C\u002Fli>\u003Cli>Linux 仍可透過安裝選項避開 driver。\u003C\u002Fli>\u003Cli>Production 環境更需要自己管版本。\u003C\u002Fli>\u003Cli>自動化腳本要重新檢查假設。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>ETW 支援對 Windows 團隊有用\u003C\u002Fh2>\u003Cp>CUDA 13.3 新增了 Event Tracing for Windows，簡稱 ETW，支援 CUDA driver activity reporting。ETW 是 Windows 內建的追蹤系統，很多系統管理和效能分析都會用。\u003C\u002Fp>\u003Cp>這個功能聽起來不花俏，但很實用。你可以更容易看 driver 在做什麼，也比較好追 launch latency、卡頓、或系統層級的互動問題。\u003C\u002Fp>\u003Cp>如果你在企業 Windows 環境做 GPU 軟體，這種低開銷的可觀測性很重要。很多時候，瓶頸不是 kernel 本身，而是整個 stack 的互動。\u003C\u002Fp>\u003Cul>\u003Cli>ETW 提供低開銷追蹤。\u003C\u002Fli>\u003Cli>更容易看 driver activity。\u003C\u002Fli>\u003Cli>適合 debug 和效能分析。\u003C\u002Fli>\u003Cli>對 Windows 企業環境特別有用。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>跟 13.x 其他版本比起來怎樣\u003C\u002Fh2>\u003Cp>跟整個 13.x 系列比，13.3 很像整理版。它沒有那種大張旗鼓的新\u003Ca href=\"\u002Fnews\u002Fus-model-curbs-security-deals-not-bans-zh\">模型\u003C\u002Fa>或新 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa>，但它把工具鏈、驅動規則、診斷能力都再收斂一次。\u003C\u002Fp>\u003Cp>如果你看 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcublas\" target=\"_blank\" rel=\"noopener\">cuBLAS\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcufft\" target=\"_blank\" rel=\"noopener\">cuFFT\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcusparse\" target=\"_blank\" rel=\"noopener\">cuSPARSE\u003C\u002Fa> 這些庫，就會知道 CUDA 生態一直是大拼盤。工具、庫、runtime、profiling，每個東西都可能單獨變動。\u003C\u002Fp>\u003Cp>所以版本比較不能只看「13.3 比 13.2 新」。你要看的是，這次有沒有碰到你的 kernel 型態、你的部署流程、還有你的驅動假設。\u003C\u002Fp>\u003Cul>\u003Cli>CUDA 13.x 需要 580 以上驅動。\u003C\u002Fli>\u003Cli>CUDA 13.1 起，Windows 不再綁 driver。\u003C\u002Fli>\u003Cli>13.3 更新了 compiler、runtime、profiling、文件。\u003C\u002Fli>\u003Cli>修正的 bug 起源於 12.8。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果你的 kernel 分支很多，13.3 值得先測。最好拿同一份工作負載跑 baseline，比對輸出，再看有沒有深層 divergence 的路徑。\u003C\u002Fp>\u003Cp>我覺得這次最該記住的，不是版本號，而是 compiler 真的會影響 GPU 程式正確性。這種問題平常看不出來，一旦進 production，就很難看。\u003C\u002Fp>\u003Ch2>先把它當成正確性修補\u003C\u002Fh2>\u003Cp>如果你的 GPU 程式有大量分支，13.3 不該只當一般升版。先驗證輸出，再驗證效能，最後才談部署。\u003C\u002Fp>\u003Cp>我會建議先做三件事。第一，跑舊資料和新資料。第二，盯住 nested divergence 的 kernel。第三，確認 Windows 與 Linux 的 driver 安裝流程都還對。\u003C\u002Fp>\u003Cp>講白了，這版不是來秀功能的。它是來修一個會讓你算錯的編譯器問題。對做 production 的\u003Ca href=\"\u002Fnews\u002Fkrea-2-two-second-image-generation-teams-zh\">團隊\u003C\u002Fa>，這種更新比表面上的大版本更值得看。\u003C\u002Fp>\u003Cp>你如果已經在用 12.8 或 13.x，現在就該安排一次回歸測試。別等到客戶回報答案怪怪的，才回頭翻 release notes。\u003C\u002Fp>","CUDA Toolkit 13.3 修掉一個從 12.8 就存在的編譯器錯誤。這個 bug 會在巢狀分歧的 GPU kernel 裡弄壞暫存器值，結果可能是算錯，不是當掉。","docs.nvidia.com","https:\u002F\u002Fdocs.nvidia.com\u002Fcuda\u002Fcuda-toolkit-release-notes\u002Findex.html",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782676982948-afr9.png","research","zh","cc337b93-2825-4fcc-a5af-77d41470616c",[17,18,19,20,21,22,23,24],"CUDA","CUDA Toolkit 13.3","NVIDIA","GPU 編譯器","nested divergence","register corruption","ETW","Windows driver",[26,27,28,29],"CUDA Toolkit 13.3 修掉一個從 12.8 延續下來的編譯器錯誤。","這個 bug 只在巢狀分歧的 GPU kernel 裡出現，可能讓結果算錯。","13.3 也更新了 driver 規則、元件版本，還加了 Windows ETW 支援。","有深層分支的 GPU 程式，應該先做回歸測試再上線。",0,"2026-06-28T20:02:39.341994+00:00","2026-06-28T20:02:39.335+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":35,"relatedLang":41,"relatedPosts":45},[36,39],{"name":37,"slug":38},"Nvidia","nvidia",{"name":17,"slug":40},"cuda",{"id":15,"slug":42,"title":43,"language":44},"cuda-toolkit-13-3-fixes-nested-divergence-bug-en","CUDA Toolkit 13.3 fixes a nested-divergence bug","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"37acb4f1-36aa-4cbd-8c2f-0733c39a074f","eagle3-real-speedup-kimi-k25-mi325x-zh","EAGLE3 才是 Kimi-K2.5 在 MI325X 上真正的加速器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782640968852-4e46.png","2026-06-28T10:02:26.13691+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"7c4c30b3-b2a8-48a7-b2ea-96c40c16ae19","llm-fine-tuning-turns-generic-models-into-domain-tools-zh","LLM 微調把通用模型變專用工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782569910494-nhtn.png","2026-06-27T14:17:56.614064+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"cd8b1802-2094-4f5c-89a9-230680124777","mistral-ocr-4-document-ai-structure-zh","Mistral OCR 4 把文件變結構化資料","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782468184906-6p2v.png","2026-06-26T10:02:37.422252+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"a90ab5b6-f647-4cef-85af-35ff7bb21a93","autoregressive-boltzmann-generators-ditch-flows-zh","ArBG 改用自回歸做分子採樣","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782455577323-vrvt.png","2026-06-26T06:32:30.056363+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"93b19c63-dbfd-4277-92b5-b5a60946fd65","river-llm-reinforcement-learning-without-answers-zh","RiVER 讓 LLM 不靠標準答案也能學","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782454671897-i8l3.png","2026-06-26T06:17:26.979468+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"cd38b72e-b309-493d-b36f-684745ff5f7e","danceopd-on-policy-generative-field-distillation-zh","DanceOPD：把修圖技能蒸餾進同一模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782453784592-x1gk.png","2026-06-26T06:02:33.123618+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]