[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-cuda":3},{"tag":4,"articles":11,"peer_article_count":8},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":10},"603dae7f-ab7d-4827-a3cb-4abe85e1f058","CUDA","cuda",15,"CUDA 是 NVIDIA GPU 的平行運算平台與程式模型，核心在 SM、warp、shared memory、HBM 延遲隱藏與資料搬移優化。它直接影響 AI 訓練、推論、科學模擬與高效能計算的效能上限。","CUDA is NVIDIA’s parallel computing platform and programming model, centered on SMs, warps, shared memory, and latency hiding with HBM. It shapes performance in AI training, inference, scientific simulation, and other GPU-heavy workloads.",[12,21,29,37,44,51,58,65,72,79,86,93,100,107,114,121,128],{"id":13,"slug":14,"title":15,"summary":16,"category":17,"image_url":18,"cover_image":18,"language":19,"created_at":20},"5431a65e-76da-4a2a-96c5-73a6a7635903","cuda-toolkit-13-3-fixes-nested-divergence-bug-zh","CUDA 13.3 修掉巢狀分歧編譯錯誤","CUDA Toolkit 13.3 修掉一個從 12.8 就存在的編譯器錯誤。這個 bug 會在巢狀分歧的 GPU kernel 裡弄壞暫存器值，結果可能是算錯，不是當掉。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782676982948-afr9.png","zh","2026-06-28T20:02:39.341994+00:00",{"id":22,"slug":23,"title":24,"summary":25,"category":26,"image_url":27,"cover_image":27,"language":19,"created_at":28},"2e203494-f4aa-42c6-8992-bcd6085ac98a","qualcomm-soft-hard-escape-cuda-zh","Qualcomm 用軟硬整合拆 CUDA","我把 Qualcomm 的 140 億美元布局拆成一個可抄的模板：先買編譯器與 runtime，再補 RISC-V 晶片，目標不是拼規格，而是降低 CUDA 轉移成本。","industry","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782447518109-bu5c.png","2026-06-26T04:18:12.471189+00:00",{"id":30,"slug":31,"title":32,"summary":33,"category":34,"image_url":35,"cover_image":35,"language":19,"created_at":36},"07c518b2-227f-40d6-9990-04018ef74448","cccl-runtime-makes-cuda-safer-by-making-state-explicit-zh","CCCL Runtime 不是包裝層，是把 CUDA 隱性狀態改成顯性契約","我認為 CCCL Runtime 對 CUDA 的最大價值，不是語法更新，而是把 stream、記憶體與 launch 的隱性狀態改成顯性、可型別化的契約，這會直接降低錯誤率並改善可維護性。","tools","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782364674604-o7eb.png","2026-06-25T05:17:25.530308+00:00",{"id":38,"slug":39,"title":40,"summary":41,"category":26,"image_url":42,"cover_image":42,"language":19,"created_at":43},"ea668a4b-6eb2-4ca6-b530-9db553d7ad50","rocm-vs-cuda-gpu-computing-comparison-zh","ROCm vs CUDA：GPU 運算比較","ROCm 與 CUDA 的差別，主要在於 ROCm 用較低硬體成本與開放性換取 CUDA 的成熟生態、較高相容性與通常更快的效能。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781439491310-tev6.png","2026-06-14T12:17:35.502608+00:00",{"id":45,"slug":46,"title":47,"summary":48,"category":34,"image_url":49,"cover_image":49,"language":19,"created_at":50},"dd0deb29-30f9-47af-91a1-dc966fff3fa2","cuda-oxide-rust-ptx-kernels-zh","cuda-oxide 把 Rust 變成 PTX 核心","我拆 cuda-oxide 的 Rust 轉 PTX 做法，最後給你一份可直接改的 GPU Rust 模板。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781110154542-ttd2.png","2026-06-10T16:48:43.64696+00:00",{"id":52,"slug":53,"title":54,"summary":55,"category":34,"image_url":56,"cover_image":56,"language":19,"created_at":57},"279c8306-f41d-4bcc-a87a-2d3c0a905d39","gpu-programming-core-software-skill-zh","GPU 編程正在成為核心軟體技能","GPU 編程不該再被視為圖形學旁支，它正在變成現代軟體工程的核心技能，因為大量資料並行運算已經是主流工作負載。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781109180204-axgz.png","2026-06-10T16:32:18.403171+00:00",{"id":59,"slug":60,"title":61,"summary":62,"category":34,"image_url":63,"cover_image":63,"language":19,"created_at":64},"1a92ac0a-75ea-4877-874d-4a309cd0085b","nvidia-research-gpu-template-zh","NVIDIA 研究頁把 GPU 資源變模板","我把 NVIDIA Research 拆成可直接套用的頁面模板，教你怎麼把研究、工具、平台和產品分層，讓開發者快速找到 GPU 資源。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780567412863-e8oq.png","2026-06-04T10:02:58.043845+00:00",{"id":66,"slug":67,"title":68,"summary":69,"category":34,"image_url":70,"cover_image":70,"language":19,"created_at":71},"6a68ec02-df15-4ef4-8cdd-7fbcf23d2f3b","how-to-run-and-fine-tune-llms-with-unsloth-zh","怎麼用 Unsloth 跑與微調 LLM","這篇教你用 Unsloth 先完成本機 LLM 載入，再做 LoRA 微調與最小可行訓練驗證。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779671157661-sl8g.png","2026-05-25T01:05:27.703266+00:00",{"id":73,"slug":74,"title":75,"summary":76,"category":26,"image_url":77,"cover_image":77,"language":19,"created_at":78},"f4b4e09c-ceb1-4360-9348-14592b076771","nvidia-full-ai-stack-website-overview-zh","NVIDIA 官網把 AI 堆疊攤開來看","NVIDIA 官網把 AI、資料中心、遊戲、機器人和車用產品放在同一頁，直接展示它的完整軟硬體堆疊。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779427581645-wl45.png","2026-05-22T05:25:43.52031+00:00",{"id":80,"slug":81,"title":82,"summary":83,"category":34,"image_url":84,"cover_image":84,"language":19,"created_at":85},"f9efd9e5-c8e9-4cb1-9f30-443cbdb4d845","cuda-architecture-sms-cores-memory-zh","CUDA 架構怎麼跑：SM、核心、記憶體","CUDA GPU 把工作拆給 SM、數千個核心和分層記憶體。這篇用台灣開發者看得懂的方式，拆開它為何特別適合平行運算。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775197313894-6e3x.png","2026-04-03T06:21:37.918394+00:00",{"id":87,"slug":88,"title":89,"summary":90,"category":34,"image_url":91,"cover_image":91,"language":19,"created_at":92},"65281366-d5a8-4cae-b397-5c0b839f3e01","nvidia-forum-su7-cuda-lattice-engine-zh","NVIDIA 論壇聊 SU(7) CUDA 晶格引擎","NVIDIA Developer Forums 一篇貼文把 7×7×7 晶格、shared memory、warp 與 bank conflict 放在一起談。重點不是 SU(7) 名字多炫，而是 CUDA 真的吃不吃這套。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775178415223-azaq.png","2026-04-03T01:06:28.438192+00:00",{"id":94,"slug":95,"title":96,"summary":97,"category":17,"image_url":98,"cover_image":98,"language":19,"created_at":99},"d458f7db-1e28-4cf1-9bd8-ad9c95dee997","cuda-cp-async-ampere-hbm-latency-zh","Ampere 的 cp.async 怎麼藏 HBM 延遲","A100 上一次 HBM2e 載入約要 450 到 600 cycles。Ampere 的 cp.async 讓資料直進 shared memory，搭配 pipeline 把等待時間藏進計算裡。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775167621432-n9fo.png","2026-04-02T22:06:36.022671+00:00",{"id":101,"slug":102,"title":103,"summary":104,"category":26,"image_url":105,"cover_image":105,"language":19,"created_at":106},"327cb21a-e255-4225-93de-fa6369880bb0","will-nvidia-stock-recover-after-deepseek-zh","DeepSeek 之後，NVIDIA 股價會回來嗎","DeepSeek 讓市場重新算 AI 成本，但 NVIDIA 仍握有 GPU、CUDA 與資料中心供應鏈。本文用數字、競品與產業脈絡，拆解股價能否回升。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775161858604-gxgw.png","2026-04-02T20:30:36.102518+00:00",{"id":108,"slug":109,"title":110,"summary":111,"category":34,"image_url":112,"cover_image":112,"language":19,"created_at":113},"e97caa94-b5de-452f-ae23-ac5c2b2854b3","cuda-in-2025-why-gpus-still-win-zh","2025 年 CUDA 為何還是強","CUDA 已經 18 年，卻仍是 NVIDIA GPU 的核心軟體堆疊。從 AI 訓練、氣象模擬到蛋白質計算，這套工具鏈為何還是開發者首選？","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775149438491-u7kw.png","2026-04-02T17:03:37.713589+00:00",{"id":115,"slug":116,"title":117,"summary":118,"category":34,"image_url":119,"cover_image":119,"language":19,"created_at":120},"d233c90c-e7d8-418d-a8dc-f76080f1b968","turboquant-fast-cold-starts-rust-gpu-zh","TurboQuant、冷啟動與 GPU Rust","TurboQuant 把 KV cache 壓到 4.6 倍，GPU state restore 盯上 32B 模型冷啟動，Rust 也更深入 CUDA 開發。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775146380823-5d5u.png","2026-04-02T16:12:38.23896+00:00",{"id":122,"slug":123,"title":124,"summary":125,"category":34,"image_url":126,"cover_image":126,"language":19,"created_at":127},"83e2a967-1919-4771-857f-37fb8d4cfd00","cuda-asinf-accuracy-no-performance-hit-zh","CUDA asinf() 更準，速度沒掉","NVIDIA Developer Forums 上有人替 CUDA 12.8 的 asinf() 做精度優化，指令數仍維持 26 條。這篇看它怎麼在 GPU 數學裡，硬拚準度與效能。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775142948311-udy5.png","2026-04-02T15:15:32.933149+00:00",{"id":129,"slug":130,"title":131,"summary":132,"category":26,"image_url":133,"cover_image":133,"language":19,"created_at":134},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","NVIDIA 在 GTC 2026 一口氣端出 1,000 場 session、2,000 位講者，還把 AI 工廠、推論基礎設施、Agent 平台與實體 AI 全部綁成一套銷售方案。這場大會重點不是單一 GPU，而是從晶片到軟體的整包系統。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774516049779-pr7v.png","2026-03-26T07:14:26.62638+00:00"]