標籤

CUDA

CUDA 是 NVIDIA GPU 的平行運算平台與程式模型，核心在 SM、warp、shared memory、HBM 延遲隱藏與資料搬移優化。它直接影響 AI 訓練、推論、科學模擬與高效能計算的效能上限。

17 篇文章

技術研究/6月29日

CUDA 13.3 修掉巢狀分歧編譯錯誤

CUDA Toolkit 13.3 修掉一個從 12.8 就存在的編譯器錯誤。這個 bug 會在巢狀分歧的 GPU kernel 裡弄壞暫存器值，結果可能是算錯，不是當掉。

產業動態/6月26日

Qualcomm 用軟硬整合拆 CUDA

我把 Qualcomm 的 140 億美元布局拆成一個可抄的模板：先買編譯器與 runtime，再補 RISC-V 晶片，目標不是拼規格，而是降低 CUDA 轉移成本。

工具應用/6月25日

CCCL Runtime 不是包裝層，是把 CUDA 隱性狀態改成顯性契約

我認為 CCCL Runtime 對 CUDA 的最大價值，不是語法更新，而是把 stream、記憶體與 launch 的隱性狀態改成顯性、可型別化的契約，這會直接降低錯誤率並改善可維護性。

產業動態/6月14日

ROCm vs CUDA：GPU 運算比較

ROCm 與 CUDA 的差別，主要在於 ROCm 用較低硬體成本與開放性換取 CUDA 的成熟生態、較高相容性與通常更快的效能。

工具應用/6月11日

cuda-oxide 把 Rust 變成 PTX 核心

我拆 cuda-oxide 的 Rust 轉 PTX 做法，最後給你一份可直接改的 GPU Rust 模板。

工具應用/6月11日

GPU 編程正在成為核心軟體技能

GPU 編程不該再被視為圖形學旁支，它正在變成現代軟體工程的核心技能，因為大量資料並行運算已經是主流工作負載。

工具應用/6月4日

NVIDIA 研究頁把 GPU 資源變模板

我把 NVIDIA Research 拆成可直接套用的頁面模板，教你怎麼把研究、工具、平台和產品分層，讓開發者快速找到 GPU 資源。

工具應用/5月25日

怎麼用 Unsloth 跑與微調 LLM

這篇教你用 Unsloth 先完成本機 LLM 載入，再做 LoRA 微調與最小可行訓練驗證。

產業動態/5月22日

NVIDIA 官網把 AI 堆疊攤開來看

NVIDIA 官網把 AI、資料中心、遊戲、機器人和車用產品放在同一頁，直接展示它的完整軟硬體堆疊。

工具應用/4月3日

CUDA 架構怎麼跑：SM、核心、記憶體

CUDA GPU 把工作拆給 SM、數千個核心和分層記憶體。這篇用台灣開發者看得懂的方式，拆開它為何特別適合平行運算。

工具應用/4月3日

NVIDIA 論壇聊 SU(7) CUDA 晶格引擎

NVIDIA Developer Forums 一篇貼文把 7×7×7 晶格、shared memory、warp 與 bank conflict 放在一起談。重點不是 SU(7) 名字多炫，而是 CUDA 真的吃不吃這套。

技術研究/4月3日

Ampere 的 cp.async 怎麼藏 HBM 延遲

A100 上一次 HBM2e 載入約要 450 到 600 cycles。Ampere 的 cp.async 讓資料直進 shared memory，搭配 pipeline 把等待時間藏進計算裡。

產業動態/4月3日

DeepSeek 之後，NVIDIA 股價會回來嗎

DeepSeek 讓市場重新算 AI 成本，但 NVIDIA 仍握有 GPU、CUDA 與資料中心供應鏈。本文用數字、競品與產業脈絡，拆解股價能否回升。

工具應用/4月3日

2025 年 CUDA 為何還是強

CUDA 已經 18 年，卻仍是 NVIDIA GPU 的核心軟體堆疊。從 AI 訓練、氣象模擬到蛋白質計算，這套工具鏈為何還是開發者首選？

工具應用/4月3日

TurboQuant、冷啟動與 GPU Rust

TurboQuant 把 KV cache 壓到 4.6 倍，GPU state restore 盯上 32B 模型冷啟動，Rust 也更深入 CUDA 開發。

工具應用/4月2日

CUDA asinf() 更準，速度沒掉

NVIDIA Developer Forums 上有人替 CUDA 12.8 的 asinf() 做精度優化，指令數仍維持 26 條。這篇看它怎麼在 GPU 數學裡，硬拚準度與效能。

產業動態/3月26日

NVIDIA GTC 2026 重點拆解

NVIDIA 在 GTC 2026 一口氣端出 1,000 場 session、2,000 位講者，還把 AI 工廠、推論基礎設施、Agent 平台與實體 AI 全部綁成一套銷售方案。這場大會重點不是單一 GPU，而是從晶片到軟體的整包系統。