返回首頁

標籤

CUDA

CUDA 是 NVIDIA GPU 的平行運算平台與程式模型,核心在 SM、warp、shared memory、HBM 延遲隱藏與資料搬移優化。它直接影響 AI 訓練、推論、科學模擬與高效能計算的效能上限。

17 篇文章

CUDA 13.3 修掉巢狀分歧編譯錯誤
技術研究/6月29日

CUDA 13.3 修掉巢狀分歧編譯錯誤

CUDA Toolkit 13.3 修掉一個從 12.8 就存在的編譯器錯誤。這個 bug 會在巢狀分歧的 GPU kernel 裡弄壞暫存器值,結果可能是算錯,不是當掉。

Qualcomm 用軟硬整合拆 CUDA
產業動態/6月26日

Qualcomm 用軟硬整合拆 CUDA

我把 Qualcomm 的 140 億美元布局拆成一個可抄的模板:先買編譯器與 runtime,再補 RISC-V 晶片,目標不是拼規格,而是降低 CUDA 轉移成本。

CCCL Runtime 不是包裝層,是把 CUDA 隱性狀態改成顯性契約
工具應用/6月25日

CCCL Runtime 不是包裝層,是把 CUDA 隱性狀態改成顯性契約

我認為 CCCL Runtime 對 CUDA 的最大價值,不是語法更新,而是把 stream、記憶體與 launch 的隱性狀態改成顯性、可型別化的契約,這會直接降低錯誤率並改善可維護性。

ROCm vs CUDA:GPU 運算比較
產業動態/6月14日

ROCm vs CUDA:GPU 運算比較

ROCm 與 CUDA 的差別,主要在於 ROCm 用較低硬體成本與開放性換取 CUDA 的成熟生態、較高相容性與通常更快的效能。

cuda-oxide 把 Rust 變成 PTX 核心
工具應用/6月11日

cuda-oxide 把 Rust 變成 PTX 核心

我拆 cuda-oxide 的 Rust 轉 PTX 做法,最後給你一份可直接改的 GPU Rust 模板。

GPU 編程正在成為核心軟體技能
工具應用/6月11日

GPU 編程正在成為核心軟體技能

GPU 編程不該再被視為圖形學旁支,它正在變成現代軟體工程的核心技能,因為大量資料並行運算已經是主流工作負載。

NVIDIA 研究頁把 GPU 資源變模板
工具應用/6月4日

NVIDIA 研究頁把 GPU 資源變模板

我把 NVIDIA Research 拆成可直接套用的頁面模板,教你怎麼把研究、工具、平台和產品分層,讓開發者快速找到 GPU 資源。

怎麼用 Unsloth 跑與微調 LLM
工具應用/5月25日

怎麼用 Unsloth 跑與微調 LLM

這篇教你用 Unsloth 先完成本機 LLM 載入,再做 LoRA 微調與最小可行訓練驗證。

NVIDIA 官網把 AI 堆疊攤開來看
產業動態/5月22日

NVIDIA 官網把 AI 堆疊攤開來看

NVIDIA 官網把 AI、資料中心、遊戲、機器人和車用產品放在同一頁,直接展示它的完整軟硬體堆疊。

CUDA 架構怎麼跑:SM、核心、記憶體
工具應用/4月3日

CUDA 架構怎麼跑:SM、核心、記憶體

CUDA GPU 把工作拆給 SM、數千個核心和分層記憶體。這篇用台灣開發者看得懂的方式,拆開它為何特別適合平行運算。

NVIDIA 論壇聊 SU(7) CUDA 晶格引擎
工具應用/4月3日

NVIDIA 論壇聊 SU(7) CUDA 晶格引擎

NVIDIA Developer Forums 一篇貼文把 7×7×7 晶格、shared memory、warp 與 bank conflict 放在一起談。重點不是 SU(7) 名字多炫,而是 CUDA 真的吃不吃這套。

Ampere 的 cp.async 怎麼藏 HBM 延遲
技術研究/4月3日

Ampere 的 cp.async 怎麼藏 HBM 延遲

A100 上一次 HBM2e 載入約要 450 到 600 cycles。Ampere 的 cp.async 讓資料直進 shared memory,搭配 pipeline 把等待時間藏進計算裡。

DeepSeek 之後,NVIDIA 股價會回來嗎
產業動態/4月3日

DeepSeek 之後,NVIDIA 股價會回來嗎

DeepSeek 讓市場重新算 AI 成本,但 NVIDIA 仍握有 GPU、CUDA 與資料中心供應鏈。本文用數字、競品與產業脈絡,拆解股價能否回升。

2025 年 CUDA 為何還是強
工具應用/4月3日

2025 年 CUDA 為何還是強

CUDA 已經 18 年,卻仍是 NVIDIA GPU 的核心軟體堆疊。從 AI 訓練、氣象模擬到蛋白質計算,這套工具鏈為何還是開發者首選?

TurboQuant、冷啟動與 GPU Rust
工具應用/4月3日

TurboQuant、冷啟動與 GPU Rust

TurboQuant 把 KV cache 壓到 4.6 倍,GPU state restore 盯上 32B 模型冷啟動,Rust 也更深入 CUDA 開發。

CUDA asinf() 更準,速度沒掉
工具應用/4月2日

CUDA asinf() 更準,速度沒掉

NVIDIA Developer Forums 上有人替 CUDA 12.8 的 asinf() 做精度優化,指令數仍維持 26 條。這篇看它怎麼在 GPU 數學裡,硬拚準度與效能。

NVIDIA GTC 2026 重點拆解
產業動態/3月26日

NVIDIA GTC 2026 重點拆解

NVIDIA 在 GTC 2026 一口氣端出 1,000 場 session、2,000 位講者,還把 AI 工廠、推論基礎設施、Agent 平台與實體 AI 全部綁成一套銷售方案。這場大會重點不是單一 GPU,而是從晶片到軟體的整包系統。