[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-cuda-in-2025-why-gpus-still-win-zh":3,"article-related-cuda-in-2025-why-gpus-still-win-zh":30,"series-tools-e97caa94-b5de-452f-ae23-ac5c2b2854b3":88},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":11},"e97caa94-b5de-452f-ae23-ac5c2b2854b3","cuda-in-2025-why-gpus-still-win-zh","2025 年 CUDA 為何還是強","\u003Cp>CUDA 已經 18 年了，還是很有存在感。NVIDIA 曾提到，全球有數億顆 CUDA 相容 GPU 在跑。現代叢集也能把數萬個 GPU 核心丟進同一個工作負載。\u003C\u002Fp>\u003Cp>講白了，這就是為什麼它會出現在氣象模型、蛋白質模擬，還有 LLM 訓練裡。你如果看過一個任務，從幾小時縮到幾分鐘，八成就懂這種吸引力。\u003C\u002Fp>\u003Cp>CUDA 的重點不是新。它厲害的是，在 2025 年，它幾乎成了加速運算的預設答案。從 \u003Ca href=\"https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fdata-center\u002F\" target=\"_blank\" rel=\"noopener\">NVIDIA\u003C\u002Fa> 資料中心硬體，到 \u003Ca href=\"https:\u002F\u002Fpytorch.org\" target=\"_blank\" rel=\"noopener\">PyTorch\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fwww.tensorflow.org\" target=\"_blank\" rel=\"noopener\">TensorFlow\u003C\u002Fa> 內部的函式庫，都躲不掉它。\u003C\u002Fp>\u003Ch2>CUDA 怎麼走到今天\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-zone\" target=\"_blank\" rel=\"noopener\">CUDA\u003C\u002Fa> 在 2007 年公開。那時 NVIDIA 已經花了好幾年，把 GPU 從圖形晶片，改造成能直接寫程式的運算平台。更早以前，做通用 GPU 計算很麻煩。很多人只能硬拗 OpenGL 或 DirectX shader。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775149438491-u7kw.png\" alt=\"2025 年 CUDA 為何還是強\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>CUDA 直接給開發者一個比較正常的模型。你可以用 C 或 C++ 寫程式，再把 kernel 丟到 GPU 上跑。幾千個 thread 同時處理資料，這件事終於不必靠圖形 API 繞路。\u003C\u002Fp>\u003Cp>時間點也很剛好。2007 年的 CPU 還在進步，但核心數增加不夠快。科學運算後來的深度學習，也都嫌 CPU 不夠力。GPU 本來就擅長平行運算，CUDA 只是把這件事變得好用。\u003C\u002Fp>\u003Cul>\u003Cli>首次公開時間：2007 年\u003C\u002Fli>\u003Cli>早期支援硬體：GeForce 8 系列\u003C\u002Fli>\u003Cli>目前工具鏈：CUDA 13.0\u003C\u002Fli>\u003Cli>支援架構包含 Hopper 與 Blackwell\u003C\u002Fli>\u003C\u002Ful>\u003Cp>真正讓它黏住市場的，是 NVIDIA 一直更新工具鏈。不是發完就放生。你一旦開始依賴 CUDA 函式庫，搬家成本就很高。這點很現實，也很殘酷。\u003C\u002Fp>\u003Cp>很多團隊不是因為喜歡 CUDA，才用 CUDA。是因為整個專案、測試、部署流程，都已經長在這套堆疊上了。要換，得先付出一筆很痛的工程費。\u003C\u002Fp>\u003Ch2>CUDA 到底做了什麼\u003C\u002Fh2>\u003Cp>CUDA 是一種異質運算模型。CPU 是 host，GPU 是 device。工作會被拆開。CPU 負責排程和控制，GPU 負責那些能拆成很多小塊、一起跑的部分。\u003C\u002Fp>\u003Cp>最重要的單位是 kernel。它是一個在 GPU 上執行的函式。很多 thread 會一起跑它。thread 會組成 block，block 再組成 grid。這種結構很重要，因為它讓開發者能直接控制工作怎麼分配。\u003C\u002Fp>\u003Cp>記憶體也很關鍵。CUDA 有 global memory、sh\u003Ca href=\"\u002Fnews\u002Fmarginlab-claude-code-opus-46-tracker-zh\">ar\u003C\u002Fa>ed memory、constant memory、texture memory，還有 unified memory。global memory 容量大，但慢。shared memory 快很多，但只給同一個 block 用。unified memory 讓 CPU 和 GPU 看起來像共用一個位址空間，但它不會魔法般修好爛掉的存取模式。\u003C\u002Fp>\u003Cblockquote>“The GPU is a very different kind of processor than the CPU. It is optimized for throughput, not latency.” — Ian Buck\u003C\u002Fblockquote>\u003Cp>這句話很直白。GPU 不是拿來拚單一請求延遲。它是拿來拚吞吐量。你的工作如果夠平行，GPU 就很猛。你的工作如果很串行，那它幫不上太多。\u003C\u002Fp>\u003Cp>所以 CUDA 程式設計，某種程度上像性能解謎。你要讓資料搬得少一點。你要讓 memory access 夠整齊。你也要避免 warp 裡面分支太亂。這些都很吃功力。\u003C\u002Fp>\u003Ch2>CUDA 在真實世界怎麼贏\u003C\u002Fh2>\u003Cp>最能說服人的，不是簡報。是大家真的在用什麼。像 \u003Ca href=\"https:\u002F\u002Fwww.gromacs.org\" target=\"_blank\" rel=\"noopener\">GROMACS\u003C\u002Fa> 這類分子動力學工具，就用 CUDA 跑生物分子模擬。規模可以到上百萬顆粒子。這種工作 CPU 跑得動，但會慢很多。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775149440689-znfg.png\" alt=\"2025 年 CUDA 為何還是強\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>氣象預報也很吃 CUDA。像 \u003Ca href=\"https:\u002F\u002Fwww.mmm.ucar.edu\u002Fmodels\u002Fwrf\" target=\"_blank\" rel=\"noopener\">WRF\u003C\u002Fa> 這類模型，GPU 版在某些數值計算上可以到 10 倍速度提升。這不是小修小補。這是直接改變排程和算力成本。\u003C\u002Fp>\u003Cp>\u003Ca href=\"\u002Fnews\u002Fai-slop-flooding-streaming-services-musicians-fight-back-zh\">AI\u003C\u002Fa> 更不用說。訓練神經網路，本質上就是大量矩陣運算。\u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcublas\" target=\"_blank\" rel=\"noopener\">cuBLAS\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fdeveloper.nvidia.com\u002Fcudnn\" target=\"_blank\" rel=\"noopener\">cuDNN\u003C\u002Fa> 幫忙扛掉很多底層工作。你看到很多 deep learning 框架跑得快，背後常常就是這些庫在撐。\u003C\u002Fp>\u003Cul>\u003Cli>GROMACS 可用 CUDA 做大規模分子模擬\u003C\u002Fli>\u003Cli>WRF 的 GPU 版本可達 10 倍速度提升\u003C\u002Fli>\u003Cli>PyTorch 與 TensorFlow 都深度依賴 CUDA 生態\u003C\u002Fli>\u003Cli>Python 也能透過 \u003Ca href=\"https:\u002F\u002Fnumba.pydata.org\" target=\"_blank\" rel=\"noopener\">Numba\u003C\u002Fa> 與 \u003Ca href=\"https:\u002F\u002Fcupy.dev\" target=\"_blank\" rel=\"noopener\">CuPy\u003C\u002Fa> 進入 CUDA 世界\u003C\u002Fli>\u003C\u002Ful>\u003Cp>CUDA 也不只出現在 \u003Ca href=\"\u002Fnews\u002Fai-music-streaming-labels-lawsuits-zh\">AI\u003C\u002Fa> 新聞裡。金融團隊拿它做風險分析。基因體學管線用它跑序列工作。自駕系統也靠它處理即時感知。共同點很簡單，就是資料量大，而且答案不能拖太久。\u003C\u002Fp>\u003Cp>我覺得這才是 CUDA 最強的地方。它不是只服務某一種熱門應用。它是把很多高算力需求，變成可以工程化落地的工具。\u003C\u002Fp>\u003Ch2>CUDA 跟替代方案比什麼\u003C\u002Fh2>\u003Cp>CUDA 最大的優勢，是成熟。它的函式庫最完整。開發者最多。從原型到正式上線的路也最清楚。這點很現實，因為性能優化本來就很燒工時。\u003C\u002Fp>\u003Cp>但它不是唯一選項。\u003Ca href=\"https:\u002F\u002Fwww.khronos.org\u002Fopencl\u002F\" target=\"_blank\" rel=\"noopener\">OpenCL\u003C\u002Fa> 比較強調跨廠牌。\u003Ca href=\"https:\u002F\u002Fwww.intel.com\u002Fcontent\u002Fwww\u002Fus\u002Fen\u002Fdeveloper\u002Ftools\u002Foneapi\u002Foverview.html\" target=\"_blank\" rel=\"noopener\">Intel oneAPI\u003C\u002Fa> 主要對準 Intel 軟硬體堆疊。\u003Ca href=\"https:\u002F\u002Frocm.docs.amd.com\" target=\"_blank\" rel=\"noopener\">AMD ROCm\u003C\u002Fa> 則是 AMD 在 GPU 計算上的主力方案。\u003C\u002Fp>\u003Cp>差別很直接。你要更好的可攜性，通常就得接受更少成熟函式庫，或更多移植工作。你要最高機率拿到穩定效能，CUDA 還是很難繞開。\u003C\u002Fp>\u003Cul>\u003Cli>CUDA：NVIDIA GPU 上最完整，AI 生態最深\u003C\u002Fli>\u003Cli>OpenCL：跨廠牌，適合硬體不固定的團隊\u003C\u002Fli>\u003Cli>Intel oneAPI：適合 Intel 為主的 CPU\u002FGPU 混合環境\u003C\u002Fli>\u003Cli>AMD ROCm：AMD GPU 的主要路線，研究圈較常見\u003C\u002Fli>\u003C\u002Ful>\u003Cp>實務上，很多團隊根本不是在選信仰。是在選採購單。機房如果已經是 NVIDIA，CUDA 幾乎就是最省事的路。若是混合硬體，移植和維護就會變得很煩。\u003C\u002Fp>\u003Cp>還有一個很現實的詞，叫 lock-in。CUDA 會把你綁住。不是只有 API 綁住。還有教學、範例、函式庫、團隊習慣，全都會把人往同一條路推。\u003C\u002Fp>\u003Ch2>2025 年還要怎麼看 CUDA\u003C\u002Fh2>\u003Cp>CUDA 不會消失，但它的角色在變。現在最大的問題，不是它能不能跑。是 AI 和 HPC 會不會繼續綁死在 NVIDIA 的工具鏈上。更多廠商都在推自己的堆疊，更多團隊也開始在意可攜性。\u003C\u002Fp>\u003Cp>對開發者來說，答案其實很務實。你的工作如果是平行運算、記憶體密集，而且已經在 NVIDIA GPU 上，那 CUDA 還是最快的路。你要的是結果，不是辯論。\u003C\u002Fp>\u003Cp>如果你現在要做新平台策略，我會建議你先想清楚。你是要吃下 NVIDIA-first 的最佳化，還是要留一層抽象，讓未來比較好搬？這題沒有標準答案，但拖著不想，通常最貴。\u003C\u002Fp>\u003Cp>我的判斷是，接下來幾年 CUDA 還會主導高效能 AI 和科學運算。只是更多團隊會在上層包一層薄抽象，降低對單一硬體的依賴。你該問的不是 CUDA 還重不重要，而是你的程式要不要直接講 CUDA。\u003C\u002Fp>\u003Cp>如果你正在評估 GPU 軟體堆疊，可以再看我們對 \u003Ca href=\"\u002Fnews\u002Fwhat-llm-inference-actually-costs\" target=\"_self\">LLM inference 成本\u003C\u002Fa> 的整理。硬體選擇，真的會直接寫進你的預算裡。\u003C\u002Fp>\u003Ch2>結論：先看工作負載，再看工具\u003C\u002Fh2>\u003Cp>結論很簡單。先看你的工作是不是平行。再看資料是不是夠大。最後才看要不要用 CUDA。順序搞反，通常就會花冤枉錢。\u003C\u002Fp>\u003Cp>如果你的團隊已經在 NVIDIA 上跑 AI、模擬或影像處理，那 CUDA 仍然是很實際的選擇。反過來說，如果你從第一天就想保留跨硬體彈性，那就該從抽象層開始設計，而不是事後補救。\u003C\u002Fp>\u003Cp>我會押注一件事：接下來 2 到 3 年，CUDA 還是會很強。真正的變化，不是它會不會被取代，而是更多團隊會把它藏在更上層的框架後面。你如果現在要開新案，最好直接決定：你要跟 GPU 說話到多底層。\u003C\u002Fp>","CUDA 已經 18 年，卻仍是 NVIDIA GPU 的核心軟體堆疊。從 AI 訓練、氣象模擬到蛋白質計算，這套工具鏈為何還是開發者首選？","grokipedia.com","https:\u002F\u002Fgrokipedia.com\u002Fpage\u002FCUDA",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775149438491-u7kw.png","tools","zh","e05a606a-88b9-45cd-8c3e-7ad0b30b7b5d",[17,18,19,20,21,22,23,24,25,26],"CUDA","NVIDIA GPU","GPU 加速","AI 訓練","科學運算","PyTorch","TensorFlow","ROCm","OpenCL","LLM",13,"2026-04-02T17:03:37.713589+00:00","2026-04-02T17:03:37.567+00:00",{"tags":31,"relatedLang":47,"relatedPosts":51},[32,34,36,38,39,41,43,45],{"name":25,"slug":33},"opencl",{"name":17,"slug":35},"cuda",{"name":18,"slug":37},"nvidia-gpu",{"name":21,"slug":21},{"name":26,"slug":40},"llm",{"name":24,"slug":42},"rocm",{"name":22,"slug":44},"pytorch",{"name":23,"slug":46},"tensorflow",{"id":15,"slug":48,"title":49,"language":50},"cuda-in-2025-why-gpus-still-win-en","CUDA in 2025: Why GPUs Still Win","en",[52,58,64,70,76,82],{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"1a92ac0a-75ea-4877-874d-4a309cd0085b","nvidia-research-gpu-template-zh","NVIDIA 研究頁把 GPU 資源變模板","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780567412863-e8oq.png","2026-06-04T10:02:58.043845+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"3ead09ec-5656-4165-9bb0-f602add3c409","qdrant-filter-first-rag-design-decoded-zh","Qdrant 讓 RAG 先過濾再找相似","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780566519640-bdds.png","2026-06-04T09:47:59.450347+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"7b5e6965-307e-4492-bf65-d922cd7818ad","anthropic-code-review-tool-ai-generated-code-zh","Anthropic 讓 AI 程式變可審","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780563813320-5wc7.png","2026-06-04T09:02:56.999212+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"bef47dbc-b0b4-439e-bae9-abe9473a321c","wei-shen-me-tether-ba-ben-di-ai-ji-yi-tui-jin-ri-chang-zhuan-zh","為什麼 Tether 把本地 AI 記憶推進日常裝置是對的","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780542170805-opi6.png","2026-06-04T03:02:19.599329+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"d3ec03a8-a805-4a21-9826-72a74a72b625","databricks-model-serving-llm-deploy-guide-zh","Databricks Model Serving 讓 LLM 部署變簡單","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780525998117-7ur8.png","2026-06-03T22:32:51.005996+00:00",{"id":83,"slug":84,"title":85,"cover_image":86,"image_url":86,"created_at":87,"category":13},"4dd225a8-bf6c-4768-a486-a27956c7033d","opencode-digitalocean-model-freedom-zh","OpenCode+DigitalOcean 讓你切換模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780525116428-1q7g.png","2026-06-03T22:18:06.969758+00:00",[89,94,99,104,109,114,119,124,129,134],{"id":90,"slug":91,"title":92,"created_at":93},"855cd52f-6fab-46cc-a7c1-42195e8a0de4","surepath-real-time-mcp-policy-controls-zh","SurePath 推出即時 MCP 政策控管","2026-03-26T07:57:40.77233+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"9b19ab54-edef-4dbd-9ce4-a51e4bae4ebb","mcp-in-2026-the-ai-tool-layer-teams-use-zh","2026 年 MCP：團隊真的在用的 AI 工具層","2026-03-26T08:01:46.589694+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"af9c46c3-7a28-410b-9f04-32b3de30a68c","prompting-in-2026-what-actually-works-zh","2026 提示工程，真正有用的是什麼","2026-03-26T08:08:12.453028+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"05553086-6ed0-4758-81fd-6cab24b575e0","garry-tan-open-sources-claude-code-toolkit-zh","Garry Tan 開源 Claude Code 工具包","2026-03-26T08:26:20.068737+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"042a73a2-18a2-433d-9e8f-9802b9559aac","github-ai-projects-to-watch-in-2026-zh","2026 必看 20 個 GitHub AI 專案","2026-03-26T08:28:09.619964+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a5f94120-ac0d-4483-9a8b-63590071ac6a","claude-code-vs-cursor-2026-zh","Claude Code 與 Cursor 深度對比：202…","2026-03-26T13:27:14.279193+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"0975afa1-e0c7-4130-a20d-d890eaed995e","practical-github-guide-learning-ml-2026-zh","2026 機器學習入門 GitHub 實用指南","2026-03-27T01:16:49.712576+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"bfdb467a-290f-4a80-b3a9-6f081afb6dff","aiml-2026-student-ai-ml-lab-repo-review-zh","AIML-2026：像課綱的學生實驗 Repo","2026-03-27T01:21:51.467798+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"80cabc3e-09fc-4ff5-8f07-b8d68f5ae545","ai-trending-github-repos-and-research-feeds-zh","AI Trending：把 AI 資源收成一張表","2026-03-27T01:31:35.262183+00:00",{"id":135,"slug":136,"title":137,"created_at":138},"3ce6e6e2-bac5-463e-9f8d-45caabcc61f7","awesome-ai-for-science-research-tools-map-zh","AI 科研工具清單，開始像地圖了","2026-03-27T01:46:50.521945+00:00"]