Qualcomm 用軟硬整合拆 CUDA

OraCore Editors

返回首頁

[IND] 2026年6月26日11 分鐘閱讀OraCore 編輯部

Qualcomm 用軟硬整合拆 CUDA

我把 Qualcomm 的 140 億美元布局拆成一個可抄的模板：先買編譯器與 runtime，再補 RISC-V 晶片，目標不是拼規格，而是降低 CUDA 轉移成本。

CUDA RISC-V

分享 LinkedIn

我把 Qualcomm 的 140 億美元布局拆成一個可抄的模板：先買編譯器與 runtime，再補 RISC-V 晶片，目標不是拼規格，而是降低 CUDA 轉移成本。

我最近看 Qualcomm 這套打法，越看越不對勁，但又不是那種「這公司又在畫大餅」的不對勁。它比較像是：終於有人承認，AI 基礎設施不是晶片賣得快就會贏。你晶片再快，開發者不想搬，整套還是卡住。我以前也碰過這種案子，硬體團隊一直跟我說效能很漂亮，結果一問到模型怎麼搬、kernel 怎麼改、runtime 怎麼接，現場就開始沉默。這種沉默我看太多次了。

所以我看到 Qualcomm 這次不是只買晶片公司，而是連編譯器、執行層、可攜性故事一起收，我反而覺得它終於摸到痛點。這篇我不是在幫它背書，我是把它的套路拆開來看：它到底在解哪個問題、哪個地方最容易翻車、以及如果你自己在做 AI 平台，哪些段落可以直接抄。

這份拆解的起點是 Jerry Owens 在 TechTimes 的報導，內容提到 Qualcomm 投資人日公布的 Modular 收購案，以及傳出的 Tenstorrent 接觸。原文有提到「超過 140 億美元」這個量級，但我這裡只拿它當策略訊號，不拿來當行銷口號。

Qualcomm 買的不是公司，是逃生門

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

「合在一起，這兩筆交易會把超過 140 億美元壓在同一個戰略目標上：讓雲端與企業買家能在不是 Nvidia 的硬體上跑 AI 工作負載。」

翻譯一下就是，Qualcomm 不是只想多賣一顆加速器，它想賣的是「離開 CUDA 的出口」。這個差很多。因為 Nvidia 的護城河從來不只是 GPU 規格，而是整套習慣、工具、函式庫、內部 know-how，還有每個團隊早就寫死在 CUDA 裡的假設。你要別人換，不是叫他換卡，是叫他重寫工作方式。

我以前看過很多平台遷移，最常見的死法就是：demo 看起來很順，真要進 production 就開始卡。原因很簡單，開發者不是不懂性能，他們是很懂「改動成本」有多噁心。只要你一講要搬 kernel、重測邊界條件、重做 profiling、重跑驗證，大家腦中就會浮出一句話：這值得嗎？通常答案是不值得。

所以 Qualcomm 這次比較像是在買「降低痛苦的工具箱」。Modular 補的是編譯器與 runtime，Tenstorrent 補的是硬體與 RISC-V 路線。兩個一起看，才像一條真的逃生門，而不是一張漂亮簡報。

實操上，如果你自己在做 AI infra，我會建議你先改問法，不要問「我要支援哪顆晶片」，而是問「我能幫客戶少搬多少東西」。這句才是產品定義，不是口號。

真正的對手不是晶片，是 CUDA 習慣

TechTimes 直接點出來，Nvidia 的主導地位靠的不只硬體，還有從 2006 年一路養大的 CUDA 生態。文中也提到大約有 400 萬開發者在這個生態裡打轉。這個數字比任何 benchmark 圖都更值得怕，因為它代表的不是人數，是慣性。

白話講，開發者買的不是 FLOPS，他們買的是延續性。CUDA 代表函式庫、工具、文件、範例、社群、以及一堆公司內部已經默認存在的做法。你如果只是換一顆更快的晶片，卻要他們重寫邏輯、重學工具、重驗證行為，那你不是在賣硬體，你是在賣一個包著硬體外皮的遷移專案。

我自己碰過從一個加速器搬到另一個加速器的案子，前面總是很樂觀。大家都說：「應該不難吧？」結果一問到 custom op、量化路徑、記憶體配置、效能分析、部署一致性，整個專案就從兩週變兩季。這就是為什麼 Qualcomm 不能只買晶片公司，它一定得把編譯器那層一起拿下來。

硬體不是問題本身，軟體鎖定才是。
少一次重寫，比多一點 benchmark 更值錢。
要讓人換平台，先讓人覺得不痛，而不是先講規格。

實操寫法很直接：如果你在做 AI 平台，先列出客戶切換成本。你要能講清楚 code 怎麼搬、ops 怎麼搬、團隊怎麼搬。講不清楚，你就不是平台，你只是 demo。

Tenstorrent 負責硬體面：RISC-V、tile、少一點廢話

TechTimes 描述 Tenstorrent 的 Blackhole 晶片是以 RISC-V 為基礎的加速器，核心架構叫 Tensix。每個 Tensix 核心裡面有五個 RISC-V 處理器、local SRAM、矩陣與向量引擎，還有串到 mesh network 的路由器。原文也提到 Blackhole 有 120 個 Tensix 核心、16 個較大的 RISC-V 核心、32GB GDDR6 記憶體，以及 664 TFLOPS 的 BF16 效能。

這段的重點不是「它也很快」，而是它根本不是想當另一張 Nvidia。Tenstorrent 比較像是在重排計算方式：讓資料更靠近運算、減少頻繁去外部記憶體繞一圈、降低功耗浪費。這種 tile-based 的思路，特別適合 inference，因為 inference 很常不是在拼最大吞吐，而是在拼成本、局部性、以及一堆小而碎的請求能不能撐住。

我看過不少 GPU 在真實服務裡被浪費掉，原因不是不夠強，是工作負載太零散、太小、太不規則。這種情境下，硬體再猛也會閒著。Tenstorrent 的路線比較像是承認：不是所有工作都該用同一種方式跑。這個承認很務實，也很麻煩，因為一旦硬體有立場，程式設計就會變得更挑人。

原文也提到開發者得明確管理 local SRAM 的資料放置，以及在 mesh 裡的資料移動。這不是小註腳，這就是代價。你得到更好的效率，但你也逼 programmer 多想一步。這在工程上沒問題，前提是你的客戶真的願意付這個腦力成本。

實操上，如果你在設計 AI 硬體，不要裝成萬用型。你如果主打 inference，就老實講 inference；你如果主打低功耗，就老實講低功耗。買的人不是不能接受限制，他們最討厭的是你明明有限制，還硬說自己通吃。

Modular 負責軟體面：把搬家變得沒那麼痛

TechTimes 提到 Modular 是 Chris Lattner 和 Tim Davis 創立的，Mojo 語言與 MAX inference engine 的目標，是讓同一份 AI 模型程式碼能跑在 Nvidia、AMD、Intel、Qualcomm、Apple Silicon，還有多家 CPU 平台上。這件事的核心不是語言炫不炫，而是它在對抗一件很煩的事：硬體綁定。

翻譯一下，Modular 想把「選哪家硬體」變成實作細節。理想狀態是，團隊寫一次模型邏輯，換晶片時不用整組重寫。這不是把 lock-in 直接消滅，而是把它削弱。對企業採購來說，能削弱就夠了，因為很多案子卡住不是因為找不到替代品，而是替代品的遷移成本太高。

我對編譯器故事一直有點戒心，因為它們常常死在兩種地方：一種太學術，工程師看得很爽，營運團隊看不懂；另一種太半吊子，簡報很漂亮，真到 production 就露餡。Modular 的價值在於它卡在中間：不是只做語法糖，也不是只做一個能跑的殼，而是把模型碼和硬體之間那層髒事收起來。

原文還提到 Modular 在 2025 年 9 月曾以 16 億美元估值募到 2.5 億美元，而 Qualcomm 的收購價約 39.2 億美元。這個跳幅很能說明市場現在怎麼看軟體層：大家終於比較願意為「減少搬家痛苦」付錢了。

可攜性會降低試用門檻。
可攜性也會降低未來換供應商的成本。
這正是平台老大最不想看到的事。

實操寫法：如果你在做開發者工具，先把第一次搬移做得很無聊。越少戲劇性，客戶越敢試。不要一開始就想證明你多強，先證明你不麻煩。

為什麼 Qualcomm 兩手都要抓

這裡最容易被忽略的，是 Qualcomm 其實不能只買一邊。只買軟體，你會變成一層很聰明的相容殼，但沒有硬體差異化。只買硬體，你會變成另一顆很快、但沒人想搬過去的晶片。兩個都要，才有機會把 CUDA 的牆挖出洞。

TechTimes 的敘事其實已經把這個邏輯講出來了：Tenstorrent 提供開放的 RISC-V 硬體路線，Modular 提供 CUDA 替代的軟體路線。這兩個一起，才同時打到兩個死穴——沒有生態、沒有硬體差異。只要少一個，整個故事就會變成一半。

我以前看過很多「開放平台」專案，買家最常問的其實不是「你開不開放」，而是「我現在用你，會不會省時間，還是只是把痛苦延後」。這句話很殘酷，但很真。Qualcomm 這波如果只是把未來的自由講得很漂亮，現在的客戶還是不會動；它必須同時給一個現在就有感的經濟理由。

原文也提到 Qualcomm 預計在 2026 年底前，會開始替一家大型雲端業者出貨客製晶片。這種時間點很重要，因為它代表公司想帶著真實客戶路徑上場，而不是只拿策略簡報騙人。很好，因為簡報不會產生推論收入。

實操上，你在做平台時也一樣：相容性故事要配一個現在就能成立的性能或成本理由。只有未來彈性，客戶通常只會把決策往後拖。

我會抄的不是公司名，是這個結構

這波最值得抄的，不是 Qualcomm、也不是 Modular、甚至不是 Tenstorrent，而是它們拼起來的結構。先用開放一點的硬體路線降低供應商依賴，再用編譯器與 runtime 把遷移成本壓下來，最後用一個明確的工作負載當切口。這三段一旦接起來，故事就不是「我們也有晶片」，而是「你不用為了換硬體重寫整套」。

這種打法很務實，也很現實。它不是說開放就會簡單，而是說複雜度可以被重新分配。原本是客戶自己吞，現在是供應商幫你吞一部分。這樣的差別，對採購來說就夠大了。

如果我要把它變成內部方法論，我會這樣寫：先定義一個切口，再定義一個可攜層，最後才談硬體。不要反過來。很多團隊一開始就陷在晶片規格戰，結果做了半天，客戶只記得你很吵，沒記得你有用。

可抄的模板

# AI 平台對抗 CUDA 鎖定的內部模板（繁中版，可直接改名套用）

## 1. 先選切口，不要先談全包
我們不試圖一次取代所有 GPU 工作負載。
我們先鎖定：
- [推論 / 訓練 / 邊緣推論 / 代理式工作負載]
- [一種明確模型家族]
- [一個能算出成本差的場景]

## 2. 硬體故事要具體
我們的硬體優化重點是：
- [本地記憶體 / tile-based compute / 低功耗推論]
- [特定吞吐或延遲目標]
- [特定成本區間]

## 3. 把可攜性當產品，不是附加功能
我們會提供：
- 編譯器層
- runtime 層
- 模型匯入 / 匯出流程
- profiling 與除錯工具
- 跨硬體的部署說明

## 4. 明講搬移時會痛哪裡
對每個支援框架，文件要寫清楚：
- 哪些程式碼可以直接跑
- 哪些需要翻譯
- 哪些需要手動調整
- 會付出哪些效能代價

## 5. 用一個真實客戶把故事釘住
第一個 production 故事要是：
- 客戶類型：[雲端業者 / 企業 / OEM]
- 工作負載：[LLM 推論 / 影像 / 推薦系統]
- 成功指標：[延遲 / 成本 / 吞吐]

## 6. 不要假裝沒有代價
開發者需要管理的事情包括：
- 記憶體配置
- kernel 調校
- 模型轉換
- 硬體特定 profiling

我們不把這些藏起來，我們把它們文件化、流程化、可預期化。

## 7. 對外訊息只講一句核心話
「你不應該為了換硬體而重寫整套 AI 堆疊。」

## 8. 發版前檢查清單
- 一條可用的編譯路徑
- 一個支援的模型家族
- 一個量化過的硬體目標
- 一個可說服人的 migration guide
- 一個已經在跑的客戶案例

## 9. 成功的定義
成功不是只有更快。
成功是團隊真的能比較供應商、切換供應商，還能繼續交付。

我如果要把這篇濃縮成一句話，就是：Qualcomm 不是在賣更強的板子，它是在買一條讓客戶離開 CUDA 時不至於崩潰的路。這個思路，才是你在做 AI infra 時最值得學的地方。

來源網址：TechTimes 原文。本文的策略拆解是我根據該報導，加上 Modular、Tenstorrent、Qualcomm、RISC-V 的公開資訊整理而成，原創分析多於轉述。

// 相關文章

Qualcomm 用軟硬整合拆 CUDA

Qualcomm 買的不是公司，是逃生門

訂閱 AI 趨勢週報

真正的對手不是晶片，是 CUDA 習慣

Tenstorrent 負責硬體面：RISC-V、tile、少一點廢話

Modular 負責軟體面：把搬家變得沒那麼痛

為什麼 Qualcomm 兩手都要抓

我會抄的不是公司名，是這個結構

可抄的模板

5 款 Prompt 工具各自最適合的工作

Xcode 26.6 把 Gemini 納入 Apple AI 編碼堆疊

OpenAI 與 Anthropic 必須賣效率，不是賣耗用

10 款 AI 程式碼審查工具，提早抓出問題

OpenAI 延後 IPO，把熱度變警惕

Suno 用 Spark 拉攏獨立音樂人