中國開源 AI 模型已經定調，西方團隊該把它當新基準

OraCore Editors

返回首頁

[IND] 2026年6月9日4 分鐘閱讀OraCore 編輯部

中國開源 AI 模型已經定調，西方團隊該把它當新基準

中國實驗室已經領跑開源 AI，西方團隊應把這件事視為新的起跑線，而不是短期波動。

Qwen DeepSeek MiniMax

分享 LinkedIn

中國實驗室已經領跑開源 AI，西方團隊應把這件事視為新的起跑線。

中國實驗室已經把開源 AI 的速度、成本與可用性一起拉到前面，產品、基礎設施與採購決策都該以這個現實為前提。

Artificial Analysis Intelligence Index v4.0 顯示，前十名開放模型中有八個來自中國公司，Kimi K2.6、MiniMax MMo-V2.5-Pro、DeepSeek V4 Pro、GLM-5.1 都排在前列。這不是單一榜單的偶然。實際採用也在呼應這個趨勢：OfficeChai 引述 a16z 合夥人 Martin Casado 指出，多數使用開源 AI 的新創現在跑的是中國模型；Vercel 也表示，Kimi K2.6 在 Next.js 基準上帶來超過 50% 的提升。市場已經在投票。

第一個論點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

中國模型的領先不是只贏在一個分數，而是同時覆蓋推理、寫碼、代理任務與長上下文。Kimi K2.6 在相關測試中拿到 53.9 分，並被報導完成一個 8 年歷史的財務匹配引擎重構，歷時 13 小時、發出超過 1,000 次工具呼叫，吞吐量提升 185%。這類任務最能檢驗模型是否真的能進生產環境，而不是只會回答提示詞。

DeepSeek V4 Pro 也給出同樣訊號。它在 Intelligence Index 拿到 51.5，並在引用的測試中取得 3206 的 Codeforces rating，表現高於 GPT-5.4 與 Gemini-3.1-Pro。GLM-5.1 則把焦點放到代理能力，主張自己在開放權重模型中擁有最高的 agentic index，達到 63，並透過更常拒答不確定問題，把幻覺率降低 56 個百分點。這些數字指向同一件事：中國實驗室優化的是可用智慧，不只是排行榜表演。

第二個論點

這個領先之所以會延續，是因為中國實驗室把能力與架構設計綁在一起，直接壓低部署成本。以 DeepSeek V4 Flash 為例，它總參數 284B、活躍參數只有 13B，卻仍拿到 46.5 分。OfficeChai 指出，完整跑一套基準的成本，Flash 約 113 美元，V4 Pro 則要 1,071 美元。對開源採用來說，單位經濟往往比名氣更重要，因為最後決定是否上線的不是宣傳，而是每次任務要花多少錢。

MiniMax 的 MMo-V2.5-Pro 與 M2.7 也展現同樣的策略優勢。公司聲稱其混合專家設計可處理多達一百萬 token，這讓長文件與工具密集工作流從「示範功能」變成可落地方案。Qwen 3.5 進一步補上商用摩擦的問題，旗艦模型採 Apache 2.0 授權，讓需要私有化部署的團隊更容易導入。當能力、上下文長度與授權條件同時到位，優勢就不只是模型本身，而是整個分發與採用通道。

反方可能怎麼說

最強的反方說法是：榜單會變動，開源領先不等於戰略控制。西方實驗室仍有可打的牌，像 Mistral Medium 3.5 與 Google 的 Gemma 4，都證明非中國團隊依然能做出可信的開放模型。對一些企業來說，資料主權、合規與地緣政治風險會直接蓋過性能差距；在這些環境裡，較容易採購、較容易信任、較容易進內網的供應商，往往就能贏單。

另一個合理疑慮是，並非所有榜單項目都有同等深度的獨立驗證，有些數字也可能只是估算。基準測試本身更無法完整反映安全政策、支援品質、社群成熟度與法務風險。這些限制都是真的，不能假裝不存在。

但這些限制並沒有推翻主結論，因為現在出現的是多個獨立訊號同時指向同一方向：中國模型在分數、成本、上下文長度與代理行為上一起領先。即使西方模型仍有競爭力，它們多半是在第二梯隊內互相拉鋸，而不是和最頂端共享位置。這不是一場窄幅勝利，而是開源模型市場的結構性變化。

你能做什麼

如果你是工程師，別再把中國開源模型當備胎，先拿它們做寫碼、工具調用與長上下文任務的第一輪評估；如果你是 PM，模型選型應該以工作負載、延遲與每次任務成本為核心，而不是品牌熟悉度；如果你是創辦人，預設競爭對手已經在測 Kimi、DeepSeek、Qwen 與 MiniMax，並確保你的架構能快速切換模型。最實際的結論很簡單：開源 AI 的重心已經東移，忽視這件事的團隊，最後會在性能與毛利上一起付出代價。

// 相關文章

中國開源 AI 模型已經定調，西方團隊該把它當新基準

第一個論點

訂閱 AI 趨勢週報

第二個論點

反方可能怎麼說

你能做什麼

5 個 Rust 更新，這週最值得 builders 讀

Deepwoken 第二層直通 Ethiron 深處

AMD 用 Anthropic 破 CUDA 牆是對的

AI 週報：2026-07-20 ~ 2026-07-27

WAIC2026把AI從參數堆到落地

KPMG 這招把 SaaS 變代理人