GLM-5.2 用更低成本打贏 GPT-5.5

OraCore Editors

返回首頁

[MODEL] 2026年6月27日6 分鐘閱讀OraCore 編輯部

GLM-5.2 用更低成本打贏 GPT-5.5

Z.ai 的 GLM-5.2 在多項 coding benchmark 上贏過 GPT-5.5，還主打只有約 1/6 成本。這篇整理分數、成本、開放權重優勢，看看它對 coding agent 市場的壓力有多大。

Z.AI

分享 LinkedIn

Z.ai 的 GLM-5.2 在多項 coding benchmark 上贏過 GPT-5.5，還主打只要約 1/6 成本。

說真的，這個數字很刺眼。Z.ai 把 GLM-5.2 推上檯面後，直接拿它去對打 OpenAI 的 GPT-5.5。VentureBeat 引述的數據顯示，GLM-5.2 在 SWE-bench Pro 拿到 62.1 分，GPT-5.5 是 58.6 分。GLM-5.1 則是 58.4 分。

講白了，這不是單純的分數秀。它在講一件事：做 coding agent 時，便宜又能做事的模型，可能比你想像中更重要。對台灣團隊來說，這會直接碰到 API 成本、部署方式、還有資料控制權。

模型	SWE-bench Pro	成本說法	備註
GLM-5.2	62.1	約 GPT-5.5 的 1/6	開放權重模型
GPT-5.5	58.6	基準	閉源模型
GLM-5.1	58.4	高於 GLM-5.2 的成本主張	前一代模型

GLM-5.2 到底在比什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

先別急著把它當成單純的聊天模型。Z.ai 這次主打的是 long-horizon coding。意思是，模型要能一路處理很多步驟，不是只吐一段函式就結束。

這類任務很像 junior engineer 在跑流程。它要讀 codebase、呼叫工具、改檔案、跑測試，還要記得前面做過什麼。這跟早期那種補全式 AI 很不一樣。

所以，SWE-bench Pro 這種 benchmark 才有意義。它不是只看你會不會寫一段漂亮程式，而是看你能不能真的修 repo 裡的問題。這點對工程團隊很實際，因為 production codebase 往往又髒又亂。

SWE-bench Pro：GLM-5.2 62.1 分
GPT-5.5：58.6 分
GLM-5.1：58.4 分
重點在 agentic tool use，不是單次回答

我覺得這裡最值得看的，是它對工具的掌握。很多模型看起來很會寫 code，實際上碰到 log、測試失敗、路徑錯誤，就開始亂飄。能穩定跑完一串操作，才是 coding agent 真正要命的能力。

“The model particularly shines in agentic tool use and long-horizon software engineering tasks,” VentureBeat reported.

為什麼成本會直接改變局面

價格這件事，常常被講得很虛。可是一旦進到 production，這東西超現實。你如果一天要跑幾千次 API，差個幾倍成本，月底帳單就會很有感。

GLM-5.2 主打約 1/6 成本。這代表團隊可以多跑幾輪 agent loop，也可以多做幾次 retry，不用每次都心驚膽跳。對新創、平台團隊、內部工具組，這差很多。

更直接一點說，便宜的模型比較適合拿來做大量自動化。像是 code review、修 bug、產生測試、repo 掃描，這些任務都很吃 call 次數。你不會只看一次回答，你會看整個流程的總成本。

低成本讓 retry 更容易
低成本讓長上下文更敢開
低成本讓批次任務更好擴張
低成本也會逼閉源模型重新算帳

說白了，這就是商業模型的壓力測試。當一個開放權重模型，在 coding benchmark 上打到前面，還把價格壓低，閉源廠商就不能只靠品牌吃飯了。

開放權重對工程團隊有什麼差

開放權重不是魔法。它的意思是，你有更多控制權。你可以自己部署，自己調參，也比較能管資料流向。對有私有 codebase 的公司，這常常比多 2 分 benchmark 更重要。

閉源模型的優勢也還在。它們通常整合得比較好，介面比較穩，管理也比較省事。可是當你開始在意 latency、資料合規、或是內網部署，開放權重就很有吸引力。

這也是 Z.ai 這次的重點。它不是只想證明模型很會答題，而是想證明它能進到真實工程流程。這種定位，對想做 coding agent 的團隊很直接。

開放權重：可自管部署
開放權重：可做內部微調
閉源模型：整合方便
閉源模型：通常價格較硬

跟 GPT-5.5 比，差距代表什麼

62.1 對 58.6，看起來差距不算誇張。可是 benchmark 世界裡，幾分常常就代表一大段工作量。尤其是這種需要多步推理和工具操作的任務，分數差距會被放大到實作體驗。

更麻煩的是，GLM-5.2 還同時壓過 GLM-5.1。這表示它不是只靠測試運氣。至少在 Z.ai 的說法裡，這是同一條產品線的明確進步。

不過，benchmark 贏不等於所有場景都贏。真實專案裡有 flaky test、有老舊依賴、有奇怪的 CI 設定。模型在 SWE-bench Pro 表現好，不代表它進到每個企業 repo 都能順順跑。

GLM-5.2：62.1
GPT-5.5：58.6
GLM-5.1：58.4
差距小，但在 agent 流程裡可能被放大

這裡我會保留一點冷靜。模型公司很愛把單一 benchmark 講成全部答案。實際上，工程團隊要看的還有穩定性、上下文長度、工具呼叫成功率，還有出錯時會不會自己救回來。

這波對 AI coding 市場的背景

AI coding 這條線，現在已經不是誰會寫一段 Python 而已。大家比的是 agent 能不能做完一整串工作。從找 bug、改檔、跑測試，到重新提交，流程越完整，價值越高。

這也解釋了為什麼 SWE-bench 類型的測試越來越常被拿出來。它比較接近真實 repo 工作，而不是玩具題。對開發者來說，這種測試比較不會騙人。

市場上現在大致分成兩派。第一派是閉源大模型，強調體驗和整合。第二派是開放權重模型，強調控制權和成本。GLM-5.2 這次卡在中間，而且分數還不差，這就很煩人。

如果你也在看 coding agent，可以順手比較幾個官方來源。像 GPT-5.5、Z.ai 模型頁，還有 Z.ai 的 GitHub。這些資訊比轉貼文更接近原始脈絡。

接下來該看什麼

接下來最重要的，不是再看一次宣傳圖。是看第三方團隊能不能重現這些結果。只要一進到自己的 repo，很多漂亮分數就會開始掉。

如果 GLM-5.2 的成本說法也站得住腳，那它會逼很多團隊重新算模型選型。尤其是每天都在跑 code agent 的公司，會很在意每次呼叫到底值不值得。

我的判斷很直接：這類模型之後會越來越像基礎設施，不像玩具。你可以先不換，但最好開始做 A/B test。先拿一小段 repo，跑 20 到 50 次任務，比空看 benchmark 實在多了。

// 相關文章

GLM-5.2 用更低成本打贏 GPT-5.5

GLM-5.2 到底在比什麼

訂閱 AI 趨勢週報

為什麼成本會直接改變局面

開放權重對工程團隊有什麼差

跟 GPT-5.5 比，差距代表什麼

這波對 AI coding 市場的背景

接下來該看什麼

Google OpenRL 把 RL 細調搬上 Kubernetes

DiffusionGemma 在 RTX 與 DGX 跑很快

OpenAI 收緊 GPT-5.6 上線節奏

Ubuntu 26.10 Snapshot 2 進入測試期

Claude Fable 5 上線：1M 上下文、$10/$50

Google 把 Gemini 3.5 Pro 延到 7 月