GLM-5.2 用更低成本打贏 GPT-5.5
Z.ai 的 GLM-5.2 在多項 coding benchmark 上贏過 GPT-5.5,還主打只有約 1/6 成本。這篇整理分數、成本、開放權重優勢,看看它對 coding agent 市場的壓力有多大。

Z.ai 的 GLM-5.2 在多項 coding benchmark 上贏過 GPT-5.5,還主打只要約 1/6 成本。
說真的,這個數字很刺眼。Z.ai 把 GLM-5.2 推上檯面後,直接拿它去對打 OpenAI 的 GPT-5.5。VentureBeat 引述的數據顯示,GLM-5.2 在 SWE-bench Pro 拿到 62.1 分,GPT-5.5 是 58.6 分。GLM-5.1 則是 58.4 分。
講白了,這不是單純的分數秀。它在講一件事:做 coding agent 時,便宜又能做事的模型,可能比你想像中更重要。對台灣團隊來說,這會直接碰到 API 成本、部署方式、還有資料控制權。
| 模型 | SWE-bench Pro | 成本說法 | 備註 |
|---|---|---|---|
| GLM-5.2 | 62.1 | 約 GPT-5.5 的 1/6 | 開放權重模型 |
| GPT-5.5 | 58.6 | 基準 | 閉源模型 |
| GLM-5.1 | 58.4 | 高於 GLM-5.2 的成本主張 | 前一代模型 |
GLM-5.2 到底在比什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
先別急著把它當成單純的聊天模型。Z.ai 這次主打的是 long-horizon coding。意思是,模型要能一路處理很多步驟,不是只吐一段函式就結束。

這類任務很像 junior engineer 在跑流程。它要讀 codebase、呼叫工具、改檔案、跑測試,還要記得前面做過什麼。這跟早期那種補全式 AI 很不一樣。
所以,SWE-bench Pro 這種 benchmark 才有意義。它不是只看你會不會寫一段漂亮程式,而是看你能不能真的修 repo 裡的問題。這點對工程團隊很實際,因為 production codebase 往往又髒又亂。
- SWE-bench Pro:GLM-5.2 62.1 分
- GPT-5.5:58.6 分
- GLM-5.1:58.4 分
- 重點在 agentic tool use,不是單次回答
我覺得這裡最值得看的,是它對工具的掌握。很多模型看起來很會寫 code,實際上碰到 log、測試失敗、路徑錯誤,就開始亂飄。能穩定跑完一串操作,才是 coding agent 真正要命的能力。
“The model particularly shines in agentic tool use and long-horizon software engineering tasks,” VentureBeat reported.
為什麼成本會直接改變局面
價格這件事,常常被講得很虛。可是一旦進到 production,這東西超現實。你如果一天要跑幾千次 API,差個幾倍成本,月底帳單就會很有感。
GLM-5.2 主打約 1/6 成本。這代表團隊可以多跑幾輪 agent loop,也可以多做幾次 retry,不用每次都心驚膽跳。對新創、平台團隊、內部工具組,這差很多。
更直接一點說,便宜的模型比較適合拿來做大量自動化。像是 code review、修 bug、產生測試、repo 掃描,這些任務都很吃 call 次數。你不會只看一次回答,你會看整個流程的總成本。
- 低成本讓 retry 更容易
- 低成本讓長上下文更敢開
- 低成本讓批次任務更好擴張
- 低成本也會逼閉源模型重新算帳
說白了,這就是商業模型的壓力測試。當一個開放權重模型,在 coding benchmark 上打到前面,還把價格壓低,閉源廠商就不能只靠品牌吃飯了。
開放權重對工程團隊有什麼差
開放權重不是魔法。它的意思是,你有更多控制權。你可以自己部署,自己調參,也比較能管資料流向。對有私有 codebase 的公司,這常常比多 2 分 benchmark 更重要。

閉源模型的優勢也還在。它們通常整合得比較好,介面比較穩,管理也比較省事。可是當你開始在意 latency、資料合規、或是內網部署,開放權重就很有吸引力。
這也是 Z.ai 這次的重點。它不是只想證明模型很會答題,而是想證明它能進到真實工程流程。這種定位,對想做 coding agent 的團隊很直接。
- 開放權重:可自管部署
- 開放權重:可做內部微調
- 閉源模型:整合方便
- 閉源模型:通常價格較硬
跟 GPT-5.5 比,差距代表什麼
62.1 對 58.6,看起來差距不算誇張。可是 benchmark 世界裡,幾分常常就代表一大段工作量。尤其是這種需要多步推理和工具操作的任務,分數差距會被放大到實作體驗。
更麻煩的是,GLM-5.2 還同時壓過 GLM-5.1。這表示它不是只靠測試運氣。至少在 Z.ai 的說法裡,這是同一條產品線的明確進步。
不過,benchmark 贏不等於所有場景都贏。真實專案裡有 flaky test、有老舊依賴、有奇怪的 CI 設定。模型在 SWE-bench Pro 表現好,不代表它進到每個企業 repo 都能順順跑。
- GLM-5.2:62.1
- GPT-5.5:58.6
- GLM-5.1:58.4
- 差距小,但在 agent 流程裡可能被放大
這裡我會保留一點冷靜。模型公司很愛把單一 benchmark 講成全部答案。實際上,工程團隊要看的還有穩定性、上下文長度、工具呼叫成功率,還有出錯時會不會自己救回來。
這波對 AI coding 市場的背景
AI coding 這條線,現在已經不是誰會寫一段 Python 而已。大家比的是 agent 能不能做完一整串工作。從找 bug、改檔、跑測試,到重新提交,流程越完整,價值越高。
這也解釋了為什麼 SWE-bench 類型的測試越來越常被拿出來。它比較接近真實 repo 工作,而不是玩具題。對開發者來說,這種測試比較不會騙人。
市場上現在大致分成兩派。第一派是閉源大模型,強調體驗和整合。第二派是開放權重模型,強調控制權和成本。GLM-5.2 這次卡在中間,而且分數還不差,這就很煩人。
如果你也在看 coding agent,可以順手比較幾個官方來源。像 GPT-5.5、Z.ai 模型頁,還有 Z.ai 的 GitHub。這些資訊比轉貼文更接近原始脈絡。
接下來該看什麼
接下來最重要的,不是再看一次宣傳圖。是看第三方團隊能不能重現這些結果。只要一進到自己的 repo,很多漂亮分數就會開始掉。
如果 GLM-5.2 的成本說法也站得住腳,那它會逼很多團隊重新算模型選型。尤其是每天都在跑 code agent 的公司,會很在意每次呼叫到底值不值得。
我的判斷很直接:這類模型之後會越來越像基礎設施,不像玩具。你可以先不換,但最好開始做 A/B test。先拿一小段 repo,跑 20 到 50 次任務,比空看 benchmark 實在多了。