[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-glm-52-beats-gpt-55-coding-benchmarks-zh":3,"article-related-glm-52-beats-gpt-55-coding-benchmarks-zh":32,"series-model-release-1f01e408-91a8-4d9b-839d-57e751bd646f":78},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":24,"views":28,"created_at":29,"published_at":30,"topic_cluster_id":31},"1f01e408-91a8-4d9b-839d-57e751bd646f","glm-52-beats-gpt-55-coding-benchmarks-zh","GLM-5.2 用更低成本打贏 GPT-5.5","\u003Cp data-speakable=\"summary\">Z.ai 的 GLM-5.2 在多項 coding \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 上贏過 GPT-5.5，還主打只要約 1\u002F6 成本。\u003C\u002Fp>\u003Cp>說真的，這個數字很刺眼。\u003Ca href=\"https:\u002F\u002Fz.ai\" target=\"_blank\" rel=\"noopener\">Z.ai\u003C\u002Fa> 把 \u003Ca href=\"https:\u002F\u002Fz.ai\u002Fmodels\u002Fglm-5-2\" target=\"_blank\" rel=\"noopener\">GLM-5.2\u003C\u002Fa> 推上檯面後，直接拿它去對打 \u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 的 GPT-5.5。\u003Ca href=\"https:\u002F\u002Fventurebeat.com\u002Ftechnology\u002Fz-ais-open-weights-glm-5-2-beats-gpt-5-5-on-multiple-long-horizon-coding-benchmarks-for-1-6th-the-cost\" target=\"_blank\" rel=\"noopener\">VentureBeat\u003C\u002Fa> 引述的數據顯示，GLM-5.2 在 \u003Ca href=\"\u002Ftag\u002Fswe-bench\">SWE-bench\u003C\u002Fa> Pro 拿到 62.1 分，GPT-5.5 是 58.6 分。GLM-5.1 則是 58.4 分。\u003C\u002Fp>\u003Cp>講白了，這不是單純的分數秀。它在講一件事：做 coding \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 時，便宜又能做事的模型，可能比你想像中更重要。對台灣團隊來說，這會直接碰到 API 成本、部署方式、還有資料控制權。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>模型\u003C\u002Fth>\u003Cth>SWE-bench Pro\u003C\u002Fth>\u003Cth>成本說法\u003C\u002Fth>\u003Cth>備註\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>GLM-5.2\u003C\u002Ftd>\u003Ctd>62.1\u003C\u002Ftd>\u003Ctd>約 GPT-5.5 的 1\u002F6\u003C\u002Ftd>\u003Ctd>開放權重模型\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>GPT-5.5\u003C\u002Ftd>\u003Ctd>58.6\u003C\u002Ftd>\u003Ctd>基準\u003C\u002Ftd>\u003Ctd>閉源模型\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>GLM-5.1\u003C\u002Ftd>\u003Ctd>58.4\u003C\u002Ftd>\u003Ctd>高於 GLM-5.2 的成本主張\u003C\u002Ftd>\u003Ctd>前一代模型\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>GLM-5.2 到底在比什麼\u003C\u002Fh2>\u003Cp>先別急著把它當成單純的\u003Ca href=\"\u002Fnews\u002Fopenclaw-persistent-ai-assistant-chat-apps-zh\">聊天\u003C\u002Fa>模型。Z.ai 這次主打的是 long-horizon coding。意思是，模型要能一路處理很多步驟，不是只吐一段函式就結束。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782564470376-xtcx.png\" alt=\"GLM-5.2 用更低成本打贏 GPT-5.5\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這類任務很像 junior engineer 在跑流程。它要讀 codebase、呼叫工具、改檔案、跑測試，還要記得前面做過什麼。這跟早期那種補全式 AI 很不一樣。\u003C\u002Fp>\u003Cp>所以，SWE-bench Pro 這種 benchmark 才有意義。它不是只看你會不會寫一段漂亮程式，而是看你能不能真的修 repo 裡的問題。這點對工程團隊很實際，因為 production codebase 往往又髒又亂。\u003C\u002Fp>\u003Cul>\u003Cli>SWE-bench Pro：GLM-5.2 62.1 分\u003C\u002Fli>\u003Cli>GPT-5.5：58.6 分\u003C\u002Fli>\u003Cli>GLM-5.1：58.4 分\u003C\u002Fli>\u003Cli>重點在 agentic tool use，不是單次回答\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得這裡最值得看的，是它對工具的掌握。很多模型看起來很會寫 code，實際上碰到 log、測試失敗、路徑錯誤，就開始亂飄。能穩定跑完一串操作，才是 coding agent 真正要命的能力。\u003C\u002Fp>\u003Cblockquote>“The model particularly shines in agentic tool use and long-horizon software engineering tasks,” VentureBeat reported.\u003C\u002Fblockquote>\u003Ch2>為什麼成本會直接改變局面\u003C\u002Fh2>\u003Cp>價格這件事，常常被講得很虛。可是一旦進到 production，這東西超現實。你如果一天要跑幾千次 API，差個幾倍成本，月底帳單就會很有感。\u003C\u002Fp>\u003Cp>GLM-5.2 主打約 1\u002F6 成本。這代表團隊可以多跑幾輪 agent loop，也可以多做幾次 retry，不用每次都心驚膽跳。對新創、平台團隊、內部工具組，這差很多。\u003C\u002Fp>\u003Cp>更直接\u003Ca href=\"\u002Fnews\u002Fdefi-crash-problem-cleaner-fix-zh\">一點\u003C\u002Fa>說，便宜的模型比較適合拿來做大量自動化。像是 \u003Ca href=\"\u002Ftag\u002Fcode-review\">code review\u003C\u002Fa>、修 bug、產生測試、repo 掃描，這些任務都很吃 call 次數。你不會只看一次回答，你會看整個流程的總成本。\u003C\u002Fp>\u003Cul>\u003Cli>低成本讓 retry 更容易\u003C\u002Fli>\u003Cli>低成本讓長上下文更敢開\u003C\u002Fli>\u003Cli>低成本讓批次任務更好擴張\u003C\u002Fli>\u003Cli>低成本也會逼閉源模型重新算帳\u003C\u002Fli>\u003C\u002Ful>\u003Cp>說白了，這就是商業模型的壓力測試。當一個開放權重模型，在 coding benchmark 上打到前面，還把價格壓低，閉源廠商就不能只靠品牌吃飯了。\u003C\u002Fp>\u003Ch2>開放權重對工程團隊有什麼差\u003C\u002Fh2>\u003Cp>開放權重不是魔法。它的意思是，你有更多控制權。你可以自己部署，自己調參，也比較能管資料流向。對有私有 codebase 的公司，這常常比多 2 分 benchmark 更重要。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782564472322-e3wr.png\" alt=\"GLM-5.2 用更低成本打贏 GPT-5.5\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>閉源模型的優勢也還在。它們通常整合得比較好，介面比較穩，管理也比較省事。可是當你開始在意 latency、資料合規、或是內網部署，開放權重就很有吸引力。\u003C\u002Fp>\u003Cp>這也是 Z.ai 這次的重點。它不是只想\u003Ca href=\"\u002Fnews\u002Fopenclaw-agent-control-layer-matters-zh\">證明\u003C\u002Fa>模型很會答題，而是想證明它能進到真實工程流程。這種定位，對想做 coding agent 的團隊很直接。\u003C\u002Fp>\u003Cul>\u003Cli>開放權重：可自管部署\u003C\u002Fli>\u003Cli>開放權重：可做內部微調\u003C\u002Fli>\u003Cli>閉源模型：整合方便\u003C\u002Fli>\u003Cli>閉源模型：通常價格較硬\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>跟 GPT-5.5 比，差距代表什麼\u003C\u002Fh2>\u003Cp>62.1 對 58.6，看起來差距不算誇張。可是 benchmark 世界裡，幾分常常就代表一大段工作量。尤其是這種需要多步推理和工具操作的任務，分數差距會被放大到實作體驗。\u003C\u002Fp>\u003Cp>更麻煩的是，GLM-5.2 還同時壓過 GLM-5.1。這表示它不是只靠測試運氣。至少在 Z.ai 的說法裡，這是同一條產品線的明確進步。\u003C\u002Fp>\u003Cp>不過，benchmark 贏不等於所有場景都贏。真實專案裡有 flaky test、有老舊依賴、有奇怪的 CI 設定。模型在 SWE-bench Pro 表現好，不代表它進到每個企業 repo 都能順順跑。\u003C\u002Fp>\u003Cul>\u003Cli>GLM-5.2：62.1\u003C\u002Fli>\u003Cli>GPT-5.5：58.6\u003C\u002Fli>\u003Cli>GLM-5.1：58.4\u003C\u002Fli>\u003Cli>差距小，但在 agent 流程裡可能被放大\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡我會保留一點冷靜。模型公司很愛把單一 benchmark 講成全部答案。實際上，工程團隊要看的還有穩定性、上下文長度、工具呼叫成功率，還有出錯時會不會自己救回來。\u003C\u002Fp>\u003Ch2>這波對 AI coding 市場的背景\u003C\u002Fh2>\u003Cp>\u003Ca href=\"\u002Ftag\u002Fai-coding\">AI coding\u003C\u002Fa> 這條線，現在已經不是誰會寫一段 Python 而已。大家比的是 agent 能不能做完一整串工作。從找 bug、改檔、跑測試，到重新提交，流程越完整，價值越高。\u003C\u002Fp>\u003Cp>這也解釋了為什麼 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fswe-bench\" target=\"_blank\" rel=\"noopener\">SWE-bench\u003C\u002Fa> 類型的測試越來越常被拿出來。它比較接近真實 repo 工作，而不是玩具題。對開發者來說，這種測試比較不會騙人。\u003C\u002Fp>\u003Cp>市場上現在大致分成兩派。第一派是閉源大模型，強調體驗和整合。第二派是開放權重模型，強調控制權和成本。GLM-5.2 這次卡在中間，而且分數還不差，這就很煩人。\u003C\u002Fp>\u003Cp>如果你也在看 coding agent，可以順手比較幾個官方來源。像 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-5-5\u002F\" target=\"_blank\" rel=\"noopener\">GPT-5.5\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fz.ai\u002Fmodels\" target=\"_blank\" rel=\"noopener\">Z.ai 模型頁\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fzai-org\" target=\"_blank\" rel=\"noopener\">Z.ai 的 GitHub\u003C\u002Fa>。這些資訊比轉貼文更接近原始脈絡。\u003C\u002Fp>\u003Ch2>接下來該看什麼\u003C\u002Fh2>\u003Cp>接下來最重要的，不是再看一次宣傳圖。是看第三方團隊能不能重現這些結果。只要一進到自己的 repo，很多漂亮分數就會開始掉。\u003C\u002Fp>\u003Cp>如果 GLM-5.2 的成本說法也站得住腳，那它會逼很多團隊重新算模型選型。尤其是每天都在跑 code agent 的公司，會很在意每次呼叫到底值不值得。\u003C\u002Fp>\u003Cp>我的判斷很直接：這類模型之後會越來越像基礎設施，不像玩具。你可以先不換，但最好開始做 A\u002FB test。先拿一小段 repo，跑 20 到 50 次任務，比空看 benchmark 實在多了。\u003C\u002Fp>\u003C\u002Fp>","Z.ai 的 GLM-5.2 在多項 coding benchmark 上贏過 GPT-5.5，還主打只有約 1\u002F6 成本。這篇整理分數、成本、開放權重優勢，看看它對 coding agent 市場的壓力有多大。","venturebeat.com","https:\u002F\u002Fventurebeat.com\u002Ftechnology\u002Fz-ais-open-weights-glm-5-2-beats-gpt-5-5-on-multiple-long-horizon-coding-benchmarks-for-1-6th-the-cost",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782564470376-xtcx.png","model-release","zh","ce53e9e6-c310-4434-9971-4f4f3a274577",[17,18,19,20,21,22,23],"GLM-5.2","GPT-5.5","coding benchmark","SWE-bench Pro","Z.ai","open weights","AI coding agent",[25,26,27],"GLM-5.2 在 SWE-bench Pro 拿到 62.1 分，贏過 GPT-5.5 的 58.6 分。","Z.ai 主打 GLM-5.2 的成本約只有 GPT-5.5 的 1\u002F6。","開放權重加上低成本，會直接影響 coding agent 的產品選型。",0,"2026-06-27T12:47:27.330349+00:00","2026-06-27T12:47:27.321+00:00","0ccb5d2e-69f1-4354-a3e0-cb370221cd95",{"tags":33,"relatedLang":37,"relatedPosts":41},[34],{"name":35,"slug":36},"Z.AI","zai",{"id":15,"slug":38,"title":39,"language":40},"glm-52-beats-gpt-55-coding-benchmarks-en","GLM-5.2 beats GPT-5.5 on coding tests","en",[42,48,54,60,66,72],{"id":43,"slug":44,"title":45,"cover_image":46,"image_url":46,"created_at":47,"category":13},"186b266a-5b45-4bd4-85a4-5fa62fcc50dc","google-openrl-llm-fine-tuning-kubernetes-zh","Google OpenRL 把 RL 細調搬上 Kubernetes","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782572576166-gzxw.png","2026-06-27T15:02:27.036919+00:00",{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"9258a3d6-b70c-493d-84b9-c791df86f495","diffusiongemma-runs-fast-on-nvidia-rtx-dgx-zh","DiffusionGemma 在 RTX 與 DGX 跑很快","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782570778712-u643.png","2026-06-27T14:32:34.436232+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"611bdb86-e048-42b1-8bc5-c1adbd7fdcd9","openai-gpt-56-rollout-us-request-zh","OpenAI 收緊 GPT-5.6 上線節奏","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782555471713-w9pw.png","2026-06-27T10:17:28.515168+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"a5eb3216-fbe6-49cd-b61c-12106c736ac9","ubuntu-2610-snapshot-2-gnome-50-kernel-70-zh","Ubuntu 26.10 Snapshot 2 進入測試期","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782536575342-rok4.png","2026-06-27T05:02:30.419181+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"b4235bcf-4a42-4316-9b4c-2c32107a19f8","claude-fable-5-mythos-5-launch-1m-context-pricing-zh","Claude Fable 5 上線：1M 上下文、$10\u002F$50","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782518557709-jnuk.png","2026-06-27T00:02:12.917031+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"c1054826-22d4-45cb-b7e4-31b4c2e1240c","google-gemini-35-pro-july-release-delay-zh","Google 把 Gemini 3.5 Pro 延到 7 月","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782439370656-kj28.png","2026-06-26T02:02:27.975622+00:00",[79,84,89,94,99,104,109,114,119,124],{"id":80,"slug":81,"title":82,"created_at":83},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]