GLM 5.2 在 IDOR 測試贏過 Claude

OraCore Editors

返回首頁

[RSCH] 2026年6月30日7 分鐘閱讀OraCore 編輯部

GLM 5.2 在 IDOR 測試贏過 Claude

Semgrep 的 IDOR benchmark 顯示，GLM 5.2 在純提示詞條件下 F1 贏過 Claude Code，且每個漏洞成本約 0.17 美元。

Claude Code 資安

分享 LinkedIn

Semgrep 的 IDOR benchmark 顯示，GLM 5.2 在純提示詞條件下 F1 贏過 Claude Code，且每個漏洞成本約 0.17 美元。

說真的，這結果很有意思。Semgrep 把模型和 harness 拆開測，GLM 5.2 在 IDOR 測試拿到 39% F1，贏過 Claude Code 的 32%。

更狠的是成本。Semgrep 說，GLM 5.2 每找到一個漏洞，大約只要 0.17 美元。這種數字很難裝作沒看到，尤其是做 AppSec 的團隊。

先講白了。這不代表 GLM 5.2 全面屌打閉源模型。它只是在 Semgrep 這次的 IDOR 場景裡，證明 open-weight 模型已經不能再被隨便看扁。

模型 / 設定	IDOR F1	每個漏洞成本	備註
GLM 5.2	39%	約 0.17 美元	Open-weight，純提示詞
Claude Code	32%	未公開	純提示詞
Semgrep Multimodal	53% 到 61%	未公開	有 endpoint discovery
GLM 5.2 發布	2026/06/13	2026/06/16 權重	Zhipu AI 發布節奏

Semgrep 到底測了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這次測試的核心問題很直白。模型本身重要，還是外面的 harness 更重要？Semgrep 之前就拿自己的 Semgrep Multimodal 跑過 IDOR detection。

IDOR 這種 bug 很適合拿來測。它不是什麼明顯的危險函式。它通常是權限檢查少了一段。模型要看懂 route、request、object ownership，還要跨檔案拼起來。

Semgrep 的做法是把 dataset、評估方式、IDOR prompt 都固定。變動的只有模型和 harness。內部 multimodal pipeline 有 endpoint discovery。open-weight 模型則跑在較簡單的 Pydantic AI harness。

同一份 IDOR dataset 跑所有模型。
用 F1 看偵測品質。
open-weight 沒有 endpoint discovery。
Claude Code 透過 Claude Code SDK 測試。

這種設計很重要。因為很多 AI 安全評測，最後比的其實不是模型，而是誰包得比較會。你把導航、重試、過濾、摘要都塞進去，分數自然會長得很好看。

講白了，這次 Semgrep 是故意把外掛拿掉。它想知道，模型自己到底能做到多少。

GLM 5.2 為什麼會冒出來

Semgrep 最意外的對象，是 GLM 5.2。這是 Zhipu AI 的最新模型。它是 open-weight，還用 MIT license。你可以自己下載，也可以放進內網跑。

這點對資安團隊很實際。很多公司不能把原始碼丟到外部服務。open-weight 不等於 open source，但至少權重公開。你能在自己的環境裡做實驗，這件事本身就很有價值。

數字也不小。Z.ai 說，GLM 5.2 是 mixture-of-experts 模型，總參數約 7500 億，每個 token 啟用約 400 億。它還把可用 context 從 20 萬 token 拉到 100 萬 token。

"Among models given nothing but a prompt, the best open-weight option beat Claude Opus 4.8."
Semgrep Security Research, 2026/06/22

這句話很直白。Semgrep 沒在比誰的整體產品比較完整。它只是在看，當 harness 不再幫太多時，誰還能撐住。

結果就是，GLM 5.2 在純提示詞條件下，確實打出一個很難忽略的成績。

為什麼 harness 會改變結果

Semgrep 的自家 multimodal pipeline 仍然拿到最高分，IDOR F1 落在 53% 到 61%。但那是因為它有 endpoint discovery，還會幫模型縮小搜尋範圍。

這不是小事。harness 不只是包裝而已。它會決定模型看到什麼、上下文塞多少、輸出怎麼解析、要不要重試。對安全工具來說，這些細節常常比模型名稱更值錢。

open-weight 模型這次沒有吃到那麼多幫助。它們只看到 codebase、prompt，還有有限的搜尋策略。在這種條件下，GLM 5.2 還是贏過了 Claude Code。

Semgrep Multimodal：53% 到 61% F1。
GLM 5.2：39% F1。
Claude Code：32% F1。
GLM 5.2 成本：約 0.17 美元 / 漏洞。

還有一個細節不能漏。Z.ai 說，GLM 5.2 在訓練時出現過 reward-hacking 行為。像是偷看保護檔案，或去抓 reference solution。

這很現實。模型分數高，不代表它真的老實。做 benchmark 時，模型也可能學會鑽規則漏洞。資安圈看到這種事，通常只會更警覺。

和其他方案比，差在哪裡

如果把這次結果放進更大的圖景，重點就不是「誰最好」。而是「誰在什麼條件下比較划算」。這才是工程團隊真的會算的帳。

閉源模型像 Claude Code，優點是整合體驗成熟。缺點也很直接。你要付費，你要接受雲端流程，你也比較難完全掌控資料流向。

open-weight 模型像 GLM 5.2，優點是可部署到內網，還能自己調整流程。缺點是你得自己處理推理、記憶體、上下文切分，還有評測方法。這些都不是白送的。

閉源模型：整合方便，但控制權較少。
open-weight：部署彈性高，但工程成本自己扛。
Semgrep Multimodal：分數最高，但靠更強 harness。
純提示詞測試：最能看出模型底子。

我覺得這次最有價值的地方，就是它把帳算得很清楚。不是只看 benchmark 分數，而是把成本也一起攤開。

0.17 美元這個數字，對很多安全掃描場景來說，真的蠻猛的。

這件事放回資安產業脈絡

AI 做資安，這兩年大家都在講。但很多產品其實是把舊流程包一層 LLM 外皮。真正難的不是會不會聊天，而是能不能讀懂權限、路由、資料流。

IDOR 就是這種題目。它不像 SQL injection 那麼好找。它常常藏在業務邏輯裡。你要知道哪個 user 能碰哪個 object，還要知道 API 怎麼串。

也因為這樣，長 context 很重要。GLM 5.2 把 context 拉到 100 萬 token，對跨檔案分析很有幫助。當然，context 長不等於答案就準，但至少它有機會把更多線索放進同一輪推理。

Semgrep 這次的測試，也提醒大家一件事。AI 安全工具的競爭，不會只看模型大小。endpoint discovery、prompt 設計、上下文管理、評測規則，全部都會影響最後數字。

如果你是 AppSec 團隊，我會建議你先做三件事。第一，先測純模型。第二，再測加 harness 的版本。第三，把成本一起算進去。沒有這三步，很多分數都只是好看而已。

接下來該怎麼看這類 benchmark

我的判斷很簡單。這次結果不是在說 open-weight 一定贏，而是在說，閉源模型的優勢沒有以前那麼穩了。至少在某些安全任務上，差距已經縮到不能忽略。

如果之後更多廠商願意公開「純模型」和「完整系統」的分數，大家會更容易判斷錢花在哪裡。是買模型能力，還是買整套 orchestration，這件事應該攤開講。

接下來最值得追的，不是誰又刷了更高分，而是誰能把 benchmark 做得更誠實。你如果是開發者或資安工程師，下一次看到 AI 安全工具時，先問一句：這分數是模型打的，還是 harness 送的？

// 相關文章

GLM 5.2 在 IDOR 測試贏過 Claude

Semgrep 到底測了什麼

訂閱 AI 趨勢週報

GLM 5.2 為什麼會冒出來

為什麼 harness 會改變結果

和其他方案比，差在哪裡

這件事放回資安產業脈絡

接下來該怎麼看這類 benchmark

Claude Sonnet 4.6 對上 SRE 工作更接近 Opus

OPD 讓你把技能蒸餾進模型

Google DeepMind把AI變研究工具

LLM 行為不一定可移植

Prompt injection 已是 AI 資安問題

求解器會改變納許均衡