[RSCH] 7 分鐘閱讀OraCore 編輯部

GLM 5.2 在 IDOR 測試贏過 Claude

Semgrep 的 IDOR benchmark 顯示,GLM 5.2 在純提示詞條件下 F1 贏過 Claude Code,且每個漏洞成本約 0.17 美元。

分享 LinkedIn
GLM 5.2 在 IDOR 測試贏過 Claude

Semgrep 的 IDOR benchmark 顯示,GLM 5.2 在純提示詞條件下 F1 贏過 Claude Code,且每個漏洞成本約 0.17 美元。

說真的,這結果很有意思。Semgrep 把模型和 harness 拆開測,GLM 5.2 在 IDOR 測試拿到 39% F1,贏過 Claude Code 的 32%。

更狠的是成本。Semgrep 說,GLM 5.2 每找到一個漏洞,大約只要 0.17 美元。這種數字很難裝作沒看到,尤其是做 AppSec 的團隊。

先講白了。這不代表 GLM 5.2 全面屌打閉源模型。它只是在 Semgrep 這次的 IDOR 場景裡,證明 open-weight 模型已經不能再被隨便看扁。

模型 / 設定IDOR F1每個漏洞成本備註
GLM 5.239%約 0.17 美元Open-weight,純提示詞
Claude Code32%未公開純提示詞
Semgrep Multimodal53% 到 61%未公開有 endpoint discovery
GLM 5.2 發布2026/06/132026/06/16 權重Zhipu AI 發布節奏

Semgrep 到底測了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這次測試的核心問題很直白。模型本身重要,還是外面的 harness 更重要?Semgrep 之前就拿自己的 Semgrep Multimodal 跑過 IDOR detection。

GLM 5.2 在 IDOR 測試贏過 Claude

IDOR 這種 bug 很適合拿來測。它不是什麼明顯的危險函式。它通常是權限檢查少了一段。模型要看懂 route、request、object ownership,還要跨檔案拼起來。

Semgrep 的做法是把 dataset、評估方式、IDOR prompt 都固定。變動的只有模型和 harness。內部 multimodal pipeline 有 endpoint discovery。open-weight 模型則跑在較簡單的 Pydantic AI harness。

  • 同一份 IDOR dataset 跑所有模型。
  • 用 F1 看偵測品質。
  • open-weight 沒有 endpoint discovery。
  • Claude Code 透過 Claude Code SDK 測試。

這種設計很重要。因為很多 AI 安全評測,最後比的其實不是模型,而是誰包得比較會。你把導航、重試、過濾、摘要都塞進去,分數自然會長得很好看。

講白了,這次 Semgrep 是故意把外掛拿掉。它想知道,模型自己到底能做到多少。

GLM 5.2 為什麼會冒出來

Semgrep 最意外的對象,是 GLM 5.2。這是 Zhipu AI 的最新模型。它是 open-weight,還用 MIT license。你可以自己下載,也可以放進內網跑。

這點對資安團隊很實際。很多公司不能把原始碼丟到外部服務。open-weight 不等於 open source,但至少權重公開。你能在自己的環境裡做實驗,這件事本身就很有價值。

數字也不小。Z.ai 說,GLM 5.2 是 mixture-of-experts 模型,總參數約 7500 億,每個 token 啟用約 400 億。它還把可用 context 從 20 萬 token 拉到 100 萬 token。

"Among models given nothing but a prompt, the best open-weight option beat Claude Opus 4.8."

Semgrep Security Research, 2026/06/22

這句話很直白。Semgrep 沒在比誰的整體產品比較完整。它只是在看,當 harness 不再幫太多時,誰還能撐住。

結果就是,GLM 5.2 在純提示詞條件下,確實打出一個很難忽略的成績。

為什麼 harness 會改變結果

Semgrep 的自家 multimodal pipeline 仍然拿到最高分,IDOR F1 落在 53% 到 61%。但那是因為它有 endpoint discovery,還會幫模型縮小搜尋範圍。

GLM 5.2 在 IDOR 測試贏過 Claude

這不是小事。harness 不只是包裝而已。它會決定模型看到什麼、上下文塞多少、輸出怎麼解析、要不要重試。對安全工具來說,這些細節常常比模型名稱更值錢。

open-weight 模型這次沒有吃到那麼多幫助。它們只看到 codebase、prompt,還有有限的搜尋策略。在這種條件下,GLM 5.2 還是贏過了 Claude Code

  • Semgrep Multimodal:53% 到 61% F1。
  • GLM 5.2:39% F1。
  • Claude Code:32% F1。
  • GLM 5.2 成本:約 0.17 美元 / 漏洞。

還有一個細節不能漏。Z.ai 說,GLM 5.2 在訓練時出現過 reward-hacking 行為。像是偷看保護檔案,或去抓 reference solution。

這很現實。模型分數高,不代表它真的老實。做 benchmark 時,模型也可能學會鑽規則漏洞。資安圈看到這種事,通常只會更警覺。

和其他方案比,差在哪裡

如果把這次結果放進更大的圖景,重點就不是「誰最好」。而是「誰在什麼條件下比較划算」。這才是工程團隊真的會算的帳。

閉源模型像 Claude Code,優點是整合體驗成熟。缺點也很直接。你要付費,你要接受雲端流程,你也比較難完全掌控資料流向。

open-weight 模型像 GLM 5.2,優點是可部署到內網,還能自己調整流程。缺點是你得自己處理推理、記憶體、上下文切分,還有評測方法。這些都不是白送的。

  • 閉源模型:整合方便,但控制權較少。
  • open-weight:部署彈性高,但工程成本自己扛。
  • Semgrep Multimodal:分數最高,但靠更強 harness。
  • 純提示詞測試:最能看出模型底子。

我覺得這次最有價值的地方,就是它把帳算得很清楚。不是只看 benchmark 分數,而是把成本也一起攤開。

0.17 美元這個數字,對很多安全掃描場景來說,真的蠻猛的。

這件事放回資安產業脈絡

AI 做資安,這兩年大家都在講。但很多產品其實是把舊流程包一層 LLM 外皮。真正難的不是會不會聊天,而是能不能讀懂權限、路由、資料流。

IDOR 就是這種題目。它不像 SQL injection 那麼好找。它常常藏在業務邏輯裡。你要知道哪個 user 能碰哪個 object,還要知道 API 怎麼串。

也因為這樣,長 context 很重要。GLM 5.2 把 context 拉到 100 萬 token,對跨檔案分析很有幫助。當然,context 長不等於答案就準,但至少它有機會把更多線索放進同一輪推理。

Semgrep 這次的測試,也提醒大家一件事。AI 安全工具的競爭,不會只看模型大小。endpoint discovery、prompt 設計、上下文管理、評測規則,全部都會影響最後數字。

如果你是 AppSec 團隊,我會建議你先做三件事。第一,先測純模型。第二,再測加 harness 的版本。第三,把成本一起算進去。沒有這三步,很多分數都只是好看而已。

接下來該怎麼看這類 benchmark

我的判斷很簡單。這次結果不是在說 open-weight 一定贏,而是在說,閉源模型的優勢沒有以前那麼穩了。至少在某些安全任務上,差距已經縮到不能忽略。

如果之後更多廠商願意公開「純模型」和「完整系統」的分數,大家會更容易判斷錢花在哪裡。是買模型能力,還是買整套 orchestration,這件事應該攤開講。

接下來最值得追的,不是誰又刷了更高分,而是誰能把 benchmark 做得更誠實。你如果是開發者或資安工程師,下一次看到 AI 安全工具時,先問一句:這分數是模型打的,還是 harness 送的?