[RSCH] 3 分鐘閱讀OraCore 編輯部

AI Benchmarks 2026:高分撞上天花板

Kili Technology 4/13 指出,2026 年 AI benchmark 分數持續逼近上限,但真實部署的失誤、污染與成本差距仍在擴大。

分享 LinkedIn
AI Benchmarks 2026:高分撞上天花板

Kili Technology 在 2026 年 4 月 13 日整理出一個明確訊號:AI benchmark 分數正在逼近上限,但真實部署表現沒有同步跟上。

這份指南把 2026 年的評測分成知識、推理、寫碼、代理任務、專業工作與安全六類。它的核心結論很直接,單一分數已經很難代表模型能不能上線。

項目數值
MMLU frontier ceiling88%+
Humanity’s Last Exam top score37.5%
Human domain expert average on HLE~90%
Lab-to-deployment gap for enterprise agents37%
Organizations with AI agents in production57%

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這份指南點名,Kili Technology 觀察到多個主流 benchmark 已經開始飽和。MMLU 與 MMLU-Pro 很難再清楚拉開頂尖模型差距,GPQA Diamond 仍能區分中段模型,但對最強模型的辨識力也在下降。

AI Benchmarks 2026:高分撞上天花板

另一個焦點是 Humanity’s Last Exam。這組由多領域專家設計的題目把頂尖模型壓到 30% 多,但人類專家平均仍接近 90%。這代表模型在標準題庫上看起來很強,遇到跨領域、需要精準判斷的題目時,差距仍然很大。

寫碼與代理測試也暴露出不同問題。SWE-Bench Verified 有污染疑慮,因此 OpenAI 停止引用;LiveCodeBenchSEALTerminal-Bench 則改用新題目、更嚴格工具和更接近真實流程的方式補洞。

  • MMLU frontier 模型已超過 88%。
  • GPT-5.3 Codex 在 MMLU 可達 93%。
  • HLE 收錄 2,500 題專家題目。
  • OpenAI 的 GDPval 以 1,320 個專業任務與人工評分測試。
  • WebArenaGAIA、τ2-Bench 與 ARC-AGI-3 主要看規劃、工具使用和環境變化。

代理評測把落差放得更明顯。指南舉例,Claude Opus 4 在不同 agent framework 中,分數可從 64.9% 掉到 57.6%。這表示 orchestration layer、工具設定與流程設計,往往和模型本體一樣重要。

為什麼重要

對開發者來說,benchmark 已經不是「看分數就能選模」的時代。指南提到,企業級 agent 的 lab-to-deployment gap 仍有 37%,而且相近準確率的方案,成本可能差到 50 倍。換句話說,leaderboard 高分不等於便宜、穩定、可控。

AI Benchmarks 2026:高分撞上天花板

對產業來說,這也改變了採購與評測流程。OpenAIAnthropic 這類模型供應商可以用不同 benchmark 講故事,但真正上線的團隊更需要分層評測:先用自動化指標做篩選,再用 LLM-as-a-judge 進行初步判讀,最後交給人類專家做領域驗證。

這也解釋了為什麼安全 benchmark 變得更重要。Agent-SafetyBench、CUAHarm、OS-HARM 這類測試,看的不是單一正確率,而是模型在工具、權限與長流程裡會不會出錯。對要把 AI 放進客服、法務、營運或程式開發流程的團隊來說,這些分數比榜單名次更接近真實風險。

問題已經不是「哪個 benchmark 最高」,而是「哪一組評測,能撐過客戶、稽核和邊界案例」。