AI Benchmarks 2026：高分撞上天花板

[RSCH] 2026年6月14日3 分鐘閱讀OraCore 編輯部

Kili Technology 4/13 指出，2026 年 AI benchmark 分數持續逼近上限，但真實部署的失誤、污染與成本差距仍在擴大。

Kili Technology 在 2026 年 4 月 13 日整理出一個明確訊號：AI benchmark 分數正在逼近上限，但真實部署表現沒有同步跟上。

這份指南把 2026 年的評測分成知識、推理、寫碼、代理任務、專業工作與安全六類。它的核心結論很直接，單一分數已經很難代表模型能不能上線。

項目	數值
MMLU frontier ceiling	88%+
Humanity’s Last Exam top score	37.5%
Human domain expert average on HLE	~90%
Lab-to-deployment gap for enterprise agents	37%
Organizations with AI agents in production	57%

發生了什麼

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這份指南點名，Kili Technology 觀察到多個主流 benchmark 已經開始飽和。MMLU 與 MMLU-Pro 很難再清楚拉開頂尖模型差距，GPQA Diamond 仍能區分中段模型，但對最強模型的辨識力也在下降。

另一個焦點是 Humanity’s Last Exam。這組由多領域專家設計的題目把頂尖模型壓到 30% 多，但人類專家平均仍接近 90%。這代表模型在標準題庫上看起來很強，遇到跨領域、需要精準判斷的題目時，差距仍然很大。

寫碼與代理測試也暴露出不同問題。SWE-Bench Verified 有污染疑慮，因此 OpenAI 停止引用；LiveCodeBench、SEAL、Terminal-Bench 則改用新題目、更嚴格工具和更接近真實流程的方式補洞。

代理評測把落差放得更明顯。指南舉例，Claude Opus 4 在不同 agent framework 中，分數可從 64.9% 掉到 57.6%。這表示 orchestration layer、工具設定與流程設計，往往和模型本體一樣重要。

對開發者來說，benchmark 已經不是「看分數就能選模」的時代。指南提到，企業級 agent 的 lab-to-deployment gap 仍有 37%，而且相近準確率的方案，成本可能差到 50 倍。換句話說，leaderboard 高分不等於便宜、穩定、可控。

對產業來說，這也改變了採購與評測流程。OpenAI、Anthropic 這類模型供應商可以用不同 benchmark 講故事，但真正上線的團隊更需要分層評測：先用自動化指標做篩選，再用 LLM-as-a-judge 進行初步判讀，最後交給人類專家做領域驗證。

這也解釋了為什麼安全 benchmark 變得更重要。Agent-SafetyBench、CUAHarm、OS-HARM 這類測試，看的不是單一正確率，而是模型在工具、權限與長流程裡會不會出錯。對要把 AI 放進客服、法務、營運或程式開發流程的團隊來說，這些分數比榜單名次更接近真實風險。

問題已經不是「哪個 benchmark 最高」，而是「哪一組評測，能撐過客戶、稽核和邊界案例」。

// 相關文章