AI Benchmarks 2026:高分撞上天花板
Kili Technology 4/13 指出,2026 年 AI benchmark 分數持續逼近上限,但真實部署的失誤、污染與成本差距仍在擴大。

Kili Technology 在 2026 年 4 月 13 日整理出一個明確訊號:AI benchmark 分數正在逼近上限,但真實部署表現沒有同步跟上。
這份指南把 2026 年的評測分成知識、推理、寫碼、代理任務、專業工作與安全六類。它的核心結論很直接,單一分數已經很難代表模型能不能上線。
| 項目 | 數值 |
|---|---|
| MMLU frontier ceiling | 88%+ |
| Humanity’s Last Exam top score | 37.5% |
| Human domain expert average on HLE | ~90% |
| Lab-to-deployment gap for enterprise agents | 37% |
| Organizations with AI agents in production | 57% |
發生了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
這份指南點名,Kili Technology 觀察到多個主流 benchmark 已經開始飽和。MMLU 與 MMLU-Pro 很難再清楚拉開頂尖模型差距,GPQA Diamond 仍能區分中段模型,但對最強模型的辨識力也在下降。

另一個焦點是 Humanity’s Last Exam。這組由多領域專家設計的題目把頂尖模型壓到 30% 多,但人類專家平均仍接近 90%。這代表模型在標準題庫上看起來很強,遇到跨領域、需要精準判斷的題目時,差距仍然很大。
寫碼與代理測試也暴露出不同問題。SWE-Bench Verified 有污染疑慮,因此 OpenAI 停止引用;LiveCodeBench、SEAL、Terminal-Bench 則改用新題目、更嚴格工具和更接近真實流程的方式補洞。
- MMLU frontier 模型已超過 88%。
- GPT-5.3 Codex 在 MMLU 可達 93%。
- HLE 收錄 2,500 題專家題目。
- OpenAI 的 GDPval 以 1,320 個專業任務與人工評分測試。
- WebArena、GAIA、τ2-Bench 與 ARC-AGI-3 主要看規劃、工具使用和環境變化。
代理評測把落差放得更明顯。指南舉例,Claude Opus 4 在不同 agent framework 中,分數可從 64.9% 掉到 57.6%。這表示 orchestration layer、工具設定與流程設計,往往和模型本體一樣重要。
為什麼重要
對開發者來說,benchmark 已經不是「看分數就能選模」的時代。指南提到,企業級 agent 的 lab-to-deployment gap 仍有 37%,而且相近準確率的方案,成本可能差到 50 倍。換句話說,leaderboard 高分不等於便宜、穩定、可控。

對產業來說,這也改變了採購與評測流程。OpenAI、Anthropic 這類模型供應商可以用不同 benchmark 講故事,但真正上線的團隊更需要分層評測:先用自動化指標做篩選,再用 LLM-as-a-judge 進行初步判讀,最後交給人類專家做領域驗證。
這也解釋了為什麼安全 benchmark 變得更重要。Agent-SafetyBench、CUAHarm、OS-HARM 這類測試,看的不是單一正確率,而是模型在工具、權限與長流程裡會不會出錯。對要把 AI 放進客服、法務、營運或程式開發流程的團隊來說,這些分數比榜單名次更接近真實風險。
問題已經不是「哪個 benchmark 最高」,而是「哪一組評測,能撐過客戶、稽核和邊界案例」。