[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-ai-benchmarks-2026-evaluations-limits-zh":3,"article-related-ai-benchmarks-2026-evaluations-limits-zh":30,"series-research-e6c76870-1fa5-45e5-bb8c-436070b9e5cc":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"e6c76870-1fa5-45e5-bb8c-436070b9e5cc","ai-benchmarks-2026-evaluations-limits-zh","AI Benchmarks 2026：高分撞上天花板","\u003Cp data-speakable=\"summary\">Kili Technology 在 2026 年 4 月 13 日整理出一個明確\u003Ca href=\"\u002Fnews\u002Fsolana-latest-updates-real-utility-pressure-zh\">訊號\u003C\u002Fa>：AI \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 分數正在逼近上限，但真實部署表現沒有同步跟上。\u003C\u002Fp>\u003Cp>這份指南把 2026 年的評測分成知識、推理、寫碼、代理任務、專業工作與安全六類。它的核心結論很直接，單一分數已經很難代表模型能不能上線。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>MMLU frontier ceiling\u003C\u002Ftd>\u003Ctd>88%+\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Humanity’s Last Exam top score\u003C\u002Ftd>\u003Ctd>37.5%\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Human domain expert average on HLE\u003C\u002Ftd>\u003Ctd>~90%\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Lab-to-deployment gap for enterprise agents\u003C\u002Ftd>\u003Ctd>37%\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Organizations with AI agents in production\u003C\u002Ftd>\u003Ctd>57%\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>發生了什麼\u003C\u002Fh2>\u003Cp>這份指南點名，\u003Ca href=\"https:\u002F\u002Fkili-technology.com\" target=\"_blank\" rel=\"noopener\">Kili Technology\u003C\u002Fa> 觀察到多個主流 benchmark 已經開始飽和。\u003Ca href=\"https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fmulti-task-language-understanding\" target=\"_blank\" rel=\"noopener\">MMLU\u003C\u002Fa> 與 MMLU-Pro 很難再清楚拉開頂尖模型差距，\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fallenai\u002FGPQA\" target=\"_blank\" rel=\"noopener\">GPQA Diamond\u003C\u002Fa> 仍能區分中段模型，但對最強模型的辨識力也在下降。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781381872937-6kjx.png\" alt=\"AI Benchmarks 2026：高分撞上天花板\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>另一個焦點是 \u003Ca href=\"https:\u002F\u002Fwww.hle.ai\" target=\"_blank\" rel=\"noopener\">Humanity’s Last Exam\u003C\u002Fa>。這組由多領域專家設計的題目把頂尖模型壓到 30% 多，但人類專家平均仍接近 90%。這代表模型在標準題庫上看起來很強，遇到跨領域、需要精準判斷的題目時，差距仍然很大。\u003C\u002Fp>\u003Cp>寫碼與代理測試也暴露出不同問題。\u003Ca href=\"https:\u002F\u002Fwww.swebench.com\" target=\"_blank\" rel=\"noopener\">SWE-Bench Verified\u003C\u002Fa> 有污染疑慮，因此 \u003Ca href=\"\u002Ftag\u002Fopenai\">OpenAI\u003C\u002Fa> 停止引用；\u003Ca href=\"https:\u002F\u002Flivecodebench.github.io\" target=\"_blank\" rel=\"noopener\">LiveCodeBench\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.seal-bench.com\" target=\"_blank\" rel=\"noopener\">SEAL\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fterminal-bench.github.io\" target=\"_blank\" rel=\"noopener\">Terminal-Bench\u003C\u002Fa> 則改用新題目、更嚴格工具和更接近真實流程的方式補洞。\u003C\u002Fp>\u003Cul>\u003Cli>MMLU frontier 模型已超過 88%。\u003C\u002Fli>\u003Cli>GPT-5.3 Codex 在 MMLU 可達 93%。\u003C\u002Fli>\u003Cli>HLE 收錄 2,500 題專家題目。\u003C\u002Fli>\u003Cli>OpenAI 的 GDPval 以 1,320 個專業任務與人工評分測試。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwebarena.dev\" target=\"_blank\" rel=\"noopener\">WebArena\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgaia-benchmark.com\" target=\"_blank\" rel=\"noopener\">GAIA\u003C\u002Fa>、τ2-Bench 與 ARC-AGI-3 主要看規劃、工具使用和環境變化。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>代理評測把落差放得更明顯。指南舉例，\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\" target=\"_blank\" rel=\"noopener\">Claude\u003C\u002Fa> Opus 4 在不同 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> framework 中，分數可從 64.9% 掉到 57.6%。這表示 orchestration layer、工具設定與流程設計，往往和模型本體一樣重要。\u003C\u002Fp>\u003Ch2>為什麼重要\u003C\u002Fh2>\u003Cp>對開發者來說，benchmark 已經不是「看分數就能選模」的時代。指南提到，\u003Ca href=\"\u002Fnews\u002Ffine-tuning-slms-turns-enterprise-ai-practical-zh\">企業\u003C\u002Fa>級 agent 的 lab-to-deployment gap 仍有 37%，而且相近準確率的方案，成本可能差到 50 倍。換句話說，leaderboard 高分不等於便宜、穩定、可控。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781381870042-pavh.png\" alt=\"AI Benchmarks 2026：高分撞上天花板\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對產業來說，這也改變了採購與評測流程。\u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 這類模型供應商可以用不同 benchmark 講\u003Ca href=\"\u002Fnews\u002Fanthropic-governance-market-story-zh\">故事\u003C\u002Fa>，但真正上線的團隊更需要分層評測：先用自動化指標做篩選，再用 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa>-as-a-judge 進行初步判讀，最後交給人類專家做領域驗證。\u003C\u002Fp>\u003Cp>這也解釋了為什麼安全 benchmark 變得更重要。Agent-SafetyBench、CUAHarm、OS-HARM 這類測試，看的不是單一正確率，而是模型在工具、權限與長流程裡會不會出錯。對要把 AI 放進客服、法務、營運或程式開發流程的團隊來說，這些分數比榜單名次更接近真實風險。\u003C\u002Fp>\u003Cp>問題已經不是「哪個 benchmark 最高」，而是「哪一組評測，能撐過客戶、稽核和邊界案例」。\u003C\u002Fp>","Kili Technology 4\u002F13 指出，2026 年 AI benchmark 分數持續逼近上限，但真實部署的失誤、污染與成本差距仍在擴大。","kili-technology.com","https:\u002F\u002Fkili-technology.com\u002Fblog\u002Fai-benchmarks-guide-the-top-evaluations-in-2026-and-why-theyre-not-enough",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781381872937-6kjx.png","research","zh","e891adc0-af64-41c7-bb41-d75e6506d388",[17,18,19,20,21],"AI benchmarks","MMLU","Humanity’s Last Exam","agent evaluation","model safety",[23,24,25],"主流 benchmark 正在飽和，頂尖模型之間越來越難分高下。","真實部署的失誤與成本差距，正在拉開和實驗室分數的距離。","團隊需要分層評測，而不是只看單一 leaderboard。",0,"2026-06-13T20:17:25.971321+00:00","2026-06-13T20:17:25.97+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":18,"slug":33},"mmlu",{"name":21,"slug":35},"model-safety",{"name":17,"slug":37},"ai-benchmarks",{"name":20,"slug":39},"agent-evaluation",{"name":19,"slug":41},"humanitys-last-exam",{"id":15,"slug":43,"title":44,"language":45},"ai-benchmarks-2026-evaluations-limits-en","AI Benchmarks 2026: Top Evaluations and Limits","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"59cf2061-712e-4a92-b3a7-5bdd8644c5a6","art-fine-tunes-multimodal-llms-via-pixels-zh","用像素微調多模態 LLM","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781266684477-t1np.png","2026-06-12T12:17:31.662347+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"e08b8946-29a0-486a-b2c1-b23faf16b441","taxonomy-rwa-tokenization-blockchain-infrastructure-zh","RWA 代幣化的 23 維分類法","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781259482592-9fiv.png","2026-06-12T10:17:30.417901+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"34681ebb-0d9d-4988-822a-45b6e5ad46d6","2026-llm-paper-lists-better-than-feeds-zh","2026 年的 LLM 論文清單，比資訊流更適合做研究","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781258570660-0l2n.png","2026-06-12T10:02:16.438561+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"8a06c20a-c2d6-4cb0-a35c-69eab7f7f89a","anthropic-ai-building-ai-recursive-self-improvement-zh","Anthropic 自己的數據已經證明：AI 正在幫 AI 進步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781257685705-1m6f.png","2026-06-12T09:47:24.801004+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"29143a1b-a610-4674-96a5-e3b1695350bd","project-glasswing-mythos-bug-chaining-zh","Project Glasswing 揭露 Mythos 會串漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781254982476-voas.png","2026-06-12T09:02:32.008908+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"ba442703-edfa-4353-b256-db502d94a99e","mana-articulated-tool-manipulation-animation-zh","Mana把工具操作改寫成動畫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781246882933-bvjm.png","2026-06-12T06:47:29.612828+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]