標籤
AI benchmarks
AI 基準測試用來比較模型在推理、知識問答、程式能力與長上下文等面向的表現,像 ARC-AGI-2、GPQA、MMLU 這類分數常被拿來判斷新模型是否真的進步,也能看出各家在成本與能力之間的取捨。
3 篇文章

技術研究/6月17日
18 項 AI 基準更新:GPT-5.5、Claude、Gemini 同場比拼
LM Council 6 月更新 18 項 AI benchmarks,整理 GPT-5.5、Claude、Gemini、Grok 等 30+ 模型成績,方便直接比對不同任務表現。

技術研究/6月14日
AI Benchmarks 2026:高分撞上天花板
Kili Technology 4/13 指出,2026 年 AI benchmark 分數持續逼近上限,但真實部署的失誤、污染與成本差距仍在擴大。

產業動態/6月9日
5 個最值得先看的 AI 基準
300+ 個 AI 基準集中比較,先看 5 項就能判斷模型在推理、寫碼、視覺與工具呼叫上的實力。