標籤

AI benchmarks

AI 基準測試用來比較模型在推理、知識問答、程式能力與長上下文等面向的表現，像 ARC-AGI-2、GPQA、MMLU 這類分數常被拿來判斷新模型是否真的進步，也能看出各家在成本與能力之間的取捨。

3 篇文章

18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼

技術研究/6月17日

18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼

LM Council 6 月更新 18 項 AI benchmarks，整理 GPT-5.5、Claude、Gemini、Grok 等 30+ 模型成績，方便直接比對不同任務表現。

AI Benchmarks 2026：高分撞上天花板

技術研究/6月14日

AI Benchmarks 2026：高分撞上天花板

Kili Technology 4/13 指出，2026 年 AI benchmark 分數持續逼近上限，但真實部署的失誤、污染與成本差距仍在擴大。

5 個最值得先看的 AI 基準

產業動態/6月9日

5 個最值得先看的 AI 基準

300+ 個 AI 基準集中比較，先看 5 項就能判斷模型在推理、寫碼、視覺與工具呼叫上的實力。