18 項 AI 基準更新:GPT-5.5、Claude、Gemini 同場比拼
LM Council 6 月更新 18 項 AI benchmarks,整理 GPT-5.5、Claude、Gemini、Grok 等 30+ 模型成績,方便直接比對不同任務表現。

LM Council 在 2026 年 6 月更新一個 18 項 AI benchmark 總表,把 GPT-5.5、Claude、Gemini、Grok 等 30+ 模型放在同一頁比較。
這頁由 LM Council 於 6 月 14 日更新,整合來自 Epoch AI、Scale AI 等來源的獨立測試。涵蓋推理、寫碼、數學、agent 任務與視覺題,目標不是做單一榜單,而是讓人快速看出各模型在哪些工作上更強。
| 項目 | 數值 |
|---|---|
| 追蹤 benchmarks | 18 |
| 比較模型數 | 30+ |
| 最後更新 | 2026-06-14 |
| FrontierMath v2 發布 | 2026-06-12 |
發生了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
這不是一張單純的排名表,而是一個可互動的比較頁。使用者可以選兩個模型、切換測試項目,直接看分數差異。

頁面收錄的項目很廣,像是 Humanity’s Last Exam、SWE-bench Verified、GPQA Diamond、FrontierMath、Terminal-Bench 2.0、GeoBench。這代表你可以同時看推理、程式修 bug、數學與地理視覺任務,不必只盯著一個總分。
目前頁面上也能看到幾個明顯分化。OpenAI 的 GPT-5.4 Pro 在 GPQA Diamond 以 94.6% ±1.6 領先,Anthropic 的 Claude Opus 4.7(max)在 SWE-bench Verified 以 83.5% ±1.7 領先,Google DeepMind 的 Gemini 3.1 Pro Preview 則在 Humanity’s Last Exam 以 46.4% ±2.0 居前。
FrontierMath Tiers 1-3 v2 也很搶眼,GPT-5.5 Pro(xhigh)拿下 87.7% ±1.9。這些數字顯示,不同模型在數學、程式與知識題上的優勢並不一致。
- Humanity’s Last Exam:Gemini 3.1 Pro Preview 46.4% ±2.0
- SWE-bench Verified:Claude Opus 4.7(max)83.5% ±1.7
- GPQA Diamond:GPT-5.4 Pro(xhigh)94.6% ±1.6
- FrontierMath Tiers 1-3 v2:GPT-5.5 Pro(xhigh)87.7% ±1.9
為什麼重要
對開發者來說,這類總表比單一宣傳分數更實用。你要的是能修 bug 的模型、能解數學題的模型,還是能跑 terminal 任務的模型,答案可能完全不同。

對採購與產品團隊,差距也不一定只看排名。當幾個模型在某些 benchmark 上只差一點點,價格、延遲、上下文長度、工具整合與部署限制,往往會比名次更影響選型。
這也反映出 2026 年的模型競爭方式:不是找一個通吃答案,而是按工作類型拆開看。誰在 code、math、agent、vision 上各自領先,會直接影響團隊怎麼切換模型與分配成本。
如果你今天只想問一句話,答案是這個:別再問「哪個模型最好」,先問「你的任務是哪一種」。