18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼

OraCore Editors

返回首頁

[RSCH] 2026年6月17日3 分鐘閱讀OraCore 編輯部

18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼

LM Council 6 月更新 18 項 AI benchmarks，整理 GPT-5.5、Claude、Gemini、Grok 等 30+ 模型成績，方便直接比對不同任務表現。

Claude AI benchmarks Gemini

分享 LinkedIn

LM Council 在 2026 年 6 月更新一個 18 項 AI benchmark 總表，把 GPT-5.5、Claude、Gemini、Grok 等 30+ 模型放在同一頁比較。

這頁由 LM Council 於 6 月 14 日更新，整合來自 Epoch AI、Scale AI 等來源的獨立測試。涵蓋推理、寫碼、數學、agent 任務與視覺題，目標不是做單一榜單，而是讓人快速看出各模型在哪些工作上更強。

項目	數值
追蹤 benchmarks	18
比較模型數	30+
最後更新	2026-06-14
FrontierMath v2 發布	2026-06-12

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這不是一張單純的排名表，而是一個可互動的比較頁。使用者可以選兩個模型、切換測試項目，直接看分數差異。

頁面收錄的項目很廣，像是 Humanity’s Last Exam、SWE-bench Verified、GPQA Diamond、FrontierMath、Terminal-Bench 2.0、GeoBench。這代表你可以同時看推理、程式修 bug、數學與地理視覺任務，不必只盯著一個總分。

目前頁面上也能看到幾個明顯分化。OpenAI 的 GPT-5.4 Pro 在 GPQA Diamond 以 94.6% ±1.6 領先，Anthropic 的 Claude Opus 4.7（max）在 SWE-bench Verified 以 83.5% ±1.7 領先，Google DeepMind 的 Gemini 3.1 Pro Preview 則在 Humanity’s Last Exam 以 46.4% ±2.0 居前。

FrontierMath Tiers 1-3 v2 也很搶眼，GPT-5.5 Pro（xhigh）拿下 87.7% ±1.9。這些數字顯示，不同模型在數學、程式與知識題上的優勢並不一致。

Humanity’s Last Exam：Gemini 3.1 Pro Preview 46.4% ±2.0
SWE-bench Verified：Claude Opus 4.7（max）83.5% ±1.7
GPQA Diamond：GPT-5.4 Pro（xhigh）94.6% ±1.6
FrontierMath Tiers 1-3 v2：GPT-5.5 Pro（xhigh）87.7% ±1.9

為什麼重要

對開發者來說，這類總表比單一宣傳分數更實用。你要的是能修 bug 的模型、能解數學題的模型，還是能跑 terminal 任務的模型，答案可能完全不同。

對採購與產品團隊，差距也不一定只看排名。當幾個模型在某些 benchmark 上只差一點點，價格、延遲、上下文長度、工具整合與部署限制，往往會比名次更影響選型。

這也反映出 2026 年的模型競爭方式：不是找一個通吃答案，而是按工作類型拆開看。誰在 code、math、agent、vision 上各自領先，會直接影響團隊怎麼切換模型與分配成本。

如果你今天只想問一句話，答案是這個：別再問「哪個模型最好」，先問「你的任務是哪一種」。

// 相關文章

18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼

發生了什麼

訂閱 AI 趨勢週報

為什麼重要

OpenAI 與 Hugging Face 事件證明：AI agents 必須…

Systema把虚拟细胞评估改成另一套玩法

義大利測試：USDC 匯款最高近 9%

穩定幣衝上3080億美元

Rust 編譯器 2026 7 月速度成果實作指南

用 DeepMind 做出小型語言模型