[RSCH] 3 分鐘閱讀OraCore 編輯部

18 項 AI 基準更新:GPT-5.5、Claude、Gemini 同場比拼

LM Council 6 月更新 18 項 AI benchmarks,整理 GPT-5.5、Claude、Gemini、Grok 等 30+ 模型成績,方便直接比對不同任務表現。

分享 LinkedIn
18 項 AI 基準更新:GPT-5.5、Claude、Gemini 同場比拼

LM Council 在 2026 年 6 月更新一個 18 項 AI benchmark 總表,把 GPT-5.5、Claude、Gemini、Grok 等 30+ 模型放在同一頁比較。

這頁由 LM Council 於 6 月 14 日更新,整合來自 Epoch AIScale AI 等來源的獨立測試。涵蓋推理、寫碼、數學、agent 任務與視覺題,目標不是做單一榜單,而是讓人快速看出各模型在哪些工作上更強。

項目數值
追蹤 benchmarks18
比較模型數30+
最後更新2026-06-14
FrontierMath v2 發布2026-06-12

發生了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這不是一張單純的排名表,而是一個可互動的比較頁。使用者可以選兩個模型、切換測試項目,直接看分數差異。

18 項 AI 基準更新:GPT-5.5、Claude、Gemini 同場比拼

頁面收錄的項目很廣,像是 Humanity’s Last Exam、SWE-bench Verified、GPQA Diamond、FrontierMath、Terminal-Bench 2.0、GeoBench。這代表你可以同時看推理、程式修 bug、數學與地理視覺任務,不必只盯著一個總分。

目前頁面上也能看到幾個明顯分化。OpenAI 的 GPT-5.4 Pro 在 GPQA Diamond 以 94.6% ±1.6 領先,Anthropic 的 Claude Opus 4.7(max)在 SWE-bench Verified 以 83.5% ±1.7 領先,Google DeepMind 的 Gemini 3.1 Pro Preview 則在 Humanity’s Last Exam 以 46.4% ±2.0 居前。

FrontierMath Tiers 1-3 v2 也很搶眼,GPT-5.5 Pro(xhigh)拿下 87.7% ±1.9。這些數字顯示,不同模型在數學、程式與知識題上的優勢並不一致。

  • Humanity’s Last Exam:Gemini 3.1 Pro Preview 46.4% ±2.0
  • SWE-bench Verified:Claude Opus 4.7(max)83.5% ±1.7
  • GPQA Diamond:GPT-5.4 Pro(xhigh)94.6% ±1.6
  • FrontierMath Tiers 1-3 v2:GPT-5.5 Pro(xhigh)87.7% ±1.9

為什麼重要

對開發者來說,這類總表比單一宣傳分數更實用。你要的是能修 bug 的模型、能解數學題的模型,還是能跑 terminal 任務的模型,答案可能完全不同。

18 項 AI 基準更新:GPT-5.5、Claude、Gemini 同場比拼

對採購與產品團隊,差距也不一定只看排名。當幾個模型在某些 benchmark 上只差一點點,價格、延遲、上下文長度、工具整合與部署限制,往往會比名次更影響選型。

這也反映出 2026 年的模型競爭方式:不是找一個通吃答案,而是按工作類型拆開看。誰在 code、math、agent、vision 上各自領先,會直接影響團隊怎麼切換模型與分配成本。

如果你今天只想問一句話,答案是這個:別再問「哪個模型最好」,先問「你的任務是哪一種」。