[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-ai-model-benchmarks-gpt-55-claude-gemini-en-zh":3,"article-related-ai-model-benchmarks-gpt-55-claude-gemini-en-zh":30,"series-research-83b83aaf-90bf-44d6-a2c8-74665bfe99b8":79},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"83b83aaf-90bf-44d6-a2c8-74665bfe99b8","ai-model-benchmarks-gpt-55-claude-gemini-en-zh","18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼","\u003Cp data-speakable=\"summary\">LM Council 在 2026 年 6 月更新一個 18 項 AI \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 總表，把 GPT-5.5、\u003Ca href=\"\u002Ftag\u002Fclaude\">Claude\u003C\u002Fa>、Gemini、Grok 等 30+ 模型放在同一頁比較。\u003C\u002Fp>\u003Cp>這頁由 \u003Ca href=\"https:\u002F\u002Flmcouncil.ai\u002Fbenchmarks\" target=\"_blank\" rel=\"noopener\">LM Council\u003C\u002Fa> 於 6 月 14 日更新，整合來自 \u003Ca href=\"https:\u002F\u002Fepoch.ai\" target=\"_blank\" rel=\"noopener\">Epoch AI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fscale.com\" target=\"_blank\" rel=\"noopener\">Scale AI\u003C\u002Fa> 等來源的獨立測試。涵蓋推理、寫碼、數學、agent 任務與視覺題，目標不是做單一榜單，而是讓人快速看出各模型在哪些工作上更強。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>追蹤 benchmarks\u003C\u002Ftd>\u003Ctd>18\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>比較模型數\u003C\u002Ftd>\u003Ctd>30+\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>最後更新\u003C\u002Ftd>\u003Ctd>2026-06-14\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>FrontierMath v2 發布\u003C\u002Ftd>\u003Ctd>2026-06-12\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>發生了什麼\u003C\u002Fh2>\u003Cp>這不是一張單純的排名表，而是一個可互動的比較頁。使用者可以選兩個模型、切換測試項目，直接看\u003Ca href=\"\u002Fnews\u002Fexact-posterior-scores-inverse-problems-zh\">分數\u003C\u002Fa>差異。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781636583869-5rox.png\" alt=\"18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>頁面收錄的項目很廣，像是 Humanity’s Last Exam、\u003Ca href=\"\u002Ftag\u002Fswe-bench-verified\">SWE-bench Verified\u003C\u002Fa>、GPQA Diamond、FrontierMath、Terminal-Bench 2.0、GeoBench。這代表你可以同時看推理、程式修 bug、數學與地理視覺任務，不必只盯著一個總分。\u003C\u002Fp>\u003Cp>目前頁面上也能看到幾個明顯分化。\u003Ca href=\"https:\u002F\u002Fopenai.com\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 的 GPT-5.4 Pro 在 GPQA Diamond 以 94.6% ±1.6 領先，\u003Ca href=\"https:\u002F\u002Fanthropic.com\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 的 Claude \u003Ca href=\"\u002Ftag\u002Fopus-47\">Opus 4.7\u003C\u002Fa>（max）在 \u003Ca href=\"\u002Ftag\u002Fswe-bench\">SWE-bench\u003C\u002Fa> Verified 以 83.5% ±1.7 領先，\u003Ca href=\"https:\u002F\u002Fdeepmind.google\" target=\"_blank\" rel=\"noopener\">Google DeepMind\u003C\u002Fa> 的 Gemini 3.1 Pro Preview 則在 Humanity’s Last Exam 以 46.4% ±2.0 居前。\u003C\u002Fp>\u003Cp>FrontierMath Tiers 1-3 v2 也很搶眼，GPT-5.5 Pro（xhigh）拿下 87.7% ±1.9。這些數字顯示，不同模型在數學、程式與知識題上的\u003Ca href=\"\u002Fnews\u002Fminimax-m3-real-edge-agentic-work-not-broad-excellence-zh\">優勢\u003C\u002Fa>並不一致。\u003C\u002Fp>\u003Cul>\u003Cli>Humanity’s Last Exam：Gemini 3.1 Pro Preview 46.4% ±2.0\u003C\u002Fli>\u003Cli>SWE-bench Verified：Claude Opus 4.7（max）83.5% ±1.7\u003C\u002Fli>\u003Cli>GPQA Diamond：GPT-5.4 Pro（xhigh）94.6% ±1.6\u003C\u002Fli>\u003Cli>FrontierMath Tiers 1-3 v2：GPT-5.5 Pro（xhigh）87.7% ±1.9\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>為什麼重要\u003C\u002Fh2>\u003Cp>對開發者來說，這類總表比單一宣傳分數更實用。你要的是能修 bug 的模型、能解數學題的模型，還是能跑 terminal 任務的模型，答案可能完全不同。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781636577689-o8km.png\" alt=\"18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對採購與產品團隊，差距也不一定只看排名。當幾個模型在某些 benchmark 上只差一點點，價格、延遲、上下文長度、工具整合與部署限制，往往會比名次更影響選型。\u003C\u002Fp>\u003Cp>這也反映出 2026 年的模型競爭方式：不是找一個通吃答案，而是按工作類型拆開看。誰在 \u003Ca href=\"\u002Fnews\u002Fkimi-k2-7-code-api-kimi-code-first-zh\">code\u003C\u002Fa>、math、agent、vision 上各自領先，會直接影響團隊怎麼切換模型與分配成本。\u003C\u002Fp>\u003Cp>如果你今天只想問一句話，答案是這個：別再問「哪個模型最好」，先問「你的任務是哪一種」。\u003C\u002Fp>","LM Council 6 月更新 18 項 AI benchmarks，整理 GPT-5.5、Claude、Gemini、Grok 等 30+ 模型成績，方便直接比對不同任務表現。","lmcouncil.ai","https:\u002F\u002Flmcouncil.ai\u002Fbenchmarks",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781636583869-5rox.png","research","zh","29c4b64b-1ff6-4e8f-a478-a43cc9507809",[17,18,19,20,21],"AI benchmarks","GPT-5.5","Claude","Gemini","Grok",[23,24,25],"LM Council 把 18 項獨立 benchmark 放到同一頁，方便橫向比對 30+ 模型。","不同模型在數學、寫碼、知識與 agent 任務上的強項分布很不一樣。","對開發與採購團隊來說，選模型更像按工作挑工具，而不是看單一總分。",0,"2026-06-16T19:02:23.356505+00:00","2026-06-16T19:02:23.349+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":38,"relatedPosts":42},[32,34,36],{"name":19,"slug":33},"claude",{"name":17,"slug":35},"ai-benchmarks",{"name":20,"slug":37},"gemini",{"id":15,"slug":39,"title":40,"language":41},"ai-model-benchmarks-gpt-55-claude-gemini-grok-en","18 AI benchmarks now rank GPT-5.5, Claude, Gemini","en",[43,49,55,61,67,73],{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"60d92b7d-73c4-4da6-a3d8-3de30d8ada82","phase-noise-information-aging-massive-mimo-zh","相位雜訊讓大規模MIMO資訊老化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781641075077-kuxz.png","2026-06-16T20:17:27.875482+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"4c04ff19-06b6-4917-92df-189e6a34886b","exact-posterior-scores-inverse-problems-zh","精確後驗分數解線性反問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781591581223-cx37.png","2026-06-16T06:32:31.505084+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"4d112775-a2e2-4f60-b930-0fe333a2e42c","contextrl-teaches-llms-to-pick-right-evidence-zh","ContextRL 讓 LLM 學會挑證據","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781590688900-6wns.png","2026-06-16T06:17:29.909578+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"cb7401ba-eb16-48ac-9d61-79c2688666f1","language-models-value-axis-zh","語言模型有一條「價值軸」","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781589777319-s2yz.png","2026-06-16T06:02:35.459663+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"2a2b904a-d812-40ae-bdac-dc07bc6afd45","persona-pruner-lightweight-role-playing-models-zh","Persona-Pruner：把大模型修成角色專用小腦袋","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781505181281-pq7r.png","2026-06-15T06:32:24.904806+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"d77cb1e8-9169-416f-a673-317bc4e2ee39","clinhallu-medical-mllm-hallucination-benchmark-zh","ClinHallu 追蹤醫療 MLLM 幻覺來源","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781504269169-ifu4.png","2026-06-15T06:17:22.803066+00:00",[80,85,90,95,100,105,110,115,120,125],{"id":81,"slug":82,"title":83,"created_at":84},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]