[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-llm-stats-ai-benchmarks-compare-zh":3,"article-related-llm-stats-ai-benchmarks-compare-zh":34,"series-industry-7c188c00-8556-4f77-8a36-ac458322ad19":86},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":26,"views":30,"created_at":31,"published_at":32,"topic_cluster_id":33},"7c188c00-8556-4f77-8a36-ac458322ad19","llm-stats-ai-benchmarks-compare-zh","5 個最值得先看的 AI 基準","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> Stats 把 300 多個 AI 基準放在同一個目錄，方便快速比較\u003Ca href=\"\u002Fnews\u002Fmicrosoft-mlops-maturity-model-five-levels-zh\">模型\u003C\u002Fa>表現。\u003C\u002Fp>\u003Cp>如果你要替模型、產品或採購名單做初篩，這份清單看完 5 項就能決定先測哪一類能力：推理、寫碼、視覺、工具呼叫，還是電腦操作。\u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fbenchmarks\">LLM Stats\u003C\u002Fa> 目前整理了 512+ 個基準，並連到即時排行榜。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>焦點\u003C\u002Fth>\u003Cth>關鍵特徵\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>IFEval\u003C\u002Ftd>\u003Ctd>指令遵循\u003C\u002Ftd>\u003Ctd>25 種指令類型\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>LiveCodeBench\u003C\u002Ftd>\u003Ctd>程式生成\u003C\u002Ftd>\u003Ctd>持續更新、降低資料污染\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>MMMU\u003C\u002Ftd>\u003Ctd>多模態理解\u003C\u002Ftd>\u003Ctd>大學程度學科知識\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>BFCL\u003C\u002Ftd>\u003Ctd>函式呼叫\u003C\u002Ftd>\u003Ctd>可執行的工具調用評測\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>OSWorld\u003C\u002Ftd>\u003Ctd>代理任務\u003C\u002Ftd>\u003Ctd>真實電腦環境\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>1. IFEval：先看模型會不會照做\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fbenchmarks\">IFEval\u003C\u002Fa> 最適合拿來看指令遵循。它不是只看回答順不順，而是檢查模型能不能精準滿足可驗證的要求，例如格式、限制條件與多步驟指令。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780973269412-nyhe.png\" alt=\"5 個最值得先看的 AI 基準\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這對客服助理、內部工作流、或任何需要穩定輸出的產品都很重要。模型說得漂亮不代表真的有照規則做，IFEval 正好能抓出這種落差。\u003C\u002Fp>\u003Cul>\u003Cli>適合：提示詞遵循測試\u003C\u002Fli>\u003Cli>看點：可驗證的輸出規則\u003C\u002Fli>\u003Cli>價值：容易跟非技術團隊對齊標準\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>2. LiveCodeBench：看現在的寫碼實力\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fbenchmarks\">LiveCodeBench\u003C\u002Fa> 是要看\u003Ca href=\"\u002Fnews\u002Fminimax-m3-kai-fang-quan-zhong-xie-cheng-shi-reng-neng-ying-zh\">程式\u003C\u002Fa>能力時很實用的選擇。它持續加入新題目，降低模型靠訓練資料背答案的機會，比分數固定不動的舊式題庫更接近真實情況。\u003C\u002Fp>\u003Cp>如果你在比的是 coding assistant、\u003Ca href=\"\u002Ftag\u002F開發者工具\">開發者工具\u003C\u002Fa>，或會自動產碼的 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>，這種持續\u003Ca href=\"\u002Fnews\u002Fmidjourney-june-2026-update-busy-summer-zh\">更新\u003C\u002Fa>的排行榜更有參考價值。你也比較容易看出模型在不同時間點的變化。\u003C\u002Fp>\u003Cul>\u003Cli>適合：程式生成與修復\u003C\u002Fli>\u003Cli>方法：題庫持續更新\u003C\u002Fli>\u003Cli>優勢：較不容易被記憶答案干擾\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>3. MMMU：圖表、文件與混合內容都要看\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fbenchmarks\">MMMU\u003C\u002Fa> 用來測多模態理解，涵蓋圖像、圖表、文件與跨學科內容。它比單純的視覺問答更廣，也更接近真實工作裡常見的混合資訊場景。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780973271009-9n7h.png\" alt=\"5 個最值得先看的 AI 基準\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>如果你的產品會讀簡報、看表格、分析圖像，或處理教育內容，MMMU 能提供比純文字模型更完整的訊號。對 vision-language model 的比較尤其有用。\u003C\u002Fp>\u003Cul>\u003Cli>適合：多模態推理\u003C\u002Fli>\u003Cli>內容：大學程度學科知識\u003C\u002Fli>\u003Cli>用途：視覺語言模型比較\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>4. BFCL：工具呼叫不是聊天而已\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fbenchmarks\">BFCL\u003C\u002Fa> 是 Berkeley Function Calling Leaderboard，專門看模型能不能正確呼叫工具。這在 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 串接、結構化輸出、或多工具 agent 裡特別關鍵。\u003C\u002Fp>\u003Cp>它測的不是一般聊天表現，而是可執行的行為。若你的產品依賴函式選擇、參數填寫、或多步驟工具流程，BFCL 比單純對話分數更接近真實風險。\u003C\u002Fp>\u003Ccode>重點檢查：\u003Cbr>- 選對函式\u003Cbr>- 參數格式正確\u003Cbr>- 多步工具使用不中斷\u003C\u002Fcode>\u003Ch2>5. OSWorld：把模型丟進真實桌面\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fbenchmarks\">OSWorld\u003C\u002Fa> 不只看文字輸出，而是把代理放進真實電腦環境裡，測它能不能操作軟體、完成任務，並處理執行型工作流。\u003C\u002Fp>\u003Cp>這對做自動化、桌面代理、或需要規劃與 UI 理解一起運作的團隊很有參考價值。它測的是端到端完成任務的能力，不只是單次回答對不對。\u003C\u002Fp>\u003Cul>\u003Cli>適合：電腦使用型代理\u003C\u002Fli>\u003Cli>環境：真實桌面任務\u003C\u002Fli>\u003Cli>用途：工作流自動化與代理測試\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>怎麼挑：先看你的產品風險在哪\u003C\u002Fh2>\u003Cp>如果你要先抓一般助理品質，從 IFEval 和 LiveCodeBench 開始最有效。只要產品碰到圖片、文件或圖表，MMMU 就應該排進第一輪。若重點是工具呼叫與代理行為，BFCL 和 OSWorld 會比文字型分數更貼近實際。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fbenchmarks\">LLM Stats\u003C\u002Fa> 的價值不在某一個榜單，而在於把 300 多個基準放到同一個地方比較，還能直接看即時 leaderboard。這讓你更容易挑到真正對應產品風險的測試。\u003C\u002Fp>","300+ 個 AI 基準集中比較，先看 5 項就能判斷模型在推理、寫碼、視覺與工具呼叫上的實力。","llm-stats.com","https:\u002F\u002Fllm-stats.com\u002Fbenchmarks",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780973269412-nyhe.png","industry","zh","aa623191-8abe-4e33-84ed-a52a431716c1",[17,18,19,20,21,22,23,24,25],"LLM Stats","AI benchmarks","LLM benchmarks","leaderboard","instruction following","coding benchmark","multimodal benchmark","function calling","agent benchmark",[27,28,29],"300+ 個基準集中在同一目錄，適合快速初篩模型能力。","IFEval、LiveCodeBench、MMMU、BFCL、OSWorld 分別對應不同產品風險。","即時排行榜與驗證分數，讓比較不只看靜態榜單。",0,"2026-06-09T02:47:22.6013+00:00","2026-06-09T02:47:22.594+00:00","fe20f6f6-432b-47bf-a410-a5f516d885ed",{"tags":35,"relatedLang":45,"relatedPosts":49},[36,38,40,42,44],{"name":17,"slug":37},"llm-stats",{"name":18,"slug":39},"ai-benchmarks",{"name":21,"slug":41},"instruction-following",{"name":19,"slug":43},"llm-benchmarks",{"name":20,"slug":20},{"id":15,"slug":46,"title":47,"language":48},"llm-stats-ai-benchmarks-compare-en","LLM Stats makes 300+ AI benchmarks easy to compare","en",[50,56,62,68,74,80],{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"04875853-1212-45be-a93f-39bbaf1e8967","four-rust-projects-show-where-people-are-coding-now-zh","4 個 Rust 專案看見現在的開發重心","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780979575428-yo7w.png","2026-06-09T04:32:22.965544+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"eef4badf-bdc9-4749-aff3-2cfcb1aac2f1","anthropic-urges-temporary-pause-on-ai-development-zh","Anthropic 籲 AI 暫停，Claude 卻更強了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780978675816-w16h.png","2026-06-09T04:17:24.670961+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"0df61333-0ccd-45a1-aa9d-d02e1ee71559","openai-files-confidential-s1-public-markets-zh","OpenAI 送件 S-1，IPO 進入倒數","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780977773933-ish6.png","2026-06-09T04:02:29.95327+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"9aa4f413-efec-412d-aa23-1cac6c7ae0a3","google-may-2026-ai-updates-agents-zh","Google 2026 5 項 AI 更新，全面轉向代理與日常工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780974171430-mi3c.png","2026-06-09T03:02:21.471663+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":13},"235397ea-a41f-4ff0-aaea-fcad743e2316","microsoft-mlops-maturity-model-five-levels-zh","Microsoft 的 MLOps 五級成熟度模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780970578667-kwcy.png","2026-06-09T02:02:30.486328+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":13},"a32e447e-e16c-4653-b5ed-973b64f86f09","midjourney-june-2026-update-busy-summer-zh","Midjourney 6 月更新透露夏季四條主線","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780965172648-oklx.png","2026-06-09T00:32:21.459327+00:00",[87,92,97,102,107,112,117,122,127,132],{"id":88,"slug":89,"title":90,"created_at":91},"ee073da7-28b3-4752-a319-5a501459fb87","ai-in-2026-what-actually-matters-now-zh","2026 AI 真正重要的事","2026-03-26T07:09:12.008134+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"83bd1795-8548-44c9-9a7e-de50a0923f71","trump-ai-framework-power-speech-state-preemption-zh","川普 AI 框架瞄準電力、言論與州權","2026-03-26T07:12:18.695466+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","2026-03-26T07:14:26.62638+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"4bcec76f-4c36-4daa-909f-54cd702f7c93","claude-users-spreading-out-and-getting-better-zh","Claude 用戶更分散，也更會用","2026-03-26T07:22:52.325888+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"bd903b15-2473-4178-9789-b7557816e535","openclaw-raises-hard-question-for-ai-models-zh","OpenClaw 逼問 AI 模型價值","2026-03-26T07:24:54.707486+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"eeac6b9e-ad9d-4831-8eec-8bba3f9bca6a","gap-google-gemini-checkout-fashion-search-zh","Gap 把結帳搬進 Gemini","2026-03-26T07:28:23.937768+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"0740e53f-605d-4d57-8601-c10beb126f3c","google-pushes-gemini-transition-to-march-2026-zh","Google 把 Gemini 轉換延到 2026 年 3…","2026-03-26T07:30:12.825269+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"e660d801-2421-4529-8fa9-86b82b066990","metas-llama-4-benchmark-scandal-gets-worse-zh","Meta Llama 4 分數風波又擴大","2026-03-26T07:34:21.156421+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"183f9e7c-e143-40bb-a6d5-67ba84a3a8bc","accenture-mistral-ai-sovereign-enterprise-deal-zh","Accenture 攜手 Mistral AI 賣主權 AI","2026-03-26T07:38:14.818906+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"191d9b1b-768a-478c-978c-dd7431a38149","mistral-ai-faces-its-hardest-year-yet-zh","Mistral AI 迎來最硬的一年","2026-03-26T07:40:23.716374+00:00"]