5 個最值得先看的 AI 基準
300+ 個 AI 基準集中比較,先看 5 項就能判斷模型在推理、寫碼、視覺與工具呼叫上的實力。

LLM Stats 把 300 多個 AI 基準放在同一個目錄,方便快速比較模型表現。
如果你要替模型、產品或採購名單做初篩,這份清單看完 5 項就能決定先測哪一類能力:推理、寫碼、視覺、工具呼叫,還是電腦操作。LLM Stats 目前整理了 512+ 個基準,並連到即時排行榜。
| 項目 | 焦點 | 關鍵特徵 |
|---|---|---|
| IFEval | 指令遵循 | 25 種指令類型 |
| LiveCodeBench | 程式生成 | 持續更新、降低資料污染 |
| MMMU | 多模態理解 | 大學程度學科知識 |
| BFCL | 函式呼叫 | 可執行的工具調用評測 |
| OSWorld | 代理任務 | 真實電腦環境 |
1. IFEval:先看模型會不會照做
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
IFEval 最適合拿來看指令遵循。它不是只看回答順不順,而是檢查模型能不能精準滿足可驗證的要求,例如格式、限制條件與多步驟指令。

這對客服助理、內部工作流、或任何需要穩定輸出的產品都很重要。模型說得漂亮不代表真的有照規則做,IFEval 正好能抓出這種落差。
- 適合:提示詞遵循測試
- 看點:可驗證的輸出規則
- 價值:容易跟非技術團隊對齊標準
2. LiveCodeBench:看現在的寫碼實力
LiveCodeBench 是要看程式能力時很實用的選擇。它持續加入新題目,降低模型靠訓練資料背答案的機會,比分數固定不動的舊式題庫更接近真實情況。
如果你在比的是 coding assistant、開發者工具,或會自動產碼的 agent,這種持續更新的排行榜更有參考價值。你也比較容易看出模型在不同時間點的變化。
- 適合:程式生成與修復
- 方法:題庫持續更新
- 優勢:較不容易被記憶答案干擾
3. MMMU:圖表、文件與混合內容都要看
MMMU 用來測多模態理解,涵蓋圖像、圖表、文件與跨學科內容。它比單純的視覺問答更廣,也更接近真實工作裡常見的混合資訊場景。

如果你的產品會讀簡報、看表格、分析圖像,或處理教育內容,MMMU 能提供比純文字模型更完整的訊號。對 vision-language model 的比較尤其有用。
- 適合:多模態推理
- 內容:大學程度學科知識
- 用途:視覺語言模型比較
4. BFCL:工具呼叫不是聊天而已
BFCL 是 Berkeley Function Calling Leaderboard,專門看模型能不能正確呼叫工具。這在 API 串接、結構化輸出、或多工具 agent 裡特別關鍵。
它測的不是一般聊天表現,而是可執行的行為。若你的產品依賴函式選擇、參數填寫、或多步驟工具流程,BFCL 比單純對話分數更接近真實風險。
重點檢查:
- 選對函式
- 參數格式正確
- 多步工具使用不中斷5. OSWorld:把模型丟進真實桌面
OSWorld 不只看文字輸出,而是把代理放進真實電腦環境裡,測它能不能操作軟體、完成任務,並處理執行型工作流。
這對做自動化、桌面代理、或需要規劃與 UI 理解一起運作的團隊很有參考價值。它測的是端到端完成任務的能力,不只是單次回答對不對。
- 適合:電腦使用型代理
- 環境:真實桌面任務
- 用途:工作流自動化與代理測試
怎麼挑:先看你的產品風險在哪
如果你要先抓一般助理品質,從 IFEval 和 LiveCodeBench 開始最有效。只要產品碰到圖片、文件或圖表,MMMU 就應該排進第一輪。若重點是工具呼叫與代理行為,BFCL 和 OSWorld 會比文字型分數更貼近實際。
LLM Stats 的價值不在某一個榜單,而在於把 300 多個基準放到同一個地方比較,還能直接看即時 leaderboard。這讓你更容易挑到真正對應產品風險的測試。