返回首頁

標籤

SWE-Bench

SWE-bench 是用真實 GitHub issue 評估程式修復能力的基準,常分成 Verified、Lite 等版本。它反映模型與 agent 是否能讀懂程式庫、定位 bug、修改測試並維持可重現性,也常被用來比較 coding agent 的成本與效率。

7 篇文章

LLM 基準別對職能,不再看單一分數
產業動態/6月28日

LLM 基準別對職能,不再看單一分數

把 2026 LLM 基準分數翻成工作適配度,並附可直接複製的自訂評測模板。

MiMo-V2-Flash 直衝開源 SWE-bench
模型發布/6月13日

MiMo-V2-Flash 直衝開源 SWE-bench

Xiaomi 的 MiMo-V2-Flash 以 309B MoE 架構登場,OpenRouter 標價每 1M Token 只要 $0.10 / $0.30,並在開源 SWE-bench 分數上衝到前段班。

2026 垂直 LLM 基準地圖
技術研究/5月25日

2026 垂直 LLM 基準地圖

Kili Technology 整理 2026 垂直 LLM 基準,涵蓋醫療、法律、金融、程式與資安。重點是通用榜單已不足以分出模型差距,採購與合規開始看專業評測。

我測了 Devin 10 個任務,只做完 3 個
AI Agent/4月3日

我測了 Devin 10 個任務,只做完 3 個

Devin 在 SWE-bench 只拿 13.86%,實測 10 個真實任務也只完成 3 個。這篇拆解它在哪些工作能用、哪些地方會亂掉。

MiMo V2 Pro、Omni、Flash 怎麼選
模型發布/4月2日

MiMo V2 Pro、Omni、Flash 怎麼選

MiMo 2026 三款模型分工很清楚:Flash 主打開源與 coding,Pro 提供 1M context,Omni 則處理圖像、音訊與影片。這篇直接比 benchmark、價格與適用場景。

小米 MiMo-V2-Pro 登場:1T MoE 模型
模型發布/3月28日

小米 MiMo-V2-Pro 登場:1T MoE 模型

小米推出 MiMo-V2-Pro,總參數超過 1T、每 token 啟用 42B,還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6,價格卻低很多。

小米 MiMo 三模型瞄準代理、機器人與語音
模型發布/3月28日

小米 MiMo 三模型瞄準代理、機器人與語音

小米一次推出三款 MiMo AI 模型,涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文,逼近 Claude Opus 4.6 的表現。