標籤
benchmark
Benchmark 不只是比誰分數高,而是用固定任務檢查模型、代理與編譯器在真實條件下的穩定性。從長鏈推理、資料視覺化工作流到程式碼安全與效能,基準測試也在考驗方法是否可信。
31 篇文章

RevengeBench:反推遊戲政策的測試框架
RevengeBench把隱藏遊戲政策的反向工程做成可測試任務,證明主動探測能讓 LLM 更接近還原可執行策略。

Devin AI 測試與採購判讀指南
這篇指南帶你實測 Devin AI 的存取、自治能力、基準數字、定價背景與工作流程限制,並用同一套任務比較它和其他 coding agent。

SPEC CPU 2017 進入退場期
SPEC CPU 2017 將在 2026 退場,V1.1.9 則加入較低學術授權、Linux on RISC-V 支援與更完整的配置報告。

LifeSciBench 讓模型先過科研關
我拆 LifeSciBench 怎麼把生命科學模型評估拉回真實科研工作,順手給你一份可直接抄的評測模板。

Rootly 測試:Llama 4 落後編碼模型
Rootly AI Labs 用 100 筆 GitHub bug 來測 Llama 4,結果顯示它在選 PR 的編碼任務上落後於 Llama 3.3、DeepSeek v3.1 與多個 coding 模型。

Kimi K2.7-Code 主打快,但證據還不夠
Moonshot 的 Kimi K2.7-Code 加了 HighSpeed Mode,主打更快、Token 更省,但目前只有官方 benchmark 能支撐這些說法。

ArXiv這批 AI 論文都在補三件事
這批 arXiv AI 論文集中在 agent 推理、長上下文資料、以及更貼近真實工作的 benchmark 設計。

ReproRepo 用 GitHub issues 做可重現性稽核
ReproRepo 把 GitHub issues 變成可重用監督訊號,用來擴大機器學習論文的可重現性稽核。

ClinHallu 追蹤醫療 MLLM 幻覺來源
ClinHallu 把醫療多模態模型的幻覺拆成看圖、記知識、做整合三段來診斷,讓開發者能定位錯誤來源。

LLM研究工程師把後訓練做成服務
拆 Codersarts 的 on-demand LLM 後訓練服務,順手給你一份可直接複製的 eval、SFT、RLHF、alignment 模板。

EvoArena:測 LLM 代理在變動世界的記憶力
EvoArena 把 LLM 代理丟進會持續變動的環境,並用 EvoMem 的補丁式記憶來追蹤更新,測試它們能不能跟上變化。

Opus 4.8 是榜首,但不該成為預設模型
Claude Opus 4.8 在 Nate 的基準測試拿下第一,但它更適合當專家模型,不適合直接成為所有工作流的預設。

OmniGameArena 讓 VLM 遊戲代理更好比
OmniGameArena 用 12 個 UE5 遊戲與反思式評分,讓 VLM 遊戲代理不只看首輪分數,也能看改善與泛化。

LLM 在反直覺機率題翻車
這篇研究發現,LLM 在標準機率題表現很高,但遇到反直覺、改寫或帶誤導提示的題目時,準確率會明顯下滑。

Microsoft 首個推理模型怎麼看
我把 ZDNET 的模型 tracker 拆成一套可抄的評估框架,讓你不用吞完 PR 也能判斷新 AI 模型值不值得碰。

為什麼 Claude Opus 4.8 不是大新聞
Claude Opus 4.8 不是關鍵突破,而是模型發布正在變成產品更新的訊號。真正重要的,是它是否改變你的工作流、成本與可靠性。

Llama 把模型發布變成 playbook
我拆 Llama 的發布策略,整理成一份可直接套用的模型發布模板,讓你少吵 licensing,多交付。

BenchLM 2026:AI Agent 模型排行
BenchLM 2026 用 26 個基準測 AI agent 模型,重點看工具呼叫、瀏覽器、終端機和電腦控制,GPT-5.5 Pro 目前拿下驗證榜首。

2026 LLM 排行榜更新:誰領先
Vellum 於 2026 年 5 月 29 日更新 LLM 排行榜,加入新 benchmark、速度與價格比較,方便開發者按任務挑模型。

5 個開源 LLM:寫程式與成本
5 個開源 LLM 依寫程式、推理、速度、上下文與價格排序,附 2026 即時基準與選型建議。

GPT-5.5 在工程測試拿 62.5 分
OpenAI 於 2026/4/23 推出 GPT-5.5,Every 指它在 Senior Engineer Benchmark 最佳成績達 62.5,明顯領先 Opus 4.7,但仍低於人類資深工程師。

GPT-5.5 以 60 分登頂
Artificial Analysis 更新 523 款模型排行,GPT-5.5(xhigh)以 60 分拿下智能榜首,並同步顯示速度、延遲、價格與上下文窗口比較。

PEFT-Bench 讓微調比較更公平
PEFT-Bench 把 27 個 NLP 資料集與 7 種 PEFT 方法放進同一套流程,比的不只準確率,也把參數、速度和記憶體成本算進去。

EntityBench 盯住長片一致性
EntityBench 用長篇多鏡頭影片做一致性測試,檢查角色、物件與場景能不能跨鏡頭維持同一性,也提出帶記憶的基線方法 EntityMem。

為什麼 AI 基準賽在資安領域的勝利,應該讓防守方警醒
AI 資安基準的進展已顯示自主攻擊能力正在追上防守方的規劃速度,這不是實驗室新聞,而是防線時間被壓縮的警訊。

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM
GPT-5.5 應該成為 2026 年的預設寫碼 LLM,因為它在公開基準的綜合表現領先,最適合作為團隊的能力上限。

DeepTest 2026 首辦車主手冊 LLM 評測
DeepTest 2026 首度把 LLM 車主手冊問答拉進競賽式評測,讓四個工具在同一任務下比對檢索能力。

DV-World 測試圖表代理真實工作流
DV-World 用試算表、視覺演化與意圖對齊三類任務,檢驗資料視覺化代理在更接近企業工作流的表現。

LongCoT:測長鏈推理,不只看答案
LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。

Claude 的 C 編譯器把基準測試搞砸了
Claude 寫的 C compiler 能編 Linux kernel,卻在 SPEC CPU2017 把效能打到只剩 GCC 的 23.6% 到 27.1%,還有一組直接當掉。

Meta Llama 4 分數風波又擴大
Meta 的 Llama 4 原本要延續開放模型聲勢,結果卻陷入評測分數爭議。最新報導指出,Meta 在發布前可能用不同模型跑不同 benchmark,讓分數看起來更好,信任問題也跟著擴大。