標籤

benchmark

Benchmark 不只是比誰分數高，而是用固定任務檢查模型、代理與編譯器在真實條件下的穩定性。從長鏈推理、資料視覺化工作流到程式碼安全與效能，基準測試也在考驗方法是否可信。

31 篇文章

RevengeBench：反推遊戲政策的測試框架

技術研究/6月25日

RevengeBench：反推遊戲政策的測試框架

RevengeBench把隱藏遊戲政策的反向工程做成可測試任務，證明主動探測能讓 LLM 更接近還原可執行策略。

Devin AI 測試與採購判讀指南

工具應用/6月25日

Devin AI 測試與採購判讀指南

這篇指南帶你實測 Devin AI 的存取、自治能力、基準數字、定價背景與工作流程限制，並用同一套任務比較它和其他 coding agent。

SPEC CPU 2017 進入退場期

產業動態/6月24日

SPEC CPU 2017 進入退場期

SPEC CPU 2017 將在 2026 退場，V1.1.9 則加入較低學術授權、Linux on RISC-V 支援與更完整的配置報告。

LifeSciBench 讓模型先過科研關

技術研究/6月23日

LifeSciBench 讓模型先過科研關

我拆 LifeSciBench 怎麼把生命科學模型評估拉回真實科研工作，順手給你一份可直接抄的評測模板。

Rootly 測試：Llama 4 落後編碼模型

技術研究/6月22日

Rootly 測試：Llama 4 落後編碼模型

Rootly AI Labs 用 100 筆 GitHub bug 來測 Llama 4，結果顯示它在選 PR 的編碼任務上落後於 Llama 3.3、DeepSeek v3.1 與多個 coding 模型。

Kimi K2.7-Code 主打快，但證據還不夠

模型發布/6月18日

Kimi K2.7-Code 主打快，但證據還不夠

Moonshot 的 Kimi K2.7-Code 加了 HighSpeed Mode，主打更快、Token 更省，但目前只有官方 benchmark 能支撐這些說法。

ArXiv這批 AI 論文都在補三件事

技術研究/6月17日

ArXiv這批 AI 論文都在補三件事

這批 arXiv AI 論文集中在 agent 推理、長上下文資料、以及更貼近真實工作的 benchmark 設計。

ReproRepo 用 GitHub issues 做可重現性稽核

技術研究/6月17日

ReproRepo 用 GitHub issues 做可重現性稽核

ReproRepo 把 GitHub issues 變成可重用監督訊號，用來擴大機器學習論文的可重現性稽核。

ClinHallu 追蹤醫療 MLLM 幻覺來源

技術研究/6月15日

ClinHallu 追蹤醫療 MLLM 幻覺來源

ClinHallu 把醫療多模態模型的幻覺拆成看圖、記知識、做整合三段來診斷，讓開發者能定位錯誤來源。

LLM研究工程師把後訓練做成服務

AI Agent/6月14日

LLM研究工程師把後訓練做成服務

拆 Codersarts 的 on-demand LLM 後訓練服務，順手給你一份可直接複製的 eval、SFT、RLHF、alignment 模板。

EvoArena：測 LLM 代理在變動世界的記憶力

技術研究/6月12日

EvoArena：測 LLM 代理在變動世界的記憶力

EvoArena 把 LLM 代理丟進會持續變動的環境，並用 EvoMem 的補丁式記憶來追蹤更新，測試它們能不能跟上變化。

Opus 4.8 是榜首，但不該成為預設模型

模型發布/6月10日

Opus 4.8 是榜首，但不該成為預設模型

Claude Opus 4.8 在 Nate 的基準測試拿下第一，但它更適合當專家模型，不適合直接成為所有工作流的預設。

OmniGameArena 讓 VLM 遊戲代理更好比

技術研究/6月9日

OmniGameArena 讓 VLM 遊戲代理更好比

OmniGameArena 用 12 個 UE5 遊戲與反思式評分，讓 VLM 遊戲代理不只看首輪分數，也能看改善與泛化。

LLM 在反直覺機率題翻車

技術研究/6月8日

LLM 在反直覺機率題翻車

這篇研究發現，LLM 在標準機率題表現很高，但遇到反直覺、改寫或帶誤導提示的題目時，準確率會明顯下滑。

Microsoft 首個推理模型怎麼看

產業動態/6月5日

Microsoft 首個推理模型怎麼看

我把 ZDNET 的模型 tracker 拆成一套可抄的評估框架，讓你不用吞完 PR 也能判斷新 AI 模型值不值得碰。

為什麼 Claude Opus 4.8 不是大新聞

模型發布/6月4日

為什麼 Claude Opus 4.8 不是大新聞

Claude Opus 4.8 不是關鍵突破，而是模型發布正在變成產品更新的訊號。真正重要的，是它是否改變你的工作流、成本與可靠性。

Llama 把模型發布變成 playbook

工具應用/6月2日

Llama 把模型發布變成 playbook

我拆 Llama 的發布策略，整理成一份可直接套用的模型發布模板，讓你少吵 licensing，多交付。

BenchLM 2026：AI Agent 模型排行

技術研究/6月1日

BenchLM 2026：AI Agent 模型排行

BenchLM 2026 用 26 個基準測 AI agent 模型，重點看工具呼叫、瀏覽器、終端機和電腦控制，GPT-5.5 Pro 目前拿下驗證榜首。

2026 LLM 排行榜更新：誰領先

工具應用/6月1日

2026 LLM 排行榜更新：誰領先

Vellum 於 2026 年 5 月 29 日更新 LLM 排行榜，加入新 benchmark、速度與價格比較，方便開發者按任務挑模型。

5 個開源 LLM：寫程式與成本

產業動態/5月25日

5 個開源 LLM：寫程式與成本

5 個開源 LLM 依寫程式、推理、速度、上下文與價格排序，附 2026 即時基準與選型建議。

GPT-5.5 在工程測試拿 62.5 分

模型發布/5月23日

GPT-5.5 在工程測試拿 62.5 分

OpenAI 於 2026/4/23 推出 GPT-5.5，Every 指它在 Senior Engineer Benchmark 最佳成績達 62.5，明顯領先 Opus 4.7，但仍低於人類資深工程師。

GPT-5.5 以 60 分登頂

工具應用/5月23日

GPT-5.5 以 60 分登頂

Artificial Analysis 更新 523 款模型排行，GPT-5.5（xhigh）以 60 分拿下智能榜首，並同步顯示速度、延遲、價格與上下文窗口比較。

PEFT-Bench 讓微調比較更公平

技術研究/5月19日

PEFT-Bench 讓微調比較更公平

PEFT-Bench 把 27 個 NLP 資料集與 7 種 PEFT 方法放進同一套流程，比的不只準確率，也把參數、速度和記憶體成本算進去。

EntityBench 盯住長片一致性

技術研究/5月16日

EntityBench 盯住長片一致性

EntityBench 用長篇多鏡頭影片做一致性測試，檢查角色、物件與場景能不能跨鏡頭維持同一性，也提出帶記憶的基線方法 EntityMem。

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

技術研究/5月15日

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

AI 資安基準的進展已顯示自主攻擊能力正在追上防守方的規劃速度，這不是實驗室新聞，而是防線時間被壓縮的警訊。

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM

技術研究/5月12日

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM

GPT-5.5 應該成為 2026 年的預設寫碼 LLM，因為它在公開基準的綜合表現領先，最適合作為團隊的能力上限。

DeepTest 2026 首辦車主手冊 LLM 評測

技術研究/5月6日

DeepTest 2026 首辦車主手冊 LLM 評測

DeepTest 2026 首度把 LLM 車主手冊問答拉進競賽式評測，讓四個工具在同一任務下比對檢索能力。

DV-World 測試圖表代理真實工作流

技術研究/4月29日

DV-World 測試圖表代理真實工作流

DV-World 用試算表、視覺演化與意圖對齊三類任務，檢驗資料視覺化代理在更接近企業工作流的表現。

LongCoT：測長鏈推理，不只看答案

技術研究/4月16日

LongCoT：測長鏈推理，不只看答案

LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。

Claude 的 C 編譯器把基準測試搞砸了

工具應用/4月4日

Claude 的 C 編譯器把基準測試搞砸了

Claude 寫的 C compiler 能編 Linux kernel，卻在 SPEC CPU2017 把效能打到只剩 GCC 的 23.6% 到 27.1%，還有一組直接當掉。

Meta Llama 4 分數風波又擴大

產業動態/3月26日

Meta Llama 4 分數風波又擴大

Meta 的 Llama 4 原本要延續開放模型聲勢，結果卻陷入評測分數爭議。最新報導指出，Meta 在發布前可能用不同模型跑不同 benchmark，讓分數看起來更好，信任問題也跟著擴大。