返回首頁

標籤

benchmark

Benchmark 不只是比誰分數高,而是用固定任務檢查模型、代理與編譯器在真實條件下的穩定性。從長鏈推理、資料視覺化工作流到程式碼安全與效能,基準測試也在考驗方法是否可信。

31 篇文章

RevengeBench:反推遊戲政策的測試框架
技術研究/6月25日

RevengeBench:反推遊戲政策的測試框架

RevengeBench把隱藏遊戲政策的反向工程做成可測試任務,證明主動探測能讓 LLM 更接近還原可執行策略。

Devin AI 測試與採購判讀指南
工具應用/6月25日

Devin AI 測試與採購判讀指南

這篇指南帶你實測 Devin AI 的存取、自治能力、基準數字、定價背景與工作流程限制,並用同一套任務比較它和其他 coding agent。

SPEC CPU 2017 進入退場期
產業動態/6月24日

SPEC CPU 2017 進入退場期

SPEC CPU 2017 將在 2026 退場,V1.1.9 則加入較低學術授權、Linux on RISC-V 支援與更完整的配置報告。

LifeSciBench 讓模型先過科研關
技術研究/6月23日

LifeSciBench 讓模型先過科研關

我拆 LifeSciBench 怎麼把生命科學模型評估拉回真實科研工作,順手給你一份可直接抄的評測模板。

Rootly 測試:Llama 4 落後編碼模型
技術研究/6月22日

Rootly 測試:Llama 4 落後編碼模型

Rootly AI Labs 用 100 筆 GitHub bug 來測 Llama 4,結果顯示它在選 PR 的編碼任務上落後於 Llama 3.3、DeepSeek v3.1 與多個 coding 模型。

Kimi K2.7-Code 主打快,但證據還不夠
模型發布/6月18日

Kimi K2.7-Code 主打快,但證據還不夠

Moonshot 的 Kimi K2.7-Code 加了 HighSpeed Mode,主打更快、Token 更省,但目前只有官方 benchmark 能支撐這些說法。

ArXiv這批 AI 論文都在補三件事
技術研究/6月17日

ArXiv這批 AI 論文都在補三件事

這批 arXiv AI 論文集中在 agent 推理、長上下文資料、以及更貼近真實工作的 benchmark 設計。

ReproRepo 用 GitHub issues 做可重現性稽核
技術研究/6月17日

ReproRepo 用 GitHub issues 做可重現性稽核

ReproRepo 把 GitHub issues 變成可重用監督訊號,用來擴大機器學習論文的可重現性稽核。

ClinHallu 追蹤醫療 MLLM 幻覺來源
技術研究/6月15日

ClinHallu 追蹤醫療 MLLM 幻覺來源

ClinHallu 把醫療多模態模型的幻覺拆成看圖、記知識、做整合三段來診斷,讓開發者能定位錯誤來源。

LLM研究工程師把後訓練做成服務
AI Agent/6月14日

LLM研究工程師把後訓練做成服務

拆 Codersarts 的 on-demand LLM 後訓練服務,順手給你一份可直接複製的 eval、SFT、RLHF、alignment 模板。

EvoArena:測 LLM 代理在變動世界的記憶力
技術研究/6月12日

EvoArena:測 LLM 代理在變動世界的記憶力

EvoArena 把 LLM 代理丟進會持續變動的環境,並用 EvoMem 的補丁式記憶來追蹤更新,測試它們能不能跟上變化。

Opus 4.8 是榜首,但不該成為預設模型
模型發布/6月10日

Opus 4.8 是榜首,但不該成為預設模型

Claude Opus 4.8 在 Nate 的基準測試拿下第一,但它更適合當專家模型,不適合直接成為所有工作流的預設。

OmniGameArena 讓 VLM 遊戲代理更好比
技術研究/6月9日

OmniGameArena 讓 VLM 遊戲代理更好比

OmniGameArena 用 12 個 UE5 遊戲與反思式評分,讓 VLM 遊戲代理不只看首輪分數,也能看改善與泛化。

LLM 在反直覺機率題翻車
技術研究/6月8日

LLM 在反直覺機率題翻車

這篇研究發現,LLM 在標準機率題表現很高,但遇到反直覺、改寫或帶誤導提示的題目時,準確率會明顯下滑。

Microsoft 首個推理模型怎麼看
產業動態/6月5日

Microsoft 首個推理模型怎麼看

我把 ZDNET 的模型 tracker 拆成一套可抄的評估框架,讓你不用吞完 PR 也能判斷新 AI 模型值不值得碰。

為什麼 Claude Opus 4.8 不是大新聞
模型發布/6月4日

為什麼 Claude Opus 4.8 不是大新聞

Claude Opus 4.8 不是關鍵突破,而是模型發布正在變成產品更新的訊號。真正重要的,是它是否改變你的工作流、成本與可靠性。

Llama 把模型發布變成 playbook
工具應用/6月2日

Llama 把模型發布變成 playbook

我拆 Llama 的發布策略,整理成一份可直接套用的模型發布模板,讓你少吵 licensing,多交付。

BenchLM 2026:AI Agent 模型排行
技術研究/6月1日

BenchLM 2026:AI Agent 模型排行

BenchLM 2026 用 26 個基準測 AI agent 模型,重點看工具呼叫、瀏覽器、終端機和電腦控制,GPT-5.5 Pro 目前拿下驗證榜首。

2026 LLM 排行榜更新:誰領先
工具應用/6月1日

2026 LLM 排行榜更新:誰領先

Vellum 於 2026 年 5 月 29 日更新 LLM 排行榜,加入新 benchmark、速度與價格比較,方便開發者按任務挑模型。

5 個開源 LLM:寫程式與成本
產業動態/5月25日

5 個開源 LLM:寫程式與成本

5 個開源 LLM 依寫程式、推理、速度、上下文與價格排序,附 2026 即時基準與選型建議。

GPT-5.5 在工程測試拿 62.5 分
模型發布/5月23日

GPT-5.5 在工程測試拿 62.5 分

OpenAI 於 2026/4/23 推出 GPT-5.5,Every 指它在 Senior Engineer Benchmark 最佳成績達 62.5,明顯領先 Opus 4.7,但仍低於人類資深工程師。

GPT-5.5 以 60 分登頂
工具應用/5月23日

GPT-5.5 以 60 分登頂

Artificial Analysis 更新 523 款模型排行,GPT-5.5(xhigh)以 60 分拿下智能榜首,並同步顯示速度、延遲、價格與上下文窗口比較。

PEFT-Bench 讓微調比較更公平
技術研究/5月19日

PEFT-Bench 讓微調比較更公平

PEFT-Bench 把 27 個 NLP 資料集與 7 種 PEFT 方法放進同一套流程,比的不只準確率,也把參數、速度和記憶體成本算進去。

EntityBench 盯住長片一致性
技術研究/5月16日

EntityBench 盯住長片一致性

EntityBench 用長篇多鏡頭影片做一致性測試,檢查角色、物件與場景能不能跨鏡頭維持同一性,也提出帶記憶的基線方法 EntityMem。

為什麼 AI 基準賽在資安領域的勝利,應該讓防守方警醒
技術研究/5月15日

為什麼 AI 基準賽在資安領域的勝利,應該讓防守方警醒

AI 資安基準的進展已顯示自主攻擊能力正在追上防守方的規劃速度,這不是實驗室新聞,而是防線時間被壓縮的警訊。

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM
技術研究/5月12日

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM

GPT-5.5 應該成為 2026 年的預設寫碼 LLM,因為它在公開基準的綜合表現領先,最適合作為團隊的能力上限。

DeepTest 2026 首辦車主手冊 LLM 評測
技術研究/5月6日

DeepTest 2026 首辦車主手冊 LLM 評測

DeepTest 2026 首度把 LLM 車主手冊問答拉進競賽式評測,讓四個工具在同一任務下比對檢索能力。

DV-World 測試圖表代理真實工作流
技術研究/4月29日

DV-World 測試圖表代理真實工作流

DV-World 用試算表、視覺演化與意圖對齊三類任務,檢驗資料視覺化代理在更接近企業工作流的表現。

LongCoT:測長鏈推理,不只看答案
技術研究/4月16日

LongCoT:測長鏈推理,不只看答案

LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。

Claude 的 C 編譯器把基準測試搞砸了
工具應用/4月4日

Claude 的 C 編譯器把基準測試搞砸了

Claude 寫的 C compiler 能編 Linux kernel,卻在 SPEC CPU2017 把效能打到只剩 GCC 的 23.6% 到 27.1%,還有一組直接當掉。

Meta Llama 4 分數風波又擴大
產業動態/3月26日

Meta Llama 4 分數風波又擴大

Meta 的 Llama 4 原本要延續開放模型聲勢,結果卻陷入評測分數爭議。最新報導指出,Meta 在發布前可能用不同模型跑不同 benchmark,讓分數看起來更好,信任問題也跟著擴大。