標籤

LLM evaluation

LLM 評估關注模型是否真的理解與推理，而不只是答對單題。常見面向包括長鏈推理、ASR 轉寫品質判定、與人類標註一致性，以及在多步驟任務中維持穩定表現的能力。

2 篇文章

2026 最值得看的 Prompt 評測工具

工具應用/6月27日

2026 最值得看的 Prompt 評測工具

Braintrust 的 2026 比較文整理了主流 Prompt 評測工具，重點放在價格、功能、協作和生產環境監控，適合要把 AI 產品真的上線的團隊。

LongCoT：測長鏈推理，不只看答案

技術研究/4月16日

LongCoT：測長鏈推理，不只看答案

LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。