標籤
LLM 評估關注模型是否真的理解與推理,而不只是答對單題。常見面向包括長鏈推理、ASR 轉寫品質判定、與人類標註一致性,以及在多步驟任務中維持穩定表現的能力。
2 篇文章
Braintrust 的 2026 比較文整理了主流 Prompt 評測工具,重點放在價格、功能、協作和生產環境監控,適合要把 AI 產品真的上線的團隊。
LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。