[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-confident-ai-llm-evaluation-metrics-guide-zh":3,"article-related-confident-ai-llm-evaluation-metrics-guide-zh":33,"series-research-e24e6e7a-6181-476b-8583-339d854cec68":86},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":29,"created_at":30,"published_at":31,"topic_cluster_id":32},"e24e6e7a-6181-476b-8583-339d854cec68","confident-ai-llm-evaluation-metrics-guide-zh","Confident AI 的 LLM 評估指標指南","\u003Cp data-speakable=\"summary\">這篇在講怎麼用對的指標，去評估 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 的正確性、相關性、幻覺和任務完成度。\u003C\u002Fp>\u003Cp>說真的，LLM 評估很容易做歪。模型可以講得很順，內容卻是錯的。這篇 \u003Ca href=\"https:\u002F\u002Fwww.confident-ai.com\u002Fblog\u002Fllm-evaluation-metrics-everything-you-need-for-llm-evaluation\" target=\"_blank\" rel=\"noopener\">Confident AI\u003C\u002Fa> 的文章，就是在講這件事。\u003C\u002Fp>\u003Cp>它的核心很直接。你要先知道系統在做\u003Ca href=\"\u002Fnews\u002Fwhy-amazon-q-developer-is-wrong-future-coding-zh\">什麼\u003C\u002Fa>。是聊天、檢索、還是多步驟 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>。不同任務，要看的 metric 完全不同。\u003C\u002Fp>\u003Cp>如果你只看一個總分，通常會踩雷。因為分數好看，不代表產品真的好用。這篇就是在拆這個迷思。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標或方法\u003C\u002Fth>\u003Cth>檢查什麼\u003C\u002Fth>\u003Cth>適合情境\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>Answer relevancy\u003C\u002Ftd>\u003Ctd>有沒有回到題目\u003C\u002Ftd>\u003Ctd>聊天機器人、助理\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Correctness\u003C\u002Ftd>\u003Ctd>答案有沒有對\u003C\u002Ftd>\u003Ctd>有標準答案的任務\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Hallucination\u003C\u002Ftd>\u003Ctd>有沒有亂編事實\u003C\u002Ftd>\u003Ctd>信任與安全場景\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Task completion\u003C\u002Ftd>\u003Ctd>agent 有沒有把事做完\u003C\u002Ftd>\u003Ctd>AI agent、工作流\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fevals\u002F\" target=\"_blank\" rel=\"noopener\">G-Eval\u003C\u002Fa>\u003C\u002Ftd>\u003Ctd>用 LLM 搭配 rubric 評分\u003C\u002Ftd>\u003Ctd>語意判斷、開放式輸出\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fprometheus-eval\u002Fprometheus\" target=\"_blank\" rel=\"noopener\">Prometheus\u003C\u002Fa>\u003C\u002Ftd>\u003Ctd>開源 LLM judge\u003C\u002Ftd>\u003Ctd>想要可控的模型評審\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>老派指標為什麼不夠用\u003C\u002Fh2>\u003Cp>文章先點名幾個老面孔，像 \u003Ca href=\"https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FBLEU\" target=\"_blank\" rel=\"noopener\">BLEU\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FROUGE_(metric)\" target=\"_blank\" rel=\"noopener\">ROUGE\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FMETEOR\" target=\"_blank\" rel=\"noopener\">METEOR\u003C\u002Fa>，還有 edit distance。這些方法不是沒用，只是它們本來就為翻譯、摘要、字串比對設計。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779178456675-x5m6.png\" alt=\"Confident AI 的 LLM 評估指標指南\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題來了。LLM 的答案常常有很多種講法。意思對就行，不一定要跟 reference 長得一模一樣。你用字詞重疊去打分，很容易把好答案打低分。\u003C\u002Fp>\u003Cp>更麻煩的是，這類分數常常只看表面。它可能獎勵了相似字句，卻沒抓到事實錯誤。對聊天機器人、\u003Ca href=\"\u002Ftag\u002Frag\">RAG\u003C\u002Fa>、coding assistant 來說，這種分數真的不夠看。\u003C\u002Fp>\u003Cul>\u003Cli>BLEU 看 n-gram precision\u003C\u002Fli>\u003Cli>ROUGE 偏向 recall，摘要任務常會用\u003C\u002Fli>\u003Cli>METEOR 會考慮同義詞與詞序\u003C\u002Fli>\u003Cli>Levenshtein distance 看字元編輯次數\u003C\u002Fli>\u003C\u002Ful>\u003Cp>講白了，這些指標適合封閉任務。像拼字修正、欄位抽取、格式固定輸出，都還能用。可是一旦進到自然語言互動，它們就開始失真。\u003C\u002Fp>\u003Cp>Confident AI 的意思很明白。只要任務牽涉語意、推理、或判斷，單靠統計分數就太薄了。你需要能對齊人類判斷的方式。\u003C\u002Fp>\u003Ch2>LLM-as-a-judge 才是重點\u003C\u002Fh2>\u003Cp>這篇最有料的地方，就是 LLM-as-a-judge。做法很簡單。你不再比字串，而是給模型一份 rubric，叫它根據規則打分。\u003C\u002Fp>\u003Cp>這種方法特別適合開放式輸出。像回答問題、摘要、對話品質、工具使用，都很難用 n-gram 解決。你要看的是意思對不對，不是字有沒有對齊。\u003C\u002Fp>\u003Cp>文章提到 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fevals\u002F\" target=\"_blank\" rel=\"noopener\">G-Eval\u003C\u002Fa>。它讓 LLM 用步驟化推理去評估輸出。也提到 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fprometheus-eval\u002Fprometheus\" target=\"_blank\" rel=\"noopener\">Prometheus\u003C\u002Fa>，這是開源 judge model，基於 Llama-2-Chat，還用 10 萬筆 feedback 做 fine-tune。\u003C\u002Fp>\u003Cblockquote>\"The secret to making a good LLM evaluation metric great is to make it align with human expectations as much as possible.\" — Jeffrey Ip, Co-founder @ Confident AI\u003C\u002Fblockquote>\u003Cp>這句話很直白。評分標準要像人。不是像數學題。你如果 rubric 寫得很模糊，judge 也只會回你一個模糊分數。\u003C\u002Fp>\u003Cp>文章作者 Jeffrey Ip 也是 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fconfident-ai\u002Fdeepeval\" target=\"_blank\" rel=\"noopener\">DeepEval\u003C\u002Fa> 的創辦人。這點很重要。因為他不是只在講理論，還在推一套真的能落地的工具。\u003C\u002Fp>\u003Ch2>不同系統，要看不同指標\u003C\u002Fh2>\u003Cp>這篇另一個實用點，是它把系統類型分開看。chatbot、RAG、agent，本來就不是同一種東西。你不該用同一把尺量到底。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779178459817-b3z0.png\" alt=\"Confident AI 的 LLM 評估指標指南\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對 agent 來說，重點是 task completion、argument correctness、tool correctness、plan quality、plan adherence。這些指標在看的是決策過程，不只是結果。\u003C\u002Fp>\u003Cp>對 RAG 來說，重點又\u003Ca href=\"\u002Fnews\u002Fgrok-build-turns-xai-into-coding-agent-zh\">變成\u003C\u002Fa> faithfulness、answer relevancy、contextual precision、contextual recall、contextual relevancy。因為問題常常出在檢索，而不是生成。\u003C\u002Fp>\u003Cul>\u003Cli>Agent 要看工具選擇和步驟順序\u003C\u002Fli>\u003Cli>RAG 要看檢索品質和答案是否依據 context\u003C\u002Fli>\u003Cli>Foundation model 要看 hallucination、toxicity、bias\u003C\u002Fli>\u003Cli>摘要、抽取、對齊任務常需要自訂 rubric\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡的重點很實際。你不需要一個超長 dashboard。你只需要少數高訊號指標。每個 metric 只回答一個問題，才好 debug。\u003C\u002Fp>\u003Cp>我覺得這比那種「全都量一輪」的做法健康多了。因為分數越多，團隊越容易吵架。最後大家都在看圖表，沒人在修產品。\u003C\u002Fp>\u003Ch2>數字怎麼看，才不會看錯\u003C\u002Fh2>\u003Cp>這篇文章雖然不是 benchmark 報告，但它其實在提醒一件事。評估要能回到數字，而且數字要能對應失敗模式。這才是 production eval 的核心。\u003C\u002Fp>\u003Cp>如果一個 agent 的分數掉了 12%，你要知道是工具錯了，還是步驟亂了。這兩種問題，修法完全不同。把它們混在一起，只會讓團隊越修越亂。\u003C\u002Fp>\u003Cp>如果一個 RAG 系統答錯，你也要分清楚。是檢索不到資料，還是檢索到了卻亂講。前者是 retrieval 問題，後者是 grounding 問題。\u003C\u002Fp>\u003Cul>\u003Cli>BLEU、ROUGE 適合比對字面重疊\u003C\u002Fli>\u003Cli>G-Eval、judge model 適合看語意和規則\u003C\u002Fli>\u003Cli>Task completion 適合 agent 工作流\u003C\u002Fli>\u003Cli>Hallucination、bias、toxicity 適合安全檢查\u003C\u002Fli>\u003C\u002Ful>\u003Cp>你可能會想問，那到底要選哪個？答案是看產品。不是看論文。不是看社群在吹什麼。你要看使用者會在哪裡失望。\u003C\u002Fp>\u003Cp>如果使用者會因為答案錯而翻白眼，那 correctness 就要高優先。如果使用者只是想要有用回覆，那 relevancy 可能比 exact match 更重要。\u003C\u002Fp>\u003Ch2>這篇其實在推一種工作流\u003C\u002Fh2>\u003Cp>Confident AI 的文章不只是講指標。它也在推一種 eval 工作流。先定義 metric，再拿真實例子測，接著用 regression testing 追版本變化。\u003C\u002Fp>\u003Cp>這很像軟體測試。只是測的不是 function output，而是 LLM 行為。模型、prompt、工具一改，分數就會\u003Ca href=\"\u002Fnews\u002Frrfp-readiness-driven-pipeline-training-zh\">跟著\u003C\u002Fa>變。你如果沒有固定流程，很快就不知道問題從哪來。\u003C\u002Fp>\u003Cp>文章也把 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fconfident-ai\u002Fdeepeval\" target=\"_blank\" rel=\"noopener\">DeepEval\u003C\u002Fa> 放進來。它是開源工具，主打用幾行 code 寫出現代 LLM metrics。搭配 \u003Ca href=\"https:\u002F\u002Fwww.confident-ai.com\u002F\" target=\"_blank\" rel=\"noopener\">Confident AI\u003C\u002Fa> 的雲端平台，還能做觀測、資料集管理、測試報表。\u003C\u002Fp>\u003Cp>這種設計很符合現在團隊的痛點。大家不是不想測，是不知道怎麼把「品質」變成可重複的流程。只靠人工 review，根本撐不住版本迭代。\u003C\u002Fp>\u003Cp>如果你在做 LLM app，我會建議你先問三件事。使用者最常抱怨什麼。哪個失敗最貴。哪個指標能穩定重現這個失敗。這三題比堆一堆分數有用多了。\u003C\u002Fp>\u003Ch2>產業脈絡也很清楚\u003C\u002Fh2>\u003Cp>現在很多團隊都在做 LLM app。從客服、搜尋、內部知識庫，到 agent 自動化，都開始上線。問題是，大家很愛先做 demo，後補評估。\u003C\u002Fp>\u003Cp>這種順序很危險。因為 demo 看起來順，不代表 production 穩。真實資料更髒，使用者問題更雜，模型也更容易亂編。沒有 eval，很多 bug 會一路滑進正式環境。\u003C\u002Fp>\u003Cp>更現實的是，LLM 系統的成本也不低。每次呼叫都要算 \u003Ca href=\"\u002Ftag\u002Ftoken\">Token\u003C\u002Fa>。每個 judge 也要算 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 費。你不能無腦把所有東西都丟給大模型評分，否則成本會先爆。\u003C\u002Fp>\u003Cp>所以現在主流做法，通常是混搭。簡單任務用規則或 exact match。語意任務用 LLM judge。安全項目再加人工抽查。這樣才比較像真的工程。\u003C\u002Fp>\u003Cp>這篇文章的價值，就在這裡。它沒有把評估講成神話。它只是很務實地說，對的 metric 才有用。這句話聽起來普通，但很多團隊真的做不到。\u003C\u002Fp>\u003Ch2>先選對 metric，再談模型好壞\u003C\u002Fh2>\u003Cp>如果你現在正在做 LLM 產品，我的建議很簡單。先列出 3 個最常見失敗。再替每個失敗找 1 個指標。不要一開始就追求全套評分系統。\u003C\u002Fp>\u003Cp>你也可以先從最容易對齊的地方開始。像 answer relevancy、correctness、hallucination，這三個就很夠用了。等你真的有 agent 或 RAG，再補 task completion 和 retrieval 類指標。\u003C\u002Fp>\u003Cp>講白了，eval 不是裝飾品。它是產品的一部分。你不先定義怎樣算好，後面就只剩下吵架。這篇 \u003Ca href=\"https:\u002F\u002Fwww.confident-ai.com\u002Fblog\u002Fllm-evaluation-metrics-everything-you-need-for-llm-evaluation\" target=\"_blank\" rel=\"noopener\">Confident AI\u003C\u002Fa> 的指南，最有價值的地方就是把這件事講得很實際。\u003C\u002Fp>\u003Cp>如果你要我下結論，我會說：先把 metric 收斂到 3 到 5 個，再把每個指標對到一種真實失敗。這樣你才有辦法真的管住 LLM 品質，不然數字再多也只是好看而已。\u003C\u002Fp>","Confident AI 解析 LLM 評估指標，從正確性、相關性、幻覺到 agent 任務完成，教你挑對 metric。","www.confident-ai.com","https:\u002F\u002Fwww.confident-ai.com\u002Fblog\u002Fllm-evaluation-metrics-everything-you-need-for-llm-evaluation",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779178456675-x5m6.png","research","zh","180a8696-ada6-43c3-ac47-5b6cea8e0b31",[17,18,19,20,21,22,23,24],"LLM 評估","evaluation metrics","Confident AI","DeepEval","G-Eval","Prometheus","RAG","AI agent",[26,27,28],"BLEU、ROUGE 這類字詞重疊指標，對開放式 LLM 輸出常常不夠用。","LLM-as-a-judge 更適合看語意、規則和人類感受，但 rubric 要寫清楚。","不同系統要用不同 metric，chatbot、RAG、agent 不能用同一套分數。",7,"2026-05-19T08:13:46.193772+00:00","2026-05-19T08:13:46.156+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":34,"relatedLang":45,"relatedPosts":49},[35,37,39,41,43],{"name":17,"slug":36},"llm-評估",{"name":19,"slug":38},"confident-ai",{"name":18,"slug":40},"evaluation-metrics",{"name":20,"slug":42},"deepeval",{"name":21,"slug":44},"g-eval",{"id":15,"slug":46,"title":47,"language":48},"confident-ai-llm-evaluation-metrics-guide-en","Confident AI’s guide to LLM evaluation metrics","en",[50,56,62,68,74,80],{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","2026-06-03T06:17:44.126547+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":13},"9f9c2a61-d058-4c62-bb88-106e683657f0","nasa-landsat-wild-disturbances-rising-zh","NASA Landsat：野火與風暴變多","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780448581102-owp0.png","2026-06-03T01:02:37.513233+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":13},"3479bdee-21fb-4fda-9572-9394caba01b0","adacodec-predictive-visual-code-video-mllms-zh","AdaCodec 用預測碼壓縮影片 token","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381988591-z2sp.png","2026-06-02T06:32:28.249023+00:00",[87,92,97,102,107,112,117,122,127,132],{"id":88,"slug":89,"title":90,"created_at":91},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]