[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-llm-judge-reliability-conformal-transitivity-zh":3,"tags-llm-judge-reliability-conformal-transitivity-zh":30,"related-lang-llm-judge-reliability-conformal-transitivity-zh":31,"related-posts-llm-judge-reliability-conformal-transitivity-zh":35,"series-research-082ebaa3-ad6f-421a-860a-8566846fb9c1":72},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":18,"translated_content":10,"views":19,"is_premium":20,"created_at":21,"updated_at":21,"cover_image":11,"published_at":22,"rewrite_status":23,"rewrite_error":10,"rewritten_from_id":24,"slug":25,"category":26,"related_article_id":27,"status":28,"google_indexed_at":29,"x_posted_at":10},"082ebaa3-ad6f-421a-860a-8566846fb9c1","LLM 評審別只看平均分","\u003Cp>LLM-as-judge 已經是很多生成式系統的常見評估方式。問題是，大家常看的是整體分數，卻很少問一個更關鍵的事：這個評審在「單一輸入」上到底可不可靠？\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.15302\">Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations\u003C\u002Fa> 就是在補這個洞。它不是只看平均分，而是把 LLM 評審拆開來觀察，檢查它在每個文件上的一致性與不確定性。\u003C\u002Fp>\u003Cp>這篇摘要的核心訊息很直接：如果你拿 \u003Ca href=\"\u002Fnews\u002Fllm-generalization-shortest-path-scale-zh\">LLM\u003C\u002Fa> 來評摘要、輸出品質，或其他 NLG 系統，單一 rating 可能不夠。你可能更需要知道，評審什麼時候會猶豫、什麼時候會前後矛盾，以及這些不\u003Ca href=\"\u002Fnews\u002Fwhite-house-backs-stablecoin-yield-fight-zh\">穩定\u003C\u002Fa>是不是跟輸入本身有關，而不是隨機波動。\u003C\u002Fp>\u003Ch2>這篇論文想解的痛點\u003C\u002Fh2>\u003Cp>LLM 評審之所以受歡迎，是因為它能把原本需要人工看的評估流程自動化。這對團隊很有吸引力，尤其是當你要快速比較不同模型、不同 prompt、不同版本時。但自動化不等於可信。某個 jud\u003Ca href=\"\u002Fnews\u002Fmm-webagent-hierarchical-multimodal-webpages-zh\">ge\u003C\u002Fa> 可能在整體上看起來表現不錯，卻在個別案例上出現明顯不一致。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776406189176-acr2.png\" alt=\"LLM 評審別只看平均分\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>論文作者要處理的，就是這個「平均起來看不出來」的問題。摘要明確指出，per-instance reliability 目前還沒有被充分理解，但 LLM-as-judge 已經越來越常被拿來做自動化 NLG 評估。換句話說，業界正在大量使用這種工具，卻不一定知道它在單筆資料上的穩定程度。\u003C\u002Fp>\u003Cp>這篇研究不是要宣稱人類評估可以被完全取代。它更像是提供一套診斷工具，讓開發者知道：哪些輸入比較容易讓 judge 出現搖擺，哪些評估面向比較脆弱，哪些結果應該保留更多懷疑。\u003C\u002Fp>\u003Ch2>方法到底怎麼運作\u003C\u002Fh2>\u003Cp>作者用了兩個診斷角度。第一個是 transitivity 檢查。白話來說，如果 A 比 B 好，B 比 C 好，那通常 A 也應該比 C 好。這種關係如果常常被打破，就會出現 directed 3-cycle，也就是三個對象之間形成互相矛盾的偏好鏈。論文用這種方式看 judge 的比較結果有沒有邏輯上的不一致。\u003C\u002Fp>\u003Cp>第二個是 split conformal prediction sets，而且是套在 1 到 5 的 Likert 分數上。不要把它想成單純輸出一個分數；它輸出的是一組「合理分數集合」，並且有理論上的 coverage 保證，至少是 1-α。集合越窄，代表 judge 越有把握；集合越寬，代表它越不確定。作者把這個 set width 當成 per-instance reliability 的訊號。\u003C\u002Fp>\u003Cp>這裡有個重點。set width 不是那種模糊的「我覺得有信心」文字敘述，而是可以實際量化的訊號。論文報告，prediction set width 和 reliability 有正相關，而且這個關係在不同 judges 之間都能看到。也就是說，這個寬度看起來比較像是輸入本身難不難，而不是某個模型的偶然偏差。\u003C\u002Fp>\u003Cp>作者也把這套診斷放到不同 evaluation criteria 上比較。這樣做的好處是，你不只是在問「哪個 judge 比較好」，而是在問「哪一種評估任務比較容易被 judge 穩定處理」。這對實務其實更有用，因為很多時候瓶頸不是模型本身，而是評估標準本來就很主觀。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>第一個結果是 transitivity 真的會出問題，但問題不是只看整體平均就看得出來。論文報告的 aggregate violation rate 不高，平均 ρ 落在 0.8% 到 4.1% 之間；可是換到文件層級來看，33% 到 67% 的文件至少出現一次 directed 3-cycle。這代表什麼？代表整體數字看起來不嚴重，但很多單筆輸入其實已經有矛盾判斷了。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776406192903-in84.png\" alt=\"LLM 評審別只看平均分\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>第二個結果是 conformal prediction sets 的寬度，確實能當作可靠性訊號。跨所有 judges 來看，set width 和 reliability 的相關係數是 r\u003Csub>s\u003C\u002Fsub> = +0.576，N = 1,918，p &lt; 10\u003Csup>-100\u003C\u002Fsup>。這個數字很強，至少在這份研究的設定裡，寬度越大，judge 越不可靠的趨勢非常明顯。\u003C\u002Fp>\u003Cp>更有意思的是，這個訊號不是只在單一模型上成立。論文還觀察到不同 judges 對 set width 的判斷有一定程度的一致性，平均相關大約在 0.32 到 0.38 之間。這支持一個解讀：set width 反映的可能是輸入的難度或歧義，而不是某個 judge 自己的怪脾氣。\u003C\u002Fp>\u003Cp>第三個結果是，criteria 之間的差異比 judge 之間更重要。摘要指出，relevance 是最可靠的，平均 set size 大約 3.0；coherence 居中，平均 set size 約 3.9；fluency 和 consistency 最弱，平均 set size 約 4.9。因為分數範圍是 1 到 5，set size 越大，代表 judge 留下越多可能性，也就是越不敢下結論。\u003C\u002Fp>\u003Cp>這裡的訊息很實際：不是所有評估面向都一樣容易。某些面向，像 relevance，LLM judge 比較能穩定處理；但像 fluency、consistency 這類面向，judge 可能更常陷入模糊地帶。對做產品的人來說，這會直接影響你能不能把自動評分當成主要依據。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做摘要評估、排序、或其他 NLG 檢查，這篇論文的建議其實很務實：不要只看一個分數。你應該把 judge 當成一個有不確定性的工具，而不是一個永遠正確的裁判。平均分數可以幫你做粗略篩選，但不能保證每個樣本都值得信任。\u003C\u002Fp>\u003Cp>更具體地說，這篇研究暗示幾個實作上的方向：\u003C\u002Fp>\u003Cul>\u003Cli>把 per-example uncertainty 納入流程，不要只存 aggregate average。\u003C\u002Fli>\u003Cli>除了最終分數，也檢查 pairwise comparison 是否有矛盾。\u003C\u002Fli>\u003Cli>不同 criteria 的難度可能差很多，不要假設所有評估項目都一樣穩。\u003C\u002Fli>\u003Cli>如果你需要跨 judge 通用的可靠性訊號，set width 這種穩定指標值得保留。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>對團隊而言，這不只是研究上的小修正，而是評估流程的思維轉向。當 conformal set 很寬時，最合理的解讀通常不是「模型壞掉了」，而是「這筆輸入本來就很難判」或「這個 criterion 本身就很模糊」。這種資訊可以幫你決定要不要送人工複核，也可以幫你設計更保守的自動化門檻。\u003C\u002Fp>\u003Cp>如果你把 LLM judge 用在產品上，這種診斷尤其重要。因為使用者通常不在乎你的平均準確率有多漂亮，他們在乎的是：當系統真的要對某個內容下判斷時，它會不會亂來。這篇論文就是在提醒大家，真正該盯的不是平均值，而是單筆決策的穩定度。\u003C\u002Fp>\u003Ch2>限制與還沒解完的問題\u003C\u002Fh2>\u003Cp>這份研究的範圍主要放在 SummEval。摘要沒有說它已經在更廣泛的資料集、領域或 prompt 設計上驗證過同樣的結果，所以不能直接把這些數字外推到所有場景。也就是說，這篇論文提供的是一個很有用的診斷框架，但不是一個萬用結論。\u003C\u002Fp>\u003Cp>另外，摘要沒有公開完整 benchmark 細節，也沒有宣稱這些診斷能把評估品質從頭到尾解決。它更像是在告訴你：你至少可以先知道 judge 在哪裡不穩，然後再決定要怎麼處理。這跟「直接得到絕對正確的自動評分」是兩回事。\u003C\u002Fp>\u003Cp>conformal prediction sets 還有一個天然限制：它能告訴你不確定，但不會直接告訴你為什麼不確定。集合很寬，可能是輸入真的難、標準太主觀，或 judge 校準得不好。摘要裡提到跨 judge 的一致性，表示這個訊號不是亂飄，但它還沒把原因完全拆開。\u003C\u002Fp>\u003Cp>即便如此，這篇論文的價值還是很清楚。它把 LLM 評審從「只看分數」推進到「看分數，也看一致性與不確定性」。對開發者來說，這種轉變很重要，因為它讓自動評估更像一個可監控的系統，而不是黑箱裁判。\u003C\u002Fp>\u003Cp>作者也提到他們釋出了 code、prompts 和 cached results。對想重現或改造這套診斷流程的人來說，這會比單純的理論描述更有用。畢竟真正能落地的，不是另一個 judge，而是知道 judge 什麼時候可能不可靠的能力。\u003C\u002Fp>","這篇論文提醒：LLM 當評審時，平均表現看起來穩，不代表每個輸入都可靠。作者用 transitivity 檢查與 conformal prediction sets，抓出輸入層級的不一致與不確定性。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.15302",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776406189176-acr2.png",[13,14,15,16,17],"LLM-as-judge","conformal prediction","transitivity","NLG evaluation","reliability","zh",0,false,"2026-04-17T06:09:32.920971+00:00","2026-04-17T06:09:32.85+00:00","done","9c3f32ec-2ebd-4e81-a172-5b63349fa79e","llm-judge-reliability-conformal-transitivity-zh","research","3a330546-beae-4173-9b71-9d0d446ff432","published","2026-04-17T09:00:09.464+00:00",[],{"id":27,"slug":32,"title":33,"language":34},"llm-judge-reliability-conformal-transitivity-en","How to Trust LLM Judges, Per Input","en",[36,42,48,54,60,66],{"id":37,"slug":38,"title":39,"cover_image":40,"image_url":40,"created_at":41,"category":26},"7ec4baa4-f0af-441e-a97d-56f81a2ca854","avise-ai-security-evaluation-framework-zh","AVISE 模組化測 AI 安全漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776924771424-kztu.png","2026-04-23T06:12:30.770582+00:00",{"id":43,"slug":44,"title":45,"cover_image":46,"image_url":46,"created_at":47,"category":26},"b418bc8d-86c6-44d6-93f0-e26473db9649","parallel-sft-code-rl-cross-language-transfer-zh","Parallel-SFT 讓 code RL 更會跨語言","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776924588963-c6d5.png","2026-04-23T06:09:32.299476+00:00",{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":26},"0274c95d-bf59-405b-a4fd-425f4bb39368","speechparaling-bench-paralinguistic-speech-generation-zh","SpeechParaling-Bench盯住語氣細節","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776924234553-lme6.png","2026-04-23T06:03:38.74229+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":26},"947e3be0-2b4b-4719-90d1-ddd1ac80f18a","safe-continual-rl-changing-environments-zh","安全持續學習還沒解題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776838196623-anqk.png","2026-04-22T06:09:32.609993+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":26},"3823f95c-b999-49c7-8ebb-6533799afe82","random-neural-nets-fluctuations-phase-transitions-zh","隨機神經網路的三態漲落相變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776838016911-ba0a.png","2026-04-22T06:06:36.386094+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":26},"1b8be06a-85ea-4cd1-a3c7-ffccdc3eefd5","edge-of-stability-generalization-zh","邊界不穩定為何反而更會泛化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776837839747-ism8.png","2026-04-22T06:03:36.116147+00:00",[73,78,83,88,93,98,103,108,113,118],{"id":74,"slug":75,"title":76,"created_at":77},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":79,"slug":80,"title":81,"created_at":82},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":84,"slug":85,"title":86,"created_at":87},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]