[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-aws-rft-llm-as-a-judge-nova-zh":3,"article-related-aws-rft-llm-as-a-judge-nova-zh":29,"series-model-release-c22cf822-ce57-495f-a4ab-643ad9a08200":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":11},"c22cf822-ce57-495f-a4ab-643ad9a08200","aws-rft-llm-as-a-judge-nova-zh","AWS 解析 Nova 的 RFT 評分法","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Faws\">AWS\u003C\u002Fa> 公布一套用 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 當評審的強化微調流程，讓 Nova 模型能用更細的評分信號學會對齊任務要求。\u003C\u002Fp>\u003Cp>2026 年 4 月 30 日，\u003Ca href=\"https:\u002F\u002Faws.amazon.com\u002F\" target=\"_blank\" rel=\"noopener\">AWS\u003C\u002Fa> 發布 \u003Ca href=\"https:\u002F\u002Faws.amazon.com\u002Fsagemaker\u002F\" target=\"_blank\" rel=\"noopener\">Amazon SageMaker AI\u003C\u002Fa> 上的指南，說明如何為 \u003Ca href=\"https:\u002F\u002Faws.amazon.com\u002Fai\u002Fgenerative-ai\u002Fnova\u002F\" target=\"_blank\" rel=\"noopener\">Amazon Nova\u003C\u002Fa> 做 reinf\u003Ca href=\"\u002Fnews\u002Factian-vectorai-db-claims-22x-faster-search-zh\">or\u003C\u002Fa>cement fine-tuning（RFT）並搭配 LLM-as-a-judge。文章用合約審查案例展示，這種方法可在某些任務上優於基礎模型與 supervised fine-tuning。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>項目\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>發布日期\u003C\u002Ftd>\u003Ctd>2026\u002F04\u002F30\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>案例中的評審模型\u003C\u002Ftd>\u003Ctd>GPT OSS 120B\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>生產環境 timeout 建議\u003C\u002Ftd>\u003Ctd>15 分鐘\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Provisioned concurrency 指引\u003C\u002Ftd>\u003Ctd>約 100\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>發生了什麼\u003C\u002Fh2>\u003Cp>AWS 把 LLM-as-a-judge 定位成比固定規則更靈活的 reward signal。它不只看字串是否命中，還能評分正確性、語氣、安全性、相關性與領域細節。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777944044767-0md3.png\" alt=\"AWS 解析 Nova 的 RFT 評分法\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這份指南把流程拆成 6 步：先選 judge 類型，再定義評分標準，接著挑模型與參數，然後優化 prompt，最後把 reward metrics 對齊生產評估，並用 Lambda 做大規模與失敗處理。\u003C\u002Fp>\u003Cul>\u003Cli>Rubric-based judging：依預設標準，對單一回答打分。\u003C\u002Fli>\u003Cli>Preference-based judging：比較兩個回答，選較好的一個。\u003C\u002Fli>\u003Cli>Rubric 類型多用 boolean pass\u002Ffail，方便訓練穩定。\u003C\u002Fli>\u003Cli>Reward function 會混合 LLM 評分與格式、長度、語言、安全等 deterministic checks。\u003C\u002Fli>\u003Cli>Lambda 建議加入 exponential backoff、平行呼叫、錯誤時回傳 neutral reward，以及 15 分鐘 timeout。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>在模型選擇上，AWS 認為大模型適合多維度、較複雜的判斷，小模型則可用在數學、程式或一般聊天等較常見任務，只要 prompt 夠清楚。文章也強調輸出要結構化、規則要明確，邊界案例要先處理好，reward 才不會亂掉。\u003C\u002Fp>\u003Ch2>為什麼重要\u003C\u002Fh2>\u003Cp>對開發者來說，這種做法最大的價值是少做人工標註，卻能拿到更細的訓練訊號。LLM 評審還能說明錯在哪，方便團隊回頭修 reward logic，而不是只看分數高低。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777944059888-w3my.png\" alt=\"AWS 解析 Nova 的 RFT 評分法\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>合約審查案例很實際。AWS 描述的是用少量標註資料，訓練系統去比對條款、內部規範、歷史合約與地方法規，這類工作靠字面匹配很難做準。\u003C\u002Fp>\u003Cp>這也把訓練目標和上線指標綁得更緊。若 reward 設計能對齊準確率、安全與合規檢查，模型就\u003Ca href=\"\u002Fnews\u002Fhow-to-compare-music-ai-companies-zh\">比較\u003C\u002Fa>不會在訓練時學偏，部署後才出\u003Ca href=\"\u002Fnews\u002Fblockchain-governance-legal-problem-zh\">問題\u003C\u002Fa>。\u003C\u002Fp>\u003Cp>對產業來說，重點不是 RFT 能不能用，而是哪些任務該交給 LLM 評審，哪些還是用規則或人工更划算。\u003C\u002Fp>\u003Cp>如果你的產品已經進到高風險、高規則密度場景，這篇指南等於在提醒一件事：評分方式本身，就是模型品質的一部分。\u003C\u002Fp>\u003C\u002Fh2>","AWS 公布用 LLM-as-a-judge 做 Nova 的強化微調，並用合約審查案例示範如何把評分信號接到生產流程。","aws.amazon.com","https:\u002F\u002Faws.amazon.com\u002Fblogs\u002Fmachine-learning\u002Freinforcement-fine-tuning-with-llm-as-a-judge\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777944044767-0md3.png","model-release","zh","f4dd6aa0-0b9a-4963-a186-66764c4c7442",[17,18,19,20,21],"AWS","Nova","RFT","LLM-as-a-judge","SageMaker AI",[23,24,25],"AWS 公布用 LLM-as-a-judge 做 Nova 的 RFT 流程。","指南把評分、reward 與生產評估接在一起。","合約審查案例顯示，少量標註也能訓練出更貼近業務的模型。",1,"2026-05-05T01:20:23.634187+00:00","2026-05-05T01:20:23.554+00:00",{"tags":30,"relatedLang":41,"relatedPosts":45},[31,33,35,37,39],{"name":20,"slug":32},"llm-as-a-judge",{"name":17,"slug":34},"aws",{"name":19,"slug":36},"rft",{"name":21,"slug":38},"sagemaker-ai",{"name":18,"slug":40},"nova",{"id":15,"slug":42,"title":43,"language":44},"aws-rft-llm-as-a-judge-nova-en","AWS details RFT with LLM-as-a-judge for Nova","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"0392d382-6364-45bc-8532-8e6759930499","mips-risc-v-ai-ip-ces-edge-models-zh","MIPS 推出 RISC-V 邊緣 AI IP","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780668189122-x05o.png","2026-06-05T14:02:32.582526+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"003f59ba-8d5a-40cb-8e6b-0b51898bc537","midjourney-21-second-video-model-closed-ai-wrong-deal-zh","為什麼 Midjourney 的 21 秒影片模型證明封閉式 AI 是錯的交易","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780648396657-oa18.png","2026-06-05T08:32:37.400103+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"b5889da8-fa42-44ed-89a7-3347655b388d","microsoft-seven-ai-models-openai-anthropic-build-2026-zh","7 款 Microsoft AI 模型登場","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780642975404-f8mr.png","2026-06-05T07:02:23.607092+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"b5926931-ce20-4b9d-8814-a3c960187209","what-we-know-about-gpt-56-release-date-zh","GPT-5.6 何時發布？目前線索整理","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780574585815-dzo7.png","2026-06-04T12:02:35.122398+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"1985ce38-03c6-4968-96fa-b751553bbef3","why-claude-opus-48-is-not-the-big-story-zh","為什麼 Claude Opus 4.8 不是大新聞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780531367297-nrfs.png","2026-06-04T00:02:24.633987+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"8810b91a-9aa2-4cd6-a58b-18fad5897423","devin-booker-sedona-mcdonalds-shoe-launch-zh","Booker把Sedona麥當勞變鞋款發表場","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780510686292-fm1k.png","2026-06-03T18:17:31.966783+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]