[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-microsoft-goalcover-fine-tuning-gaps-zh":3,"article-related-microsoft-goalcover-fine-tuning-gaps-zh":32,"series-research-f659bb6c-0788-4653-a1b6-53f8798c8564":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":29,"created_at":30,"published_at":31,"topic_cluster_id":11},"f659bb6c-0788-4653-a1b6-53f8798c8564","microsoft-goalcover-fine-tuning-gaps-zh","Microsoft GoalCover 找出微調缺口","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fmicrosoft\">Microsoft\u003C\u002Fa> Research 的 GoalCover 會在微調前找出資料缺口，幫團隊先看到模型還缺哪些能力。\u003C\u002Fp>\u003Cp>說白了，很多微調資料看起來很完整，實際上卻少了幾個關鍵子技能。這篇 Microsoft Research 的論文在 2026 年 4 月發表，還拿 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen3-14B\" target=\"_blank\" rel=\"noopener\">Qwen-3-14B\u003C\u002Fa> 做金融摘要強化微調，結果真的把 reward 拉上去。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標\u003C\u002Fth>\u003Cth>結果\u003C\u002Fth>\u003Cth>意思\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>Target subgoal degradation\u003C\u002Ftd>\u003Ctd>25.6%\u003C\u002Ftd>\u003Ctd>目標子技能在污染測試中的平均下降\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Non-target subgoal degradation\u003C\u002Ftd>\u003Ctd>2.1%\u003C\u002Ftd>\u003Ctd>非目標子技能的平均下降\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Cohen’s d\u003C\u002Ftd>\u003Ctd>1.24\u003C\u002Ftd>\u003Ctd>兩組影響差異很明顯\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>LLM-judge reward\u003C\u002Ftd>\u003Ctd>3.77 → 4.12\u003C\u002Ftd>\u003Ctd>未過濾資料對比 GoalCover 過濾資料\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Best reward\u003C\u002Ftd>\u003Ctd>4.20\u003C\u002Ftd>\u003Ctd>過濾資料加上合成樣本\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>GoalCover 到底在解什麼問題\u003C\u002Fh2>\u003Cp>訓練過 domain model 的人，應該都懂這種痛。資料量看起來夠，模型上線後卻老是漏掉幾個關鍵行為。講白了，不是模型不夠大，而是資料沒教到位。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778462447499-4gq4.png\" alt=\"Microsoft GoalCover 找出微調缺口\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Microsoft Research 的意思很直接。你在燒算力前，先看資料到底缺什麼。GoalCover 就是拿來做這件事的工具。它把一個大目標拆成多個 subgoal，再用 \u003Ca href=\"\u002Fnews\u002Fwhy-small-language-models-should-replace-llm-first-enterpris-zh\">LLM\u003C\u002Fa>-based alignm\u003Ca href=\"\u002Fnews\u002Fopenai-realtime-audio-models-live-voice-zh\">en\u003C\u002Fa>t 去看每筆資料對各個 subgoal 的覆蓋程度。\u003C\u002Fp>\u003Cp>這種做法比較像體檢，不像訓練。你不是等模型考砸了才抓問題，而是在訓練前先把資料洞補起來。這點我覺得很實際，因為修資料通常比重跑一次訓練便宜多了。\u003C\u002Fp>\u003Cul>\u003Cli>把大任務拆成可檢查的 subgoal。\u003C\u002Fli>\u003Cli>逐筆資料對齊每個 subgoal。\u003C\u002Fli>\u003Cli>找出低分區塊，定位缺口。\u003C\u002Fli>\u003Cli>決定要補資料、過濾資料，還是生合成樣本。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>為什麼這組評估數字有意思\u003C\u002Fh2>\u003Cp>這篇不是只講概念。團隊做了兩種驗證。第一種是 controlled corruption 測試。第二種是實際的 downstream fine-tuning 任務。前者看方法論，後者看能不能真的幫到模型。\u003C\u002Fp>\u003Cp>在 corruption 測試裡，GoalCover 把目標子技能和非目標子技能分得很清楚。目標子技能平均掉了 25.6%，非目標子技能只掉 2.1%。這個差距不小。代表它抓到的不是亂七八糟的波動，而是比較像真的 capability gap。\u003C\u002Fp>\u003Cblockquote>“We introduce GoalCover, a framework that helps practitioners systematically detect capability gaps in fine-tuning datasets through interactive goal decomposition and automated coverage assessment.”\u003C\u002Fblockquote>\u003Cp>這句話很直白。它在做的不是新訓練法，而是訓練前診斷。這個定位很重要，因為很多團隊把問題怪到模型架構，其實根本是資料沒覆蓋到。\u003C\u002Fp>\u003Cp>對公司來說，這種診斷有省錢效果。你少跑一次失敗的微調，就少燒一次 \u003Ca href=\"\u002Ftag\u002Fgpu\">GPU\u003C\u002Fa>。你也少花幾天在 debug 一個本來就學不會的模型。\u003C\u002Fp>\u003Ch2>Qwen-3-14B 的結果怎麼看\u003C\u002Fh2>\u003Cp>真正讓人點頭的，是金融摘要任務的結果。GoalCover 過濾後的資料，讓 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa>-judge reward 從 3.77 升到 4.12。再加上 goal-conditioned synthetic samples，最高到 4.20。這不是神蹟，但很有用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778462449208-ku62.png\" alt=\"Microsoft GoalCover 找出微調缺口\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這組數字的重點，不在於絕對分數多高，而在於改善來自資料選擇。不是換更大模型，也不是多訓幾輪。它證明一件事：資料覆蓋做對了，分數真的會動。\u003C\u002Fp>\u003Cul>\u003Cli>未過濾 baseline：3.77\u003C\u002Fli>\u003Cli>GoalCover 過濾後：4.12\u003C\u002Fli>\u003Cli>再加合成樣本：4.20\u003C\u002Fli>\u003Cli>測試任務：financial summarization RFT\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這也讓 GoalCover 比一般 data filter 更有意思。一般工具只會跟你說哪些資料爛。GoalCover 還會告訴你，為什麼爛，缺的是哪個 subgoal。\u003C\u002Fp>\u003Cp>對資料團隊來說，這很重要。因為你不只是在刪資料，而是在補能力。兩者差很多。前者像清垃圾，後者像修課綱。\u003C\u002Fp>\u003Ch2>和一般微調流程比，差在哪\u003C\u002Fh2>\u003Cp>傳統流程通常是先收資料、再標註、再訓練，最後才用 validation 看哪裡出問題。這流程沒錯，但很慢。很多盲點要等模型跑完才會浮出來。\u003C\u002Fp>\u003Cp>GoalCover 把一部分工作提前了。它先看 coverage，再決定要不要訓練。這對醫療 QA、法律摘要、金融摘要這種高風險任務特別有用。這些場景不怕模型很會講，怕的是它漏掉一個關鍵步驟。\u003C\u002Fp>\u003Cp>如果你是做 LLM workflow 的開發者，可以把它想成訓練前的資料儀表板。像 \u003Ca href=\"https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002F\" target=\"_blank\" rel=\"noopener\">Microsoft Research\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fhuggingface.co\" target=\"_blank\" rel=\"noopener\">Hugging Face\u003C\u002Fa>，再加上\u003Ca href=\"\u002Ftag\u002F開源模型\">開源模型\u003C\u002Fa>家族如 \u003Ca href=\"\u002Ftag\u002Fqwen\">Qwen\u003C\u002Fa>，這條流程可以長這樣：\u003C\u002Fp>\u003Cul>\u003Cli>先把任務拆成 atomic subgoals。\u003C\u002Fli>\u003Cli>再對資料集逐一評分。\u003C\u002Fli>\u003Cli>弱的地方先補。\u003C\u002Fli>\u003Cli>確認 coverage 後再開訓練。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這比直接把一大包資料丟進去好很多。至少你知道自己在教什麼，也知道模型還沒學到什麼。\u003C\u002Fp>\u003Ch2>這對微調團隊代表什麼\u003C\u002Fh2>\u003Cp>我覺得這篇最實用的地方，是它把 fine-tuning 問題拉回資料面。很多團隊一遇到效果差，就想加參數、換模型、改 loss。其實常常只是資料缺了一塊。\u003C\u002Fp>\u003Cp>GoalCover 的價值，就是讓能力覆蓋變成一個可檢查的指標。你不用等模型出包才知道。你可以在訓練前就先看見風險，這比事後補救乾脆多了。\u003C\u002Fp>\u003Cp>如果 Microsoft Research 之後把這套方法推到更多任務，下一個問題會是成本。它能不能在更多資料型態、更多標註風格、更多模型家族上維持同樣效果，才是關鍵。我的判斷很簡單：做 domain LLM 的團隊，應該把 capability coverage 納進 checkl\u003Ca href=\"\u002Fnews\u002Fmistral-cloud-coding-agents-vibe-medium-35-zh\">ist\u003C\u002Fa>。你不先問這題，後面常常白忙一場。\u003C\u002Fp>","Microsoft Research 的 GoalCover 會在微調前找出資料缺口，並在 Qwen-3-14B 的金融摘要任務上提升 reward 分數。","www.microsoft.com","https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fpublication\u002Fdiagnosing-capability-gaps-in-fine-tuning-data\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778462447499-4gq4.png","research","zh","18fb2e62-3d41-4b4c-8d65-e91e5f20ea28",[17,18,19,20,21,22,23,24],"Microsoft Research","GoalCover","fine-tuning","Qwen-3-14B","reinforcement fine-tuning","資料覆蓋","LLM","reward",[26,27,28],"GoalCover 先找資料缺口，再開始微調。","Qwen-3-14B 的金融摘要任務，reward 從 3.77 升到 4.12。","它的價值在診斷能力覆蓋，不只是過濾髒資料。",4,"2026-05-11T01:20:33.736263+00:00","2026-05-11T01:20:33.627+00:00",{"tags":33,"relatedLang":43,"relatedPosts":47},[34,36,37,39,41],{"name":20,"slug":35},"qwen-3-14b",{"name":19,"slug":19},{"name":17,"slug":38},"microsoft-research",{"name":21,"slug":40},"reinforcement-fine-tuning",{"name":18,"slug":42},"goalcover",{"id":15,"slug":44,"title":45,"language":46},"microsoft-goalcover-fine-tuning-gaps-en","Microsoft’s GoalCover finds fine-tuning gaps","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","2026-06-03T06:17:44.126547+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"9f9c2a61-d058-4c62-bb88-106e683657f0","nasa-landsat-wild-disturbances-rising-zh","NASA Landsat：野火與風暴變多","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780448581102-owp0.png","2026-06-03T01:02:37.513233+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"3479bdee-21fb-4fda-9572-9394caba01b0","adacodec-predictive-visual-code-video-mllms-zh","AdaCodec 用預測碼壓縮影片 token","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381988591-z2sp.png","2026-06-02T06:32:28.249023+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]