[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-unifying-sft-target-distribution-design-zh":3,"article-related-unifying-sft-target-distribution-design-zh":30,"series-research-12ecefe1-00ea-4c54-8c7f-b71646f5dba3":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"12ecefe1-00ea-4c54-8c7f-b71646f5dba3","unifying-sft-target-distribution-design-zh","SFT 不只看 loss，先設計目標分布","\u003Cp data-speakable=\"summary\">這篇論文把 SFT 重新定義成目標分布設計，主張先決定該信任多少標註，再分配剩餘機率。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：十組推理資料與模型設定\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：Q-target 拆分信任與剩餘質量\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文想講的事很直接：做 supervised fine-tuning（SFT）時，重點不只是把 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> loss 壓低，而是要先想清楚「訓練目標分布」該長什麼樣子。作者認為，傳統 SFT 太常把示範資料裡出現的 token 當成唯一正解，這在資料乾淨、答案唯一時還行，但遇到噪聲、歧義、或和預訓練模型先驗不一致的情況，就可能把模型拉歪。\u003C\u002Fp>\u003Cp>換句話說，這篇不是在改一個小 loss 技巧，而是在改看問題的角度。它把 SFT 從「讓模型複製 token」改寫成「設計模型應該學到的下一個 token 分布」。這個轉向很重要，因為很多開發者在 fine-tune 時碰到的痛點，常常不是模型不會學，而是學得太死、太脆弱，最後對措辭特別敏感。\u003C\u002Fp>\u003Ch2>它想解的痛點是什麼\u003C\u002Fh2>\u003Cp>傳統 SFT 通常做的是最大化示範序列每個 token 的似然。白話一點，就是看到訓練資料寫 A，模型就被訓練成把 A 當成唯一答案。作者指出，這種做法預設了標註永遠精準、答案永遠唯一，但真實世界的資料往往不是這樣。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781072297687-gtyc.png\" alt=\"SFT 不只看 loss，先設計目標分布\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>示範路徑可能有多個合理續寫。標註可能帶噪。資料也可能跟模型原本學到的知識有衝突。這時候如果還把 one-hot 標籤硬塞給模型，訓練目標就會過度僵硬。論文的核心批評是：問題不只在 loss，而是在 loss 背後默默假設的 target distribution。\u003C\u002Fp>\u003Cp>這個觀點對工程實作很有幫助。很多人 fine-tune 後會發現模型特別愛照抄訓練語氣，或在相近情境下反應很不穩。這篇論文等於在提醒你，問題可能不是「訓練太少」或「\u003Ca href=\"\u002Fnews\u002Fphase-diagram-multimodal-learning-zh\">學習\u003C\u002Fa>率不對」，而是你給模型的監督訊號本身就太單一。\u003C\u002Fp>\u003Cp>作者也沒有把它包裝成某種資料集專用技巧。相反地，這篇想提出的是一個更一般的 SFT 設計原則：不要預設 one-hot 一定是對的，應該主動設計目標分布。\u003C\u002Fp>\u003Ch2>Q-target 框架怎麼運作\u003C\u002Fh2>\u003Cp>論文提出的核心概念叫 Q-target。它的做法是把 SFT 監督拆成兩個明確決策。第一，訓練時要多信任觀測到的 token。第二，剩下的機率質量要怎麼分配給其他可能的 token。\u003C\u002Fp>\u003Cp>這第二點是關鍵。one-hot target 的意思很粗暴：觀測到的 token 拿走全部機率，其他候選全是零。Q-target 則把這件事\u003Ca href=\"\u002Fnews\u002Fmetamask-agent-wallet-guarded-automation-zh\">變成\u003C\u002Fa>設計選項。你可以讓觀測 token 仍然是主角，但不用把所有其他可能性一刀切掉。要給多少權重，取決於你有多信任示範資料，也取決於你想保留多少預訓練模型的先驗。\u003C\u002Fp>\u003Cp>作者的說法是，SFT 本質上是在做 target distribution design，而不是只是在選一個 loss。從這個角度看，很多看起來不同的 SFT 變體，其實都能被解讀成對同一個隱含目標分布 Q 的不同選擇。也就是說，方法表面上可能各不相同，但底層都在回答同一件事：模型下一步到底該學到什麼分布。\u003C\u002Fp>\u003Cp>這個框架的價值，在於它把原本很模糊的「要不要更保守、要不要更相信資料」變成可設計的變數。對研究者來說，這代表 SFT 的搜尋空間不只是在 loss 公式上微調，而是可以直接從監督目標下手。\u003C\u002Fp>\u003Ch2>Target-SFT 做了什麼\u003C\u002Fh2>\u003Cp>在 Q-target 的基礎上，作者提出 Target-SFT。根據摘要，這個方法是直接從想要的 target distribution 出發來建構訓練目標，而不是先套一個固定的 one-hot 標籤慣例，再去修補 loss。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781072283921-vcyk.png\" alt=\"SFT 不只看 loss，先設計目標分布\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個差異看起來細，但其實是整篇論文最實際的動作。因為如果你已經認定 target distribution 才是設計核心，那訓練目標就應該圍繞它來定義，而不是把它藏在 loss 後面。Target-SFT 就是把這個想法落地成方法。\u003C\u002Fp>\u003Cp>摘要沒有把完整數學式展開，所以比較安全的讀法是：這是一個框架層級的貢獻，不是單一小修補。它的重點在於把「信任標註多少」和「剩餘機率怎麼分」拆開，然後用這個拆法去定義新的 SFT 目標。\u003C\u002Fp>\u003Cp>如果你平常在做 instruction tuning 或示範式 fine-tuning，這個思路其實很直觀。不是所有訓練樣本都該被當成絕對真理。當資料本身有不確定性時，訓練目標也應該保留一點彈性。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要唯一明確的結果是：Target-SFT 在十組推理資料與模型設定上都表現較好。這裡沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 名稱，也沒有提供具體分數、提升幅度或計算成本數字，所以不能把它寫成某個精確百分比的勝利。\u003C\u002Fp>\u003Cp>但「一致優於」仍然有意義。因為它代表作者不是只在單一任務上碰到巧合，而是在多個設定都看到了同方向改善。對實務上要挑 fine-tuning 方案的人來說，這種跨設定的一致性，比單點爆表更值得注意。\u003C\u002Fp>\u003Cp>不過，摘要也留下不少空白。它沒有說清楚用了哪些模型、哪些推理資料、改善有多大，也沒有交代提升是來自更好的校準、更好的泛化，還是單純更貼近訓練分布。這些都會影響你要不要把方法搬進自己的訓練流程。\u003C\u002Fp>\u003Cp>所以，這篇目前比較像是把方向指對，而不是把所有工程細節一次講完。它證明的是：把 SFT 視為目標分布設計，至少在摘要公開的十組設定裡，是有實際效果的。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你是做模型微調的人，這篇最大的啟發是：不要只問 loss 怎麼選，也要問 target distribution 要怎麼定。這在示範資料、人工軌跡、合成軌跡，或任何存在多種合理答案的場景裡，都特別重要。\u003C\u002Fp>\u003Cp>它也提供了一個比較好溝通的語言。當你在比較不同 SFT recipe 時，可以不只是說這個方法 loss 比較漂亮，而是說它對監督目標的假設比較保守、比較信任資料，或比較保留模型先驗。這讓方法比較不再只是黑盒調參。\u003C\u002Fp>\u003Cp>但限制也很明顯。摘要沒有公開完整 benchmark 細節，所以你無法從這份材料直接評估它在你自己的任務上會不會穩定。摘要也沒說方法是不是更貴、更難調，或對替代 token 的權重敏感不敏感。這些都是落地時一定會遇到的問題。\u003C\u002Fp>\u003Cp>另外，這篇也沒有主張它能解決所有 fine-tuning 問題。比較合理的理解是，它提供了一個更上層的設計框架。當你發現模型學得太硬、對措辭太敏感，或在有噪聲的示範資料上表現不穩時，Q-target 這種思路可能比單純換 loss 更有方向感。\u003C\u002Fp>\u003Ch2>你可以怎麼讀這篇論文\u003C\u002Fh2>\u003Cp>這篇論文最值得帶走的，不是某個單獨技巧，而是它改寫了 SFT 的基本單位。作者的意思是，SFT \u003Ca href=\"\u002Fnews\u002Fcrypto-agents-wallet-access-containment-zh\">不該\u003C\u002Fa>只被看成 token loss 最小化，而是 target distribution 的設計問題。這個抽象一旦換掉，很多原本看似零散的 SFT 變體，就能放進同一個框架理解。\u003C\u002Fp>\u003Cp>對做模型訓練的人來說，這是一個很實用的提醒。當你在處理不完美資料時，別急著把所有示範都當成硬標籤。先想清楚：你到底想讓模型相信示範多少，還想保留多少原本的知識。這個決策，可能比你想像中更影響最後的 fine-tuning 結果。\u003C\u002Fp>\u003Cul>\u003Cli>這篇把 SFT 從「壓低 loss」改寫成「設計目標分布」。\u003C\u002Fli>\u003Cli>Q-target 的重點，是把 token 信任度和剩餘機率分配拆開。\u003C\u002Fli>\u003Cli>摘要只說十組設定都優於基線，但沒有公開完整 benchmark 數字。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>總結來說，這是一篇框架型研究。它不是在賣一個新名詞，而是在主張：SFT 的關鍵變數，可能從來不是只有 loss，而是你給模型的目標分布本身。這個觀點如果在全文裡站得住腳，會直接影響開發者怎麼看資料、標籤，以及 fine-tuning 的設計方式。\u003C\u002Fp>","這篇論文把 SFT 重新定義成目標分布設計，主張先決定該信任多少標註，再分配剩餘機率，並在十組推理資料與模型設定中一致優於基線。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.11189",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781072297687-gtyc.png","research","zh","ce41af02-501b-4651-ae86-3b982ad6cd7c",[17,18,19,20,21],"supervised fine-tuning","target distribution","Q-target","instruction tuning","reasoning models",[23,24,25],"SFT 可以被視為目標分布設計，而不只是 token loss 最小化。","Q-target 把對示範 token 的信任度與剩餘機率分配拆開。","摘要只公開十組設定的整體優勢，沒有完整 benchmark 數字。",2,"2026-06-10T06:17:32.859647+00:00","2026-06-10T06:17:32.848+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":18,"slug":33},"target-distribution",{"name":21,"slug":35},"reasoning-models",{"name":17,"slug":37},"supervised-fine-tuning",{"name":20,"slug":39},"instruction-tuning",{"name":19,"slug":41},"q-target",{"id":15,"slug":43,"title":44,"language":45},"unifying-sft-target-distribution-design-en","A New Way to Think About SFT Targets","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"844cad82-910e-454b-8490-a90aac0f8330","eevee-test-time-prompt-learning-real-world-zh","EEVEE 讓提示學習更適合真實資料流","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781073182841-4qzu.png","2026-06-10T06:32:31.979829+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"037fed2a-eadf-4b32-aea5-fdc10ba75a86","phase-diagram-multimodal-learning-zh","多模態學習的相圖","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781071380567-hvzx.png","2026-06-10T06:02:31.124955+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]