SFT 不只看 loss，先設計目標分布

OraCore Editors

返回首頁

[RSCH] 2026年6月10日7 分鐘閱讀OraCore 編輯部

SFT 不只看 loss，先設計目標分布

這篇論文把 SFT 重新定義成目標分布設計，主張先決定該信任多少標註，再分配剩餘機率，並在十組推理資料與模型設定中一致優於基線。

reasoning models

分享 LinkedIn

這篇論文把 SFT 重新定義成目標分布設計，主張先決定該信任多少標註，再分配剩餘機率。

研究機構：arXiv 摘要未明確標註
核心數據：十組推理資料與模型設定
突破點：Q-target 拆分信任與剩餘質量

這篇論文想講的事很直接：做 supervised fine-tuning（SFT）時，重點不只是把 token loss 壓低，而是要先想清楚「訓練目標分布」該長什麼樣子。作者認為，傳統 SFT 太常把示範資料裡出現的 token 當成唯一正解，這在資料乾淨、答案唯一時還行，但遇到噪聲、歧義、或和預訓練模型先驗不一致的情況，就可能把模型拉歪。

換句話說，這篇不是在改一個小 loss 技巧，而是在改看問題的角度。它把 SFT 從「讓模型複製 token」改寫成「設計模型應該學到的下一個 token 分布」。這個轉向很重要，因為很多開發者在 fine-tune 時碰到的痛點，常常不是模型不會學，而是學得太死、太脆弱，最後對措辭特別敏感。

它想解的痛點是什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

傳統 SFT 通常做的是最大化示範序列每個 token 的似然。白話一點，就是看到訓練資料寫 A，模型就被訓練成把 A 當成唯一答案。作者指出，這種做法預設了標註永遠精準、答案永遠唯一，但真實世界的資料往往不是這樣。

示範路徑可能有多個合理續寫。標註可能帶噪。資料也可能跟模型原本學到的知識有衝突。這時候如果還把 one-hot 標籤硬塞給模型，訓練目標就會過度僵硬。論文的核心批評是：問題不只在 loss，而是在 loss 背後默默假設的 target distribution。

這個觀點對工程實作很有幫助。很多人 fine-tune 後會發現模型特別愛照抄訓練語氣，或在相近情境下反應很不穩。這篇論文等於在提醒你，問題可能不是「訓練太少」或「學習率不對」，而是你給模型的監督訊號本身就太單一。

作者也沒有把它包裝成某種資料集專用技巧。相反地，這篇想提出的是一個更一般的 SFT 設計原則：不要預設 one-hot 一定是對的，應該主動設計目標分布。

Q-target 框架怎麼運作

論文提出的核心概念叫 Q-target。它的做法是把 SFT 監督拆成兩個明確決策。第一，訓練時要多信任觀測到的 token。第二，剩下的機率質量要怎麼分配給其他可能的 token。

這第二點是關鍵。one-hot target 的意思很粗暴：觀測到的 token 拿走全部機率，其他候選全是零。Q-target 則把這件事變成設計選項。你可以讓觀測 token 仍然是主角，但不用把所有其他可能性一刀切掉。要給多少權重，取決於你有多信任示範資料，也取決於你想保留多少預訓練模型的先驗。

作者的說法是，SFT 本質上是在做 target distribution design，而不是只是在選一個 loss。從這個角度看，很多看起來不同的 SFT 變體，其實都能被解讀成對同一個隱含目標分布 Q 的不同選擇。也就是說，方法表面上可能各不相同，但底層都在回答同一件事：模型下一步到底該學到什麼分布。

這個框架的價值，在於它把原本很模糊的「要不要更保守、要不要更相信資料」變成可設計的變數。對研究者來說，這代表 SFT 的搜尋空間不只是在 loss 公式上微調，而是可以直接從監督目標下手。

Target-SFT 做了什麼

在 Q-target 的基礎上，作者提出 Target-SFT。根據摘要，這個方法是直接從想要的 target distribution 出發來建構訓練目標，而不是先套一個固定的 one-hot 標籤慣例，再去修補 loss。

這個差異看起來細，但其實是整篇論文最實際的動作。因為如果你已經認定 target distribution 才是設計核心，那訓練目標就應該圍繞它來定義，而不是把它藏在 loss 後面。Target-SFT 就是把這個想法落地成方法。

摘要沒有把完整數學式展開，所以比較安全的讀法是：這是一個框架層級的貢獻，不是單一小修補。它的重點在於把「信任標註多少」和「剩餘機率怎麼分」拆開，然後用這個拆法去定義新的 SFT 目標。

如果你平常在做 instruction tuning 或示範式 fine-tuning，這個思路其實很直觀。不是所有訓練樣本都該被當成絕對真理。當資料本身有不確定性時，訓練目標也應該保留一點彈性。

論文實際證明了什麼

摘要唯一明確的結果是：Target-SFT 在十組推理資料與模型設定上都表現較好。這裡沒有公開完整 benchmark 名稱，也沒有提供具體分數、提升幅度或計算成本數字，所以不能把它寫成某個精確百分比的勝利。

但「一致優於」仍然有意義。因為它代表作者不是只在單一任務上碰到巧合，而是在多個設定都看到了同方向改善。對實務上要挑 fine-tuning 方案的人來說，這種跨設定的一致性，比單點爆表更值得注意。

不過，摘要也留下不少空白。它沒有說清楚用了哪些模型、哪些推理資料、改善有多大，也沒有交代提升是來自更好的校準、更好的泛化，還是單純更貼近訓練分布。這些都會影響你要不要把方法搬進自己的訓練流程。

所以，這篇目前比較像是把方向指對，而不是把所有工程細節一次講完。它證明的是：把 SFT 視為目標分布設計，至少在摘要公開的十組設定裡，是有實際效果的。

對開發者有什麼影響

如果你是做模型微調的人，這篇最大的啟發是：不要只問 loss 怎麼選，也要問 target distribution 要怎麼定。這在示範資料、人工軌跡、合成軌跡，或任何存在多種合理答案的場景裡，都特別重要。

它也提供了一個比較好溝通的語言。當你在比較不同 SFT recipe 時，可以不只是說這個方法 loss 比較漂亮，而是說它對監督目標的假設比較保守、比較信任資料，或比較保留模型先驗。這讓方法比較不再只是黑盒調參。

但限制也很明顯。摘要沒有公開完整 benchmark 細節，所以你無法從這份材料直接評估它在你自己的任務上會不會穩定。摘要也沒說方法是不是更貴、更難調，或對替代 token 的權重敏感不敏感。這些都是落地時一定會遇到的問題。

另外，這篇也沒有主張它能解決所有 fine-tuning 問題。比較合理的理解是，它提供了一個更上層的設計框架。當你發現模型學得太硬、對措辭太敏感，或在有噪聲的示範資料上表現不穩時，Q-target 這種思路可能比單純換 loss 更有方向感。

你可以怎麼讀這篇論文

這篇論文最值得帶走的，不是某個單獨技巧，而是它改寫了 SFT 的基本單位。作者的意思是，SFT 不該只被看成 token loss 最小化，而是 target distribution 的設計問題。這個抽象一旦換掉，很多原本看似零散的 SFT 變體，就能放進同一個框架理解。

對做模型訓練的人來說，這是一個很實用的提醒。當你在處理不完美資料時，別急著把所有示範都當成硬標籤。先想清楚：你到底想讓模型相信示範多少，還想保留多少原本的知識。這個決策，可能比你想像中更影響最後的 fine-tuning 結果。

這篇把 SFT 從「壓低 loss」改寫成「設計目標分布」。
Q-target 的重點，是把 token 信任度和剩餘機率分配拆開。
摘要只說十組設定都優於基線，但沒有公開完整 benchmark 數字。

總結來說，這是一篇框架型研究。它不是在賣一個新名詞，而是在主張：SFT 的關鍵變數，可能從來不是只有 loss，而是你給模型的目標分布本身。這個觀點如果在全文裡站得住腳，會直接影響開發者怎麼看資料、標籤，以及 fine-tuning 的設計方式。

// 相關文章

SFT 不只看 loss，先設計目標分布

它想解的痛點是什麼

訂閱 AI 趨勢週報

Q-target 框架怎麼運作

Target-SFT 做了什麼

論文實際證明了什麼

對開發者有什麼影響

你可以怎麼讀這篇論文

可解釋強化學習管空管路由

Skill Self-Play 讓 LLM 技能共演化

SM4RT 把剛體運動帶進 4D 重建

Prompt 工程把 codegen 變成可重複流程

2026 Prompt Engineering 快速手冊

35 個 ChatGPT 研究提示詞實作指南