[RSCH] 7 分鐘閱讀OraCore 編輯部

SFT 不只看 loss,先設計目標分布

這篇論文把 SFT 重新定義成目標分布設計,主張先決定該信任多少標註,再分配剩餘機率,並在十組推理資料與模型設定中一致優於基線。

分享 LinkedIn
SFT 不只看 loss,先設計目標分布

這篇論文把 SFT 重新定義成目標分布設計,主張先決定該信任多少標註,再分配剩餘機率。

  • 研究機構:arXiv 摘要未明確標註
  • 核心數據:十組推理資料與模型設定
  • 突破點:Q-target 拆分信任與剩餘質量

這篇論文想講的事很直接:做 supervised fine-tuning(SFT)時,重點不只是把 token loss 壓低,而是要先想清楚「訓練目標分布」該長什麼樣子。作者認為,傳統 SFT 太常把示範資料裡出現的 token 當成唯一正解,這在資料乾淨、答案唯一時還行,但遇到噪聲、歧義、或和預訓練模型先驗不一致的情況,就可能把模型拉歪。

換句話說,這篇不是在改一個小 loss 技巧,而是在改看問題的角度。它把 SFT 從「讓模型複製 token」改寫成「設計模型應該學到的下一個 token 分布」。這個轉向很重要,因為很多開發者在 fine-tune 時碰到的痛點,常常不是模型不會學,而是學得太死、太脆弱,最後對措辭特別敏感。

它想解的痛點是什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

傳統 SFT 通常做的是最大化示範序列每個 token 的似然。白話一點,就是看到訓練資料寫 A,模型就被訓練成把 A 當成唯一答案。作者指出,這種做法預設了標註永遠精準、答案永遠唯一,但真實世界的資料往往不是這樣。

SFT 不只看 loss,先設計目標分布

示範路徑可能有多個合理續寫。標註可能帶噪。資料也可能跟模型原本學到的知識有衝突。這時候如果還把 one-hot 標籤硬塞給模型,訓練目標就會過度僵硬。論文的核心批評是:問題不只在 loss,而是在 loss 背後默默假設的 target distribution。

這個觀點對工程實作很有幫助。很多人 fine-tune 後會發現模型特別愛照抄訓練語氣,或在相近情境下反應很不穩。這篇論文等於在提醒你,問題可能不是「訓練太少」或「學習率不對」,而是你給模型的監督訊號本身就太單一。

作者也沒有把它包裝成某種資料集專用技巧。相反地,這篇想提出的是一個更一般的 SFT 設計原則:不要預設 one-hot 一定是對的,應該主動設計目標分布。

Q-target 框架怎麼運作

論文提出的核心概念叫 Q-target。它的做法是把 SFT 監督拆成兩個明確決策。第一,訓練時要多信任觀測到的 token。第二,剩下的機率質量要怎麼分配給其他可能的 token。

這第二點是關鍵。one-hot target 的意思很粗暴:觀測到的 token 拿走全部機率,其他候選全是零。Q-target 則把這件事變成設計選項。你可以讓觀測 token 仍然是主角,但不用把所有其他可能性一刀切掉。要給多少權重,取決於你有多信任示範資料,也取決於你想保留多少預訓練模型的先驗。

作者的說法是,SFT 本質上是在做 target distribution design,而不是只是在選一個 loss。從這個角度看,很多看起來不同的 SFT 變體,其實都能被解讀成對同一個隱含目標分布 Q 的不同選擇。也就是說,方法表面上可能各不相同,但底層都在回答同一件事:模型下一步到底該學到什麼分布。

這個框架的價值,在於它把原本很模糊的「要不要更保守、要不要更相信資料」變成可設計的變數。對研究者來說,這代表 SFT 的搜尋空間不只是在 loss 公式上微調,而是可以直接從監督目標下手。

Target-SFT 做了什麼

在 Q-target 的基礎上,作者提出 Target-SFT。根據摘要,這個方法是直接從想要的 target distribution 出發來建構訓練目標,而不是先套一個固定的 one-hot 標籤慣例,再去修補 loss。

SFT 不只看 loss,先設計目標分布

這個差異看起來細,但其實是整篇論文最實際的動作。因為如果你已經認定 target distribution 才是設計核心,那訓練目標就應該圍繞它來定義,而不是把它藏在 loss 後面。Target-SFT 就是把這個想法落地成方法。

摘要沒有把完整數學式展開,所以比較安全的讀法是:這是一個框架層級的貢獻,不是單一小修補。它的重點在於把「信任標註多少」和「剩餘機率怎麼分」拆開,然後用這個拆法去定義新的 SFT 目標。

如果你平常在做 instruction tuning 或示範式 fine-tuning,這個思路其實很直觀。不是所有訓練樣本都該被當成絕對真理。當資料本身有不確定性時,訓練目標也應該保留一點彈性。

論文實際證明了什麼

摘要唯一明確的結果是:Target-SFT 在十組推理資料與模型設定上都表現較好。這裡沒有公開完整 benchmark 名稱,也沒有提供具體分數、提升幅度或計算成本數字,所以不能把它寫成某個精確百分比的勝利。

但「一致優於」仍然有意義。因為它代表作者不是只在單一任務上碰到巧合,而是在多個設定都看到了同方向改善。對實務上要挑 fine-tuning 方案的人來說,這種跨設定的一致性,比單點爆表更值得注意。

不過,摘要也留下不少空白。它沒有說清楚用了哪些模型、哪些推理資料、改善有多大,也沒有交代提升是來自更好的校準、更好的泛化,還是單純更貼近訓練分布。這些都會影響你要不要把方法搬進自己的訓練流程。

所以,這篇目前比較像是把方向指對,而不是把所有工程細節一次講完。它證明的是:把 SFT 視為目標分布設計,至少在摘要公開的十組設定裡,是有實際效果的。

對開發者有什麼影響

如果你是做模型微調的人,這篇最大的啟發是:不要只問 loss 怎麼選,也要問 target distribution 要怎麼定。這在示範資料、人工軌跡、合成軌跡,或任何存在多種合理答案的場景裡,都特別重要。

它也提供了一個比較好溝通的語言。當你在比較不同 SFT recipe 時,可以不只是說這個方法 loss 比較漂亮,而是說它對監督目標的假設比較保守、比較信任資料,或比較保留模型先驗。這讓方法比較不再只是黑盒調參。

但限制也很明顯。摘要沒有公開完整 benchmark 細節,所以你無法從這份材料直接評估它在你自己的任務上會不會穩定。摘要也沒說方法是不是更貴、更難調,或對替代 token 的權重敏感不敏感。這些都是落地時一定會遇到的問題。

另外,這篇也沒有主張它能解決所有 fine-tuning 問題。比較合理的理解是,它提供了一個更上層的設計框架。當你發現模型學得太硬、對措辭太敏感,或在有噪聲的示範資料上表現不穩時,Q-target 這種思路可能比單純換 loss 更有方向感。

你可以怎麼讀這篇論文

這篇論文最值得帶走的,不是某個單獨技巧,而是它改寫了 SFT 的基本單位。作者的意思是,SFT 不該只被看成 token loss 最小化,而是 target distribution 的設計問題。這個抽象一旦換掉,很多原本看似零散的 SFT 變體,就能放進同一個框架理解。

對做模型訓練的人來說,這是一個很實用的提醒。當你在處理不完美資料時,別急著把所有示範都當成硬標籤。先想清楚:你到底想讓模型相信示範多少,還想保留多少原本的知識。這個決策,可能比你想像中更影響最後的 fine-tuning 結果。

  • 這篇把 SFT 從「壓低 loss」改寫成「設計目標分布」。
  • Q-target 的重點,是把 token 信任度和剩餘機率分配拆開。
  • 摘要只說十組設定都優於基線,但沒有公開完整 benchmark 數字。

總結來說,這是一篇框架型研究。它不是在賣一個新名詞,而是在主張:SFT 的關鍵變數,可能從來不是只有 loss,而是你給模型的目標分布本身。這個觀點如果在全文裡站得住腳,會直接影響開發者怎麼看資料、標籤,以及 fine-tuning 的設計方式。