標籤
蒸餾是把大型模型的推理能力、排序偏好或生成行為,轉移到較小模型的訓練方法。它常用於降低推論成本、縮短延遲,並讓 SLM 在重排、生成與跨架構對齊上更實用。
3 篇文章
我拆 On-Policy Distillation 的做法,整理成可直接套用的後訓練模板,少碰硬拼 RL。
CARV 用分層蒙地卡羅、重要性取樣與重用昂貴前處理,降低 diffusion-teacher 管線的梯度方差與計算浪費。
S2T 讓小型語言模型先產生候選詞,再學會自己重排,不必每次都呼叫大型模型。