標籤

distillation

蒸餾是把大型模型的推理能力、排序偏好或生成行為，轉移到較小模型的訓練方法。它常用於降低推論成本、縮短延遲，並讓 SLM 在重排、生成與跨架構對齊上更實用。

3 篇文章

OPD 讓你把技能蒸餾進模型

技術研究/6月29日

OPD 讓你把技能蒸餾進模型

我拆 On-Policy Distillation 的做法，整理成可直接套用的後訓練模板，少碰硬拼 RL。

CARV 讓 diffusion 老師梯度更穩

技術研究/5月21日

CARV 讓 diffusion 老師梯度更穩

CARV 用分層蒙地卡羅、重要性取樣與重用昂貴前處理，降低 diffusion-teacher 管線的梯度方差與計算浪費。

讓小模型自己重排候選詞

技術研究/4月30日

讓小模型自己重排候選詞

S2T 讓小型語言模型先產生候選詞，再學會自己重排，不必每次都呼叫大型模型。