標籤

reasoning models

推理模型強調多步驟思考與可驗證的中間推理，常見於數學、程式與代理任務。這個標籤聚焦訓練方法、冷啟動、RLVR、損失設計與成本效能取捨。

2 篇文章

SFT 不只看 loss，先設計目標分布

這篇論文把 SFT 重新定義成目標分布設計，主張先決定該信任多少標註，再分配剩餘機率，並在十組推理資料與模型設定中一致優於基線。

這篇論文用 Tsallis q-logarithm 搭出一條損失函數光譜，想解決推理模型在冷啟動時卡住的問題。它把 RLVR 和 latent trajectory 的 log-marginal-likelihood 串成可調參的連續體。