標籤
推理模型強調多步驟思考與可驗證的中間推理,常見於數學、程式與代理任務。這個標籤聚焦訓練方法、冷啟動、RLVR、損失設計與成本效能取捨。
2 篇文章
這篇論文把 SFT 重新定義成目標分布設計,主張先決定該信任多少標註,再分配剩餘機率,並在十組推理資料與模型設定中一致優於基線。
這篇論文用 Tsallis q-logarithm 搭出一條損失函數光譜,想解決推理模型在冷啟動時卡住的問題。它把 RLVR 和 latent trajectory 的 log-marginal-likelihood 串成可調參的連續體。