標籤

LLM fine-tuning

LLM 微調指的是在既有基礎模型上，透過監督式資料或強化學習調整模型行為，讓它更貼近特定任務與領域。這個主題涵蓋資料準備、訓練穩定性、評估與部署，例如 PPO 的替代方法、BPO/GBPO，以及用 S3、SageMaker 和 MLflow 加速實作。

5 篇文章

Google OpenRL 把 RL 細調搬上 Kubernetes

Google OpenRL 讓團隊在自己的 Kubernetes 叢集上做 LLM post-training 與 fine-tuning，重點是把研究流程和基礎架構拆開，減少 RL 迭代時的雜務。

我把企業 LLM 微調拆成一套可直接抄的流程：先判斷該不該微調，再做資料清理、模型選擇、評估與上線。

用 Anchored Weight Decay 在 LLM 微調時降低舊任務漂移，保住原有能力並檢查模型是否回復。

這篇論文指出，LLM 用 evolution strategies 微調時的「忘記」多半是可回復的漂移，靠 anchored weight decay 就能壓住。

BRRL 把 PPO 的剪裁目標改寫成有界比例框架，推出 BPO 與 GBPO，主打更穩定的更新與更清楚的理論基礎。