標籤
LLM fine-tuning
LLM 微調指的是在既有基礎模型上,透過監督式資料或強化學習調整模型行為,讓它更貼近特定任務與領域。這個主題涵蓋資料準備、訓練穩定性、評估與部署,例如 PPO 的替代方法、BPO/GBPO,以及用 S3、SageMaker 和 MLflow 加速實作。
5 篇文章

模型發布/6月27日
Google OpenRL 把 RL 細調搬上 Kubernetes
Google OpenRL 讓團隊在自己的 Kubernetes 叢集上做 LLM post-training 與 fine-tuning,重點是把研究流程和基礎架構拆開,減少 RL 迭代時的雜務。

技術研究/6月27日
LLM 微調把通用模型變專用工具
我把企業 LLM 微調拆成一套可直接抄的流程:先判斷該不該微調,再做資料清理、模型選擇、評估與上線。

技術研究/6月6日
如何防止 LLM 微調災難性遺忘
用 Anchored Weight Decay 在 LLM 微調時降低舊任務漂移,保住原有能力並檢查模型是否回復。

技術研究/6月5日
ES 微調忘記問題有解了
這篇論文指出,LLM 用 evolution strategies 微調時的「忘記」多半是可回復的漂移,靠 anchored weight decay 就能壓住。

技術研究/4月21日
BRRL 取代 PPO 剪裁:BPO 與 GBPO 的穩定性升級
BRRL 把 PPO 的剪裁目標改寫成有界比例框架,推出 BPO 與 GBPO,主打更穩定的更新與更清楚的理論基礎。