返回首頁

標籤

reinforcement learning

強化學習研究如何讓模型在回饋訊號下逐步學會決策,常見於機器人控制、長期代理訓練與 LLM 微調。這個主題也涵蓋 PPO、BRRL、持續學習與安全約束等方法,重點在穩定更新、長期規劃與部署風險。

17 篇文章

RiVER 讓 LLM 不靠標準答案也能學
技術研究/6月26日

RiVER 讓 LLM 不靠標準答案也能學

RiVER 證明 LLM 可以只靠執行回饋與分數校準,在沒有標準答案的任務上學出更好的策略。

自蒸餾會縮小模型多樣性
技術研究/6月25日

自蒸餾會縮小模型多樣性

這篇論文指出,自蒸餾能拉高 pass@1,卻會壓縮輸出多樣性,讓模型在分布外情境更脆弱。

Turing-RL 讓模擬使用者更像真人
技術研究/6月18日

Turing-RL 讓模擬使用者更像真人

Turing-RL 用 LLM 裁判做強化學習,讓使用者模擬器追求「像真人」而不是對齊單一標準答案。

ContextRL 讓 LLM 學會挑證據
技術研究/6月16日

ContextRL 讓 LLM 學會挑證據

ContextRL 用對比式上下文選擇強化學習,讓模型先挑對證據,再回答問題,改善長上下文與多模態推理的 grounding。

Mana把工具操作改寫成動畫
技術研究/6月12日

Mana把工具操作改寫成動畫

Mana 把具關節工具操作改寫成動畫流程,讓機器人能零樣本把模擬學到的動作直接搬到真實世界。

RL 先接管再放手
技術研究/6月9日

RL 先接管再放手

這篇論文證明,RL 可以先借用可用的基線策略,再把控制權逐步交給學到的新策略。

強化感知蒸餾,想把推理一起學進去
技術研究/6月5日

強化感知蒸餾,想把推理一起學進去

這篇論文提出強化感知知識蒸餾,目標不是只壓縮答案,而是把 LLM 的推理行為一起轉移給學生模型。

Cursor Composer 2.5 為什麼這麼便宜
工具應用/6月3日

Cursor Composer 2.5 為什麼這麼便宜

Cursor Composer 2.5 用 Moonshot 的 Kimi K2.5 和即時 RL,把 AI 寫程式成本壓到很低,價格差距直接衝擊 Claude 和 GPT-5.5。

MobileGym 讓手機 GUI 代理可大規模測試
技術研究/5月26日

MobileGym 讓手機 GUI 代理可大規模測試

MobileGym 把手機 GUI 代理的評估變成可重現、可平行擴展的流程,靠結構化狀態與決定性判分,讓訓練和測試更穩定。

ATLAS 用一個 token 做視覺推理
技術研究/5月16日

ATLAS 用一個 token 做視覺推理

ATLAS 提出用單一離散 token 同時承擔 agentic 與 latent 視覺推理,想降低中間步驟成本,並維持標準 next-token 訓練流程。

BRRL 取代 PPO 剪裁:BPO 與 GBPO 的穩定性升級
技術研究/4月21日

BRRL 取代 PPO 剪裁:BPO 與 GBPO 的穩定性升級

BRRL 把 PPO 的剪裁目標改寫成有界比例框架,推出 BPO 與 GBPO,主打更穩定的更新與更清楚的理論基礎。

LLM 會看地圖,卻撐不住長度
技術研究/4月17日

LLM 會看地圖,卻撐不住長度

這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看,結果發現 LLM 能跨地圖泛化,卻在長度變長時因遞迴推理不穩而失手。

用物理模擬器訓練 LLM 推理
技術研究/4月14日

用物理模擬器訓練 LLM 推理

研究者把物理模擬器變成強化學習資料來源,訓練 LLM 學會物理推理,並在 IPhO 題目上帶來 zero-shot 提升。

教代理何時別叫工具
技術研究/4月10日

教代理何時別叫工具

HDPO 把「答對」和「少叫工具」分開訓練,想修正多模態代理的盲目工具使用。摘要稱它能大幅減少呼叫次數,同時提升推理正確率。

Bessemer 看準的 5 個 AI 基礎設施前線
產業動態/4月3日

Bessemer 看準的 5 個 AI 基礎設施前線

Bessemer 2026 AI infra 藍圖指向 memory、continual learning、RL、inference 與 world models。重點不是更大模型,而是讓 AI 真正進到生產環境。

如何打造 AI 加密貨幣交易機器人
區塊鏈/4月2日

如何打造 AI 加密貨幣交易機器人

2026 AI 加密貨幣交易機器人實作指南:資料管線、模型選擇、風控、部署與合規,幫你把想法變成能上線的系統。

Cursor 推自架代理與即時 RL
工具應用/3月28日

Cursor 推自架代理與即時 RL

Cursor 在 2026 年 3 月推出自架雲端代理,並公開 Composer 的即時 RL 訓練法。官方稱新 checkpoint 最快每 5 小時更新一次,企業可把程式碼與工具執行留在自家網路內。