標籤

reinforcement learning

強化學習研究如何讓模型在回饋訊號下逐步學會決策，常見於機器人控制、長期代理訓練與 LLM 微調。這個主題也涵蓋 PPO、BRRL、持續學習與安全約束等方法，重點在穩定更新、長期規劃與部署風險。

17 篇文章

技術研究/6月26日

RiVER 讓 LLM 不靠標準答案也能學

RiVER 證明 LLM 可以只靠執行回饋與分數校準，在沒有標準答案的任務上學出更好的策略。

技術研究/6月25日

自蒸餾會縮小模型多樣性

這篇論文指出，自蒸餾能拉高 pass@1，卻會壓縮輸出多樣性，讓模型在分布外情境更脆弱。

技術研究/6月18日

Turing-RL 讓模擬使用者更像真人

Turing-RL 用 LLM 裁判做強化學習，讓使用者模擬器追求「像真人」而不是對齊單一標準答案。

技術研究/6月16日

ContextRL 讓 LLM 學會挑證據

ContextRL 用對比式上下文選擇強化學習，讓模型先挑對證據，再回答問題，改善長上下文與多模態推理的 grounding。

技術研究/6月12日

Mana把工具操作改寫成動畫

Mana 把具關節工具操作改寫成動畫流程，讓機器人能零樣本把模擬學到的動作直接搬到真實世界。

技術研究/6月9日

RL 先接管再放手

這篇論文證明，RL 可以先借用可用的基線策略，再把控制權逐步交給學到的新策略。

技術研究/6月5日

強化感知蒸餾，想把推理一起學進去

這篇論文提出強化感知知識蒸餾，目標不是只壓縮答案，而是把 LLM 的推理行為一起轉移給學生模型。

工具應用/6月3日

Cursor Composer 2.5 為什麼這麼便宜

Cursor Composer 2.5 用 Moonshot 的 Kimi K2.5 和即時 RL，把 AI 寫程式成本壓到很低，價格差距直接衝擊 Claude 和 GPT-5.5。

技術研究/5月26日

MobileGym 讓手機 GUI 代理可大規模測試

MobileGym 把手機 GUI 代理的評估變成可重現、可平行擴展的流程，靠結構化狀態與決定性判分，讓訓練和測試更穩定。

技術研究/5月16日

ATLAS 用一個 token 做視覺推理

ATLAS 提出用單一離散 token 同時承擔 agentic 與 latent 視覺推理，想降低中間步驟成本，並維持標準 next-token 訓練流程。

技術研究/4月21日

BRRL 取代 PPO 剪裁：BPO 與 GBPO 的穩定性升級

BRRL 把 PPO 的剪裁目標改寫成有界比例框架，推出 BPO 與 GBPO，主打更穩定的更新與更清楚的理論基礎。

技術研究/4月17日

LLM 會看地圖，卻撐不住長度

這篇合成最短路徑研究把「會換地圖」和「能拉長題目」拆開看，結果發現 LLM 能跨地圖泛化，卻在長度變長時因遞迴推理不穩而失手。

技術研究/4月14日

用物理模擬器訓練 LLM 推理

研究者把物理模擬器變成強化學習資料來源，訓練 LLM 學會物理推理，並在 IPhO 題目上帶來 zero-shot 提升。

技術研究/4月10日

教代理何時別叫工具

HDPO 把「答對」和「少叫工具」分開訓練，想修正多模態代理的盲目工具使用。摘要稱它能大幅減少呼叫次數，同時提升推理正確率。

產業動態/4月3日

Bessemer 看準的 5 個 AI 基礎設施前線

Bessemer 2026 AI infra 藍圖指向 memory、continual learning、RL、inference 與 world models。重點不是更大模型，而是讓 AI 真正進到生產環境。

區塊鏈/4月2日

如何打造 AI 加密貨幣交易機器人

2026 AI 加密貨幣交易機器人實作指南：資料管線、模型選擇、風控、部署與合規，幫你把想法變成能上線的系統。

工具應用/3月28日

Cursor 推自架代理與即時 RL

Cursor 在 2026 年 3 月推出自架雲端代理，並公開 Composer 的即時 RL 訓練法。官方稱新 checkpoint 最快每 5 小時更新一次，企業可把程式碼與工具執行留在自家網路內。