RiVER 讓 LLM 不靠標準答案也能學

OraCore Editors

返回首頁

[RSCH] 2026年6月26日6 分鐘閱讀OraCore 編輯部

RiVER 讓 LLM 不靠標準答案也能學

RiVER 證明 LLM 可以只靠執行回饋與分數校準，在沒有標準答案的任務上學出更好的策略。

LLM reinforcement learning

分享 LinkedIn

RiVER 證明 LLM 可以只靠執行回饋與分數校準，在沒有標準答案的任務上學出更好的策略。

研究機構：arXiv 摘要未明確標註
核心數據：ALE rating rank 提升 8.9%
突破點：分數校準式強化學習

這篇論文想處理一個很實際的問題：很多強化學習流程，尤其是訓練 code model 的流程，都默認你手上有正確答案。但現實裡不一定有。你可能只有執行結果、分數，或某種可驗證但不是「標準答案比對」的回饋。RiVER 就是在這種情境下，嘗試把 LLM 訓練起來。

它的主張很直接：沒有 ground-truth answer，不代表不能做 reinforcement learning。重點是，你不能把原始分數直接丟進訓練迴圈就算了。分數要先校準，讓模型學到的是穩定的偏好，而不是被不同題目的分數尺度牽著走。

這篇在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

傳統的 RLVR，也就是 reinforcement learning with verifiable rewards，很吸引人，因為它有清楚的獎懲訊號：對就加分，錯就扣分。問題在於，這套做法通常還是依賴 ground-truth answers。只要題目沒有已知正解，標準做法就卡住了。

RiVER 把焦點放在 score-based optimization tasks。這類任務不是問「答案對不對」，而是讓系統執行候選方案，再根據表現拿到一個分數。這種監督訊號在工程上很常見，像是 heuristic 類問題或其他以績效計分的任務，都很像這種情境。

但論文指出，直接拿原始分數做 group-relative RL 會出問題。它點出兩個失真來源：scale dominance 和 frequency dominance。前者是不同測資或題目的分數尺度差太多，更新方向被扭曲；後者是弱解樣本太常出現，反而壓過少數但更好的候選方案。

RiVER 到底怎麼做

RiVER 是 Ranking-induced VERifiable framework。名字已經把核心說白了：它不是只看分數高低，而是把執行回饋轉成排名導向的學習訊號。

方法的關鍵是 calibrated reward shaping with instance-wise comparisons。白話講，就是每個題目先用自己的脈絡來看分數，不把所有題目的原始數值硬拿來互比。這樣可以避免某些題目的分數天生比較大，卻在訓練時把別的題目蓋掉。

RiVER 也不是把所有解法都扁平成二元的 pass/fail。它會強調排名前面的 solver，但同時保留其他有效解的 bounded feedback。這一點很重要，因為如果只獎勵第一名，訓練訊號會太窄；但如果所有有效解都差不多，弱解又可能因為樣本多而主導更新。RiVER 要處理的，就是這個平衡。

所以它的核心不是單純「有分數就能訓練」，而是「分數要先經過校準與比較，才適合拿來做 RL」。這也是它和一般 raw score 訓練最大的差別。

論文實際證明了什麼

這篇摘要沒有公開完整 benchmark 細節，所以我們只能根據摘要裡列出的結果來看它證明了什麼。作者用 12 個 AtCoder Heuristic Contest 任務訓練，並在 Algorithm Engineering Benchmark、LiveCodeBench 和 USACO 上評估。

最直接的數字是 ALE-Bench。RiVER 讓 Qwen3-8B 和 GLM-Z1-9B-0414 的 ALE rating rank 分別提升 8.9% 和 9.4%。這代表它不只是把訓練環境內的分數拉高，至少在摘要提供的結果裡，確實有可見的排名增益。

更值得注意的是轉移效果。論文說，雖然訓練只用沒有 ground-truth 的任務，但 backbone 也在 exact-solution benchmarks 上變好。摘要裡報告的絕對平均提升是 LiveCodeBench 2.4%、USACO 3.5%。

這裡的訊息很關鍵。很多方法在訓練集上看起來很強，但一換到真正需要正確解的 benchmark 就掉下去。RiVER 的摘要說，baseline 用 raw execution scores 雖然能改善 ALE rating，卻無法轉移到 exact-solution benchmarks。這暗示校準步驟不是裝飾，而是決定模型有沒有學到可泛化能力的核心。

對開發者有什麼意義

如果你在做 code model 或其他需要執行回饋的系統，RiVER 提供了一個很實際的設計方向：訓練訊號不一定要來自完美標註。只要能穩定執行、穩定評分，就有機會把這個訊號轉成 RL 可用的獎勵。

這對很多場景都很有吸引力。像是 ground truth 成本高、標註不完整，或根本沒有單一正解的任務，都可能適用。論文的訊息是：這些任務不必只能拿來做評估，也可以拿來做訓練，只是 reward 的形狀要設計好。

對工程實作來說，另一個提醒是 raw score 不是天然的好 reward。即使分數是 deterministic 的，只要不同題目的尺度不一致，或候選解的出現頻率失衡，policy update 就可能偏掉。結果可能是訓練指標變好，但模型本身沒有真的更會解題。

這篇的限制也很明顯

摘要講得最完整的是方法和幾個 headline result，但很多實作細節沒有展開。它沒有提供完整 benchmark 表、訓練 compute、sample efficiency，或更細的 ablation 結果。這些都會影響你判斷方法值不值得搬進自己的 pipeline。

另外，摘要也沒有說 RiVER 對 reward calibration 的設定有多敏感。也就是說，這套方法是不是要很精準地調參，才能穩定壓住 scale dominance 和 frequency dominance，摘要裡還看不出來。

實務上還有一個問題是成本。instance-wise comparisons 和 ranking-based shaping 聽起來合理，但也可能比單純吃 raw score 更麻煩。摘要沒有交代額外開銷，所以在真正部署前，還得看完整論文才能評估。

不過，這篇的主軸已經很清楚：RL for LLM 不一定要靠 ground-truth answers 才能成立。只要你能執行候選解、能穩定拿到分數，再把 reward 校準好，就有機會把這些訊號變成更廣泛的 coding 能力。

總結

RiVER 證明的不是「沒有標準答案也能隨便訓練」，而是「沒有標準答案時，reward 更需要被設計」。對做 code model 的開發者來說，這打開了一類更大的訓練場景，也提醒大家：真正的瓶頸常常不是有沒有分數，而是分數能不能教對行為。

沒有 ground-truth 的 score-based 任務，也能用來訓練 LLM。
原始執行分數不能直接當 reward，否則會出現尺度與頻率偏差。
RiVER 的摘要顯示，它不只改善訓練任務，也能轉移到 exact-solution benchmarks。

// 相關文章

RiVER 讓 LLM 不靠標準答案也能學

這篇在解什麼痛點

訂閱 AI 趨勢週報

RiVER 到底怎麼做

論文實際證明了什麼

對開發者有什麼意義

這篇的限制也很明顯

總結

Mistral OCR 4 把文件變結構化資料

ArBG 改用自回歸做分子採樣

DanceOPD：把修圖技能蒸餾進同一模型

Microsoft 砸錢研究團隊協作 AI

3 篇 AI 論文：程式、音樂、罕病診斷

新 NLP 論文盯上代理記憶與工具使用