[RSCH] 6 分鐘閱讀OraCore 編輯部

RiVER 讓 LLM 不靠標準答案也能學

RiVER 證明 LLM 可以只靠執行回饋與分數校準,在沒有標準答案的任務上學出更好的策略。

分享 LinkedIn
RiVER 讓 LLM 不靠標準答案也能學

RiVER 證明 LLM 可以只靠執行回饋與分數校準,在沒有標準答案的任務上學出更好的策略。

  • 研究機構:arXiv 摘要未明確標註
  • 核心數據:ALE rating rank 提升 8.9%
  • 突破點:分數校準式強化學習

這篇論文想處理一個很實際的問題:很多強化學習流程,尤其是訓練 code model 的流程,都默認你手上有正確答案。但現實裡不一定有。你可能只有執行結果、分數,或某種可驗證但不是「標準答案比對」的回饋。RiVER 就是在這種情境下,嘗試把 LLM 訓練起來。

它的主張很直接:沒有 ground-truth answer,不代表不能做 reinforcement learning。重點是,你不能把原始分數直接丟進訓練迴圈就算了。分數要先校準,讓模型學到的是穩定的偏好,而不是被不同題目的分數尺度牽著走。

這篇在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

傳統的 RLVR,也就是 reinforcement learning with verifiable rewards,很吸引人,因為它有清楚的獎懲訊號:對就加分,錯就扣分。問題在於,這套做法通常還是依賴 ground-truth answers。只要題目沒有已知正解,標準做法就卡住了。

RiVER 讓 LLM 不靠標準答案也能學

RiVER 把焦點放在 score-based optimization tasks。這類任務不是問「答案對不對」,而是讓系統執行候選方案,再根據表現拿到一個分數。這種監督訊號在工程上很常見,像是 heuristic 類問題或其他以績效計分的任務,都很像這種情境。

但論文指出,直接拿原始分數做 group-relative RL 會出問題。它點出兩個失真來源:scale dominance 和 frequency dominance。前者是不同測資或題目的分數尺度差太多,更新方向被扭曲;後者是弱解樣本太常出現,反而壓過少數但更好的候選方案。

RiVER 到底怎麼做

RiVER 是 Ranking-induced VERifiable framework。名字已經把核心說白了:它不是只看分數高低,而是把執行回饋轉成排名導向的學習訊號。

方法的關鍵是 calibrated reward shaping with instance-wise comparisons。白話講,就是每個題目先用自己的脈絡來看分數,不把所有題目的原始數值硬拿來互比。這樣可以避免某些題目的分數天生比較大,卻在訓練時把別的題目蓋掉。

RiVER 也不是把所有解法都扁平成二元的 pass/fail。它會強調排名前面的 solver,但同時保留其他有效解的 bounded feedback。這一點很重要,因為如果只獎勵第一名,訓練訊號會太窄;但如果所有有效解都差不多,弱解又可能因為樣本多而主導更新。RiVER 要處理的,就是這個平衡。

所以它的核心不是單純「有分數就能訓練」,而是「分數要先經過校準與比較,才適合拿來做 RL」。這也是它和一般 raw score 訓練最大的差別。

論文實際證明了什麼

這篇摘要沒有公開完整 benchmark 細節,所以我們只能根據摘要裡列出的結果來看它證明了什麼。作者用 12 個 AtCoder Heuristic Contest 任務訓練,並在 Algorithm Engineering Benchmark、LiveCodeBench 和 USACO 上評估。

RiVER 讓 LLM 不靠標準答案也能學

最直接的數字是 ALE-Bench。RiVER 讓 Qwen3-8B 和 GLM-Z1-9B-0414 的 ALE rating rank 分別提升 8.9% 和 9.4%。這代表它不只是把訓練環境內的分數拉高,至少在摘要提供的結果裡,確實有可見的排名增益。

更值得注意的是轉移效果。論文說,雖然訓練只用沒有 ground-truth 的任務,但 backbone 也在 exact-solution benchmarks 上變好。摘要裡報告的絕對平均提升是 LiveCodeBench 2.4%、USACO 3.5%。

這裡的訊息很關鍵。很多方法在訓練集上看起來很強,但一換到真正需要正確解的 benchmark 就掉下去。RiVER 的摘要說,baseline 用 raw execution scores 雖然能改善 ALE rating,卻無法轉移到 exact-solution benchmarks。這暗示校準步驟不是裝飾,而是決定模型有沒有學到可泛化能力的核心。

對開發者有什麼意義

如果你在做 code model 或其他需要執行回饋的系統,RiVER 提供了一個很實際的設計方向:訓練訊號不一定要來自完美標註。只要能穩定執行、穩定評分,就有機會把這個訊號轉成 RL 可用的獎勵。

這對很多場景都很有吸引力。像是 ground truth 成本高、標註不完整,或根本沒有單一正解的任務,都可能適用。論文的訊息是:這些任務不必只能拿來做評估,也可以拿來做訓練,只是 reward 的形狀要設計好。

對工程實作來說,另一個提醒是 raw score 不是天然的好 reward。即使分數是 deterministic 的,只要不同題目的尺度不一致,或候選解的出現頻率失衡,policy update 就可能偏掉。結果可能是訓練指標變好,但模型本身沒有真的更會解題。

這篇的限制也很明顯

摘要講得最完整的是方法和幾個 headline result,但很多實作細節沒有展開。它沒有提供完整 benchmark 表、訓練 compute、sample efficiency,或更細的 ablation 結果。這些都會影響你判斷方法值不值得搬進自己的 pipeline。

另外,摘要也沒有說 RiVER 對 reward calibration 的設定有多敏感。也就是說,這套方法是不是要很精準地調參,才能穩定壓住 scale dominance 和 frequency dominance,摘要裡還看不出來。

實務上還有一個問題是成本。instance-wise comparisons 和 ranking-based shaping 聽起來合理,但也可能比單純吃 raw score 更麻煩。摘要沒有交代額外開銷,所以在真正部署前,還得看完整論文才能評估。

不過,這篇的主軸已經很清楚:RL for LLM 不一定要靠 ground-truth answers 才能成立。只要你能執行候選解、能穩定拿到分數,再把 reward 校準好,就有機會把這些訊號變成更廣泛的 coding 能力。

總結

RiVER 證明的不是「沒有標準答案也能隨便訓練」,而是「沒有標準答案時,reward 更需要被設計」。對做 code model 的開發者來說,這打開了一類更大的訓練場景,也提醒大家:真正的瓶頸常常不是有沒有分數,而是分數能不能教對行為。

  • 沒有 ground-truth 的 score-based 任務,也能用來訓練 LLM。
  • 原始執行分數不能直接當 reward,否則會出現尺度與頻率偏差。
  • RiVER 的摘要顯示,它不只改善訓練任務,也能轉移到 exact-solution benchmarks。