RA-RFT 讓模型學會類比推理

OraCore Editors

返回首頁

[RSCH] 2026年6月12日6 分鐘閱讀OraCore 編輯部

RA-RFT 讓模型學會類比推理

RA-RFT 把檢索目標從相似度改成「有助推理的類比」，再用這些示範做強化式微調，讓模型在數學推理上更會借題發揮。

RAG

分享 LinkedIn

RA-RFT把檢索目標從相似度改成有助推理的類比，再用這些示範微調模型，提升數學推理表現。

研究機構：arXiv 摘要未明確標註
核心數據：AIME 2025 average@32 在 Qwen3-1.7B 上提升 7.1 分
突破點：以推理收益訓練檢索器

這篇論文要解的，不是「模型會不會找資料」，而是「模型找來的資料，能不能真的幫它想對」。在一般 retrieval-augmented generation 裡，檢索器多半靠語意相似度挑上下文；但對數學、規劃、或多步推理來說，表面很像的例子，不一定是最有用的例子。RA-RFT 就是針對這個落差下手。

作者的主張很直接：檢索不該只服務於知識補充，也可以服務於推理學習。換句話說，系統不只是把外部內容塞給模型，而是要挑出能示範「怎麼解」的類比案例。這個角度對開發者很實際，因為很多 agent 或助理卡住，不是資訊不夠，而是示範方向帶歪了。

這篇在修什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

傳統 RAG 的問題，在於它很容易把「看起來像」誤認成「真的有幫助」。一題和另一題文字很接近，不代表解法相通；反過來，一題外觀差很多，也可能共享同一個推理骨架。對需要多步思考的任務來說，這種錯配會讓模型被錯誤線索錨定住。

RA-RFT 的出發點，就是把檢索的評估標準從相似度，改成對最終推理是否有幫助。這不是小修小補，而是整個檢索層的用途改寫。它不再只是找背景資料，而是找能當作「解題示範」的上下文。

這種做法的價值，在於它把 retrieval 變成訓練訊號的一部分。也就是說，檢索結果不只餵知識，還會影響模型怎麼學會推理。對實作團隊來說，這等於把檢索從前處理模組，升級成推理能力的塑形器。

RA-RFT 怎麼運作

RA-RFT 全名是 Retrieval-Augmented Reinforcement Fine-Tuning。從名稱就能看出，它不是單純的檢索增強生成，而是把檢索、類比示範、和強化式微調接在一起。

第一步是 gold-relevance distillation。摘要沒有把所有細節展開，但它的作用很清楚：用更高品質的相關性訊號，去訓練檢索器學會排序「對推理有幫助」的上下文，而不是只挑語意最接近的片段。這裡的重點是 expected reasoning benefit，也就是預期會不會幫助模型想對。

第二步是把檢索到的 analogous demonstrations 拿去做 reinforcement fine-tuning。也就是說，政策模型在訓練時不是只看答案對不對，還會在可驗證的結果獎勵下學習。這讓訓練訊號更貼近最後輸出，而不是只依賴檢索內容看起來像不像。

這個設計的核心，是檢索器和政策模型各自學不同的事。檢索器學會找「有教學價值」的例子；模型學會利用這些例子來解題。作者也提到，他們分析了檢索內容的多樣性，結果顯示推理導向的檢索能找出互補的解法策略，而不是只挖出同一種模式的重複樣本。

論文實際證明了什麼

摘要明確說，RA-RFT 在多個困難的數學推理 benchmark 上，整體表現都優於標準的 reinforcement fine-tuning 方法。不過，摘要沒有公開完整 benchmark 細節，所以如果你想看完整表格、測試集範圍、或各項任務的逐項數字，摘要本身沒有給足。

目前最清楚的數字，是 AIME 2025 average@32。RA-RFT 在 Qwen3-1.7B 上比 GRPO 高 7.1 分，在 Qwen3-4B 上高 2.8 分。這代表它不是只在某個小設定裡有感，而是在作者挑出的數學推理場景中，確實把結果往上推了一截。

更重要的是，作者把這個提升定位成「和 reward design、training curricula 可互補」，而不是要取代其他方法。這句話很關鍵。它暗示 RA-RFT 不是單一銀彈，而是另一個可疊加的改善軸：你可以先設計獎勵、再安排課程、同時讓檢索器學會找更會教人的例子。

但摘要也留下不少空白。它沒有交代檢索延遲、訓練成本、是否需要額外的 gold relevance 訊號才能複製、以及這套方法能不能延伸到數學以外的任務。這些都會影響實務落地，尤其是你要把它塞進線上系統或大規模訓練管線時。

對開發者代表什麼

如果你在做 agent、家教型助理、coding assistant，或任何依賴 worked examples 的系統，這篇論文提供了一個很實用的方向：檢索不要只看相似度，還要看策略價值。當任務本質是多步推理時，這種目標比單純找近鄰更合理。

這也會改變你看待訓練資料的方式。最有用的示範，不一定是 embedding 空間裡最近的那筆。它可能是另一個題目，但能教會模型同一個推理動作。對工程團隊來說，這表示檢索品質不能只看 retrieval metric，還要看它對下游解題是否真的有幫助。

不過，限制也很明顯。這篇摘要裡展示的主要是數學推理 benchmark。這對方法驗證很夠力，但不等於已經證明它能廣泛套用到搜尋、客服、或程式輔助等所有 RAG 場景。不同任務可能需要不同的檢索訊號、不同的獎勵設計，甚至不同的「類比」定義。

另外，摘要沒有公開完整 benchmark 數字，也沒有說清楚所有實驗設定。對想重現的人來說，這代表你還看不到完整的成本效益比。也就是說，方向是清楚的，但落地前仍要補上工程面的驗證。

這篇論文真正的訊號

RA-RFT 最重要的訊號，不是它把某個分數推高，而是它把 retrieval 的角色改寫了。檢索不再只是把外部知識搬進來，而是參與塑造模型的推理習慣。這讓 RAG 從「資料供應」更往「解題教練」靠近。

對台灣開發者來說，這個方向很值得留意。因為很多產品場景其實不是缺資料，而是缺能引導模型做對決策的示範。只要任務牽涉到步驟、策略、或可驗證輸出，檢索目標就可能不該只設成相似度最大，而該設成「最能幫模型學會這一步」。

總結來看，這篇論文證明了一件事：如果把檢索訓練成找有用的類比，再把這些類比拿去做強化式微調，模型在困難推理任務上可以拿到實質提升。它不是把 RAG 推翻，而是把 RAG 往更會教模型思考的方向推了一步。

What changes：檢索目標從相似度改成推理收益。
What improves：數學推理表現，包含 AIME 2025 average@32 的分數提升。
What remains unclear：完整 benchmark、成本、延遲、以及跨任務泛化。

// 相關文章

RA-RFT 讓模型學會類比推理

這篇在修什麼痛點

訂閱 AI 趨勢週報

RA-RFT 怎麼運作

論文實際證明了什麼

對開發者代表什麼

這篇論文真正的訊號

果蠅啟發回歸：用模式匹配省算力

世界模型不只看場景，也要看心智

Q 函數不一定要先預訓練

OpenAI 事件逼你收緊 eval

CARE 用信心分派 LoRA 專家

πR² 讓流式策略即時反應