[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-retrieval-augmented-reinforcement-fine-tuning-analogy-zh":3,"article-related-retrieval-augmented-reinforcement-fine-tuning-analogy-zh":30,"series-research-6911e614-4894-4f1f-a0ad-816e323793ef":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"6911e614-4894-4f1f-a0ad-816e323793ef","retrieval-augmented-reinforcement-fine-tuning-analogy-zh","RA-RFT 讓模型學會類比推理","\u003Cp data-speakable=\"summary\">RA-RFT把檢索目標從相似度改成有助推理的類比，再用這些示範微調模型，提升數學推理表現。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：AIME 2025 average@32 在 Qwen3-1.7B 上提升 7.1 分\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：以推理收益訓練檢索器\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文要解的，不是「模型會不會找資料」，而是「模型找來的資料，能不能真的幫它想對」。在一般 retrieval-augmented generation 裡，檢索器多半靠語意相似度挑上下文；但對數學、規劃、或多步推理來說，表面很像的例子，不一定是最有用的例子。RA-RFT 就是針對這個落差下手。\u003C\u002Fp>\u003Cp>作者的主張很直接：檢索不該只服務於知識補充，也可以服務於推理學習。換句話說，系統不只是把外部內容塞給模型，而是要挑出能示範「怎麼解」的類比案例。這個角度對\u003Ca href=\"\u002Fnews\u002Fstablecoin-development-companies-2026-regulated-launches-zh\">開發\u003C\u002Fa>者很實際，因為很多 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 或助理卡住，不是資訊不夠，而是示範方向帶歪了。\u003C\u002Fp>\u003Ch2>這篇在修什麼痛點\u003C\u002Fh2>\u003Cp>傳統 \u003Ca href=\"\u002Ftag\u002Frag\">RAG\u003C\u002Fa> 的問題，在於它很容易把「看起來像」誤認成「真的有幫助」。一題和另一題文字很接近，不代表解法相通；反過來，一題外觀差很多，也可能共享同一個推理骨架。對需要多步思考的任務來說，這種錯配會讓模型被錯誤線索錨定住。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245983485-miul.png\" alt=\"RA-RFT 讓模型學會類比推理\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>RA-RFT 的出發點，就是把檢索的評估標準從相似度，改成對最終推理是否有幫助。這不是小修小補，而是整個檢索層的用途改寫。它不再只是找背景資料，而是找能當作「解題示範」的上下文。\u003C\u002Fp>\u003Cp>這種做法的價值，在於它把 retrieval 變成訓練訊號的一部分。也就是說，檢索結果不只餵知識，還會影響模型怎麼學會推理。對實作團隊來說，這等於把檢索從前處理模組，升級成推理能力的塑形器。\u003C\u002Fp>\u003Ch2>RA-RFT 怎麼運作\u003C\u002Fh2>\u003Cp>RA-RFT 全名是 Retrieval-Augmented Reinforcement Fine-Tuning。從名稱就能看出，它不是單純的檢索增強生成，而是把檢索、類比示範、和強化式微調接在一起。\u003C\u002Fp>\u003Cp>第一步是 gold-relevance distillation。摘要沒有把所有細節展開，但它的作用很清楚：用更高品質的相關性訊號，去訓練檢索器學會排序「對推理有幫助」的上下文，而不是只挑語意最接近的片段。這裡的重點是 expected reasoning benefit，也就是預期會不會幫助模型想對。\u003C\u002Fp>\u003Cp>第二步是把檢索到的 analogous demonstrations 拿去做 reinforcement fine-tuning。也就是說，\u003Ca href=\"\u002Fnews\u002Fanthropic-policy-50b-computing-infrastructure-en-zh\">政策\u003C\u002Fa>模型在訓練時不是只看答案對不對，還會在可驗證的結果獎勵下學習。這讓訓練訊號更貼近最後輸出，而不是只依賴檢索內容看起來像不像。\u003C\u002Fp>\u003Cp>這個設計的核心，是檢索器和政策模型各自學不同的事。檢索器學會找「有教學價值」的例子；模型學會利用這些例子來解題。作者也提到，他們分析了檢索內容的多樣性，結果顯示推理導向的檢索能找出互補的解法策略，而不是只挖出同一種模式的重複樣本。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要明確說，RA-RFT 在多個困難的數學推理 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 上，整體表現都優於標準的 reinforcement fine-tuning 方法。不過，摘要沒有公開完整 benchmark 細節，所以如果你想看完整表格、測試集範圍、或各項任務的逐項數字，摘要本身沒有給足。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245983575-cfa5.png\" alt=\"RA-RFT 讓模型學會類比推理\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>目前最清楚的數字，是 AIME 2025 average@32。RA-RFT 在 Qwen3-1.7B 上比 GRPO 高 7.1 分，在 Qwen3-4B 上高 2.8 分。這代表它不是只在某個小設定裡有感，而是在作者挑出的數學推理場景中，確實把結果往上推了一截。\u003C\u002Fp>\u003Cp>更重要的是，作者把這個提升定位成「和 reward design、training curricula 可互補」，而不是要取代其他方法。這句話很關鍵。它暗示 RA-RFT 不是單一銀彈，而是另一個可疊加的改善軸：你可以先設計獎勵、再安排課程、同時讓檢索器學會找更會教人的例子。\u003C\u002Fp>\u003Cp>但摘要也留下不少空白。它沒有交代檢索延遲、訓練成本、是否需要額外的 gold relevance 訊號才能複製、以及這套方法能不能延伸到數學以外的任務。這些都會影響實務落地，尤其是你要把它塞進線上系統或大規模訓練管線時。\u003C\u002Fp>\u003Ch2>對開發者代表什麼\u003C\u002Fh2>\u003Cp>如果你在做 agent、家教型助理、coding assistant，或任何依賴 worked examples 的系統，這篇論文提供了一個很實用的方向：檢索不要只看相似度，還要看策略價值。當任務本質是多步推理時，這種目標比單純找近鄰更合理。\u003C\u002Fp>\u003Cp>這也會改變你看待訓練資料的方式。最有用的示範，不一定是 embedding 空間裡最近的那筆。它可能是另一個題目，但能教會模型同一個推理動作。對工程團隊來說，這表示檢索品質不能只看 retrieval metric，還要看它對下游解題是否真的有幫助。\u003C\u002Fp>\u003Cp>不過，限制也很明顯。這篇摘要裡展示的主要是數學推理 benchmark。這對方法驗證很夠力，但不等於\u003Ca href=\"\u002Fnews\u002Flatam-stablecoin-engineering-hub-hire-zh\">已經\u003C\u002Fa>證明它能廣泛套用到搜尋、客服、或程式輔助等所有 RAG 場景。不同任務可能需要不同的檢索訊號、不同的獎勵設計，甚至不同的「類比」定義。\u003C\u002Fp>\u003Cp>另外，摘要沒有公開完整 benchmark 數字，也沒有說清楚所有實驗設定。對想重現的人來說，這代表你還看不到完整的成本效益比。也就是說，方向是清楚的，但落地前仍要補上工程面的驗證。\u003C\u002Fp>\u003Ch2>這篇論文真正的訊號\u003C\u002Fh2>\u003Cp>RA-RFT 最重要的訊號，不是它把某個分數推高，而是它把 retrieval 的角色改寫了。檢索不再只是把外部知識搬進來，而是參與塑造模型的推理習慣。這讓 RAG 從「資料供應」更往「解題教練」靠近。\u003C\u002Fp>\u003Cp>對\u003Ca href=\"\u002Ftag\u002F台灣開發者\">台灣開發者\u003C\u002Fa>來說，這個方向很值得留意。因為很多產品場景其實不是缺資料，而是缺能引導模型做對決策的示範。只要任務牽涉到步驟、策略、或可驗證輸出，檢索目標就可能不該只設成相似度最大，而該設成「最能幫模型學會這一步」。\u003C\u002Fp>\u003Cp>總結來看，這篇論文證明了一件事：如果把檢索訓練成找有用的類比，再把這些類比拿去做強化式微調，模型在困難推理任務上可以拿到實質提升。它不是把 RAG 推翻，而是把 RAG 往更會教模型思考的方向推了一步。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>What changes\u003C\u002Fstrong>：檢索目標從相似度改成推理收益。\u003C\u002Fli>\u003Cli>\u003Cstrong>What improves\u003C\u002Fstrong>：數學推理表現，包含 AIME 2025 average@32 的分數提升。\u003C\u002Fli>\u003Cli>\u003Cstrong>What remains unclear\u003C\u002Fstrong>：完整 benchmark、成本、延遲、以及跨任務泛化。\u003C\u002Fli>\u003C\u002Ful>","RA-RFT 把檢索目標從相似度改成「有助推理的類比」，再用這些示範做強化式微調，讓模型在數學推理上更會借題發揮。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.13680",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245983485-miul.png","research","zh","1f6d423b-3e7d-41e3-a97e-4e46844f4551",[17,18,19,20,21],"RAG","reinforcement fine-tuning","retrieval","analogy","math reasoning",[23,24,25],"檢索可以不只找相似內容，也能找能教會模型推理的類比示範。","RA-RFT 在摘要中最明確的成果，是 Qwen3-1.7B 在 AIME 2025 average@32 提升 7.1 分。","摘要沒有公開完整 benchmark、成本和延遲細節，跨任務泛化也還不能下定論。",2,"2026-06-12T06:32:27.726554+00:00","2026-06-12T06:32:27.706+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":40,"relatedPosts":44},[32,34,36,37,38],{"name":17,"slug":33},"rag",{"name":21,"slug":35},"math-reasoning",{"name":19,"slug":19},{"name":20,"slug":20},{"name":18,"slug":39},"reinforcement-fine-tuning",{"id":15,"slug":41,"title":42,"language":43},"retrieval-augmented-reinforcement-fine-tuning-analogy-en","Retrieval that teaches models to reason by analogy","en",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"e08b8946-29a0-486a-b2c1-b23faf16b441","taxonomy-rwa-tokenization-blockchain-infrastructure-zh","RWA 代幣化的 23 維分類法","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781259482592-9fiv.png","2026-06-12T10:17:30.417901+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"34681ebb-0d9d-4988-822a-45b6e5ad46d6","2026-llm-paper-lists-better-than-feeds-zh","2026 年的 LLM 論文清單，比資訊流更適合做研究","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781258570660-0l2n.png","2026-06-12T10:02:16.438561+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"8a06c20a-c2d6-4cb0-a35c-69eab7f7f89a","anthropic-ai-building-ai-recursive-self-improvement-zh","Anthropic 自己的數據已經證明：AI 正在幫 AI 進步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781257685705-1m6f.png","2026-06-12T09:47:24.801004+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"29143a1b-a610-4674-96a5-e3b1695350bd","project-glasswing-mythos-bug-chaining-zh","Project Glasswing 揭露 Mythos 會串漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781254982476-voas.png","2026-06-12T09:02:32.008908+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"ba442703-edfa-4353-b256-db502d94a99e","mana-articulated-tool-manipulation-animation-zh","Mana把工具操作改寫成動畫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781246882933-bvjm.png","2026-06-12T06:47:29.612828+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"0a31ce5e-ef36-4043-bfaf-0bee0dde375a","evoarena-llm-agents-dynamic-environments-zh","EvoArena：測 LLM 代理在變動世界的記憶力","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245091032-qidw.png","2026-06-12T06:17:32.741551+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]