[RSCH] 6 分鐘閱讀OraCore 編輯部

單層 Transformer 也能扛住 RL 增益

這篇研究指出,強化學習後訓練的主要增益,可能集中在 Transformer 少數層,甚至只訓練一層就能拿回大部分效果。

分享 LinkedIn
單層 Transformer 也能扛住 RL 增益

這篇研究指出,強化學習後訓練的主要增益,可能集中在 Transformer 少數層,甚至只訓練一層就能拿回大部分效果。

  • 研究機構:arXiv 摘要未明確標註
  • 核心數據:摘要無公開 benchmark 數字
  • 突破點:單層隔離 RL 更新

對做 LLM 後訓練的人來說,這篇論文丟出一個很直接的訊號:RL 帶來的好處,不一定要靠整個模型一起更新才能拿到。作者不是在問「模型有沒有變強」,而是在問「變強的那一刀,是落在哪一層」。

論文標題是 Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Training。它的重點很實務。若 RL 的效果真的集中在少數層,訓練策略、算力分配、除錯方式,甚至你怎麼看待 post-training 的成本結構,都會跟著變。

這篇在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

現在很多大型語言模型的 RL post-training,預設是把所有參數一起更新。這種做法背後有個默認前提:Transformer 各層對 RL 增益的貢獻,大致是平均的。但作者指出,這件事其實沒有被好好釐清。

單層 Transformer 也能扛住 RL 增益

問題在於,RL 後訓練本來就貴,而且常常不透明。你花了很多算力,最後模型變好了,但到底是哪一段結構在幫忙,往往說不清楚。若只有少數層真的在承擔關鍵增益,那全參數訓練可能做了不少多餘工作。反過來說,如果關鍵訊號有固定位置,也能讓研究者更容易拆解模型行為。

所以這篇不是單純在追求更高分,而是在追問一個更底層的問題:RL 的改善,是平均灑在整個 Transformer 上,還是集中壓在某幾層?

方法怎麼做,白話版

作者提出一個叫做 layer contribution 的概念。白話講,就是量化「只訓練某一層時,能拿回多少 full RL 訓練的改善」。它不是看整體模型有沒有進步,而是把每一層拆開來看,找出誰在扛主要功勞。

做法本身很直白:把各層分開訓練,觀察單層訓練能回收多少 RL 增益,再把不同層的貢獻排出來。接著,作者會檢查這些排名在不同資料集、不同任務、不同模型家族、不同 RL 演算法下,會不會維持一致。

這篇研究涵蓋七個模型,來自兩個模型家族:Qwen3 和 Qwen2.5。RL 演算法則包含 GRPO、GiGPO、Dr. GRPO。任務範圍也不只一種,還包含數學推理、程式生成,以及 agentic decision-making。也就是說,它不是只盯著單一 benchmark 的小實驗,而是試著看這個現象能不能跨情境重現。

這裡的關鍵,不是把整個 Transformer 當黑盒子,而是把每一層都當成可測的單位。這樣一來,研究者就能回答更精準的問題:RL 的訊號到底集中在哪裡?哪一段層堆最敏感?

論文實際證明了什麼

主結論很清楚:訓練單一 Transformer 層,就能回收 full-parameter RL 訓練的大部分增益,某些情況下甚至可以超過完整參數更新。摘要沒有公開完整 benchmark 數字,所以這裡不能硬寫具體分數;但就結論本身來看,訊號已經很強。

單層 Transformer 也能扛住 RL 增益

更重要的是,這個增益不是亂飄的。作者觀察到一個穩定的結構模式:高貢獻層通常落在 Transformer 的中段,而靠近輸入端和輸出端的層,貢獻相對小。換句話說,RL 的適應效果似乎不是平均分配,而是往中間層聚集。

作者也提到,這種層排名在不同資料集、不同任務、不同模型家族、不同 RL 演算法之間,都有很強的相關性。這點很重要,因為它暗示這不是某個單一訓練配方的偶然結果,而是更像一種跨設定都能看到的結構性現象。

如果只看摘要,這篇論文最有價值的地方不是「又一個更高分」,而是它把 RL 後訓練的增益分布,從模糊的整體改善,拆成了可觀察、可比較、可排序的層級訊號。

對開發者有什麼影響

如果這個結果在更多設定下都成立,對做 LLM 後訓練的人會很有感。第一個直接影響就是算力。若只需要更新少數層,就可能降低訓練成本,縮短實驗週期,也讓你更快試不同資料、不同 reward 設計、不同 RL 演算法。

第二個影響是除錯。現在很多 RL post-training 的問題,很難一眼看出是資料、目標函數,還是模型內部某些層的反應出了狀況。這篇研究提供一個新的診斷角度:你可以直接看哪一層在貢獻增益,哪一層幾乎沒動。這對比較演算法、排查訓練不穩定,會很有幫助。

第三個影響是方法設計。若少數層就能扛住大部分 RL 增益,那 selective fine-tuning、parameter-efficient training、layer-specific scheduling 這類做法,就更值得認真評估。論文沒有宣稱這些方法已經被完全解決,但它至少提供了一個明確訊號:在某些 RL 場景裡,預設把全模型都更新,可能不是最省的做法。

對台灣團隊來說,這種結果特別實際。因為很多團隊在做模型微調時,資源都有限。若後訓練增益真的集中在少數層,那就不只是學術上的新發現,而是能直接影響訓練 pipeline 的工程判斷。

這篇研究的限制在哪

先講最明確的一點:摘要沒有公開完整 benchmark 表格,也沒有提供精確的 recovery 百分比、算力節省幅度或逐項分數。所以雖然結論很吸引人,但從目前可見的 raw 資料,還不能把效果量化到很細。

再來是範圍問題。這篇研究雖然涵蓋七個模型、兩個 Qwen 家族、三種 RL 演算法,以及多種任務,但它仍然只是 LLM 生態中的一個切面。論文證明的是:在它測到的這些設定裡,層貢獻有穩定模式;它沒有宣稱所有 Transformer、所有訓練 recipe、所有下游場景都會一模一樣。

所以比較合理的讀法,不是把它當成「只訓練一層就一定夠」的通則,而是把它當成一個強烈提示:RL 增益可能比大家想像得更局部。對研究者來說,這是值得延伸的假說;對工程團隊來說,這是值得在自家 stack 裡驗證的方向。

總結

這篇論文的核心訊息很簡單:Transformer 的 RL 增益,可能不是均勻分散,而是集中在少數層,尤其常見於中段層。也就是說,full-parameter RL training 也許不是拿到好效果的唯一方式。

對做模型後訓練的人來說,這是一個很實用的提醒。你不一定要先假設「全模型一起動」才合理。下一次在設計 RL pipeline 時,先問一句「哪幾層真的在出力」,可能就會省下不少算力,也讓除錯更有方向。

  • RL 增益在 Transformer 內部分布不平均。
  • 中段層通常扮演更關鍵的角色。
  • 單層訓練可能足以承接大部分 RL 收益。