[RSCH] 5 分鐘閱讀OraCore 編輯部

ES 微調忘記問題有解了

這篇論文指出,LLM 用 evolution strategies 微調時的「忘記」多半是可回復的漂移,靠 anchored weight decay 就能壓住。

分享 LinkedIn
ES 微調忘記問題有解了

這篇論文指出,LLM 用 evolution strategies 微調時的「忘記」多半是可回復的漂移,靠 anchored weight decay 就能壓住。

  • 研究機構:arXiv 摘要未明確標註
  • 核心數據:摘要無公開 benchmark 數字
  • 突破點:Anchored Weight Decay

LLM 微調常被講成一件很直覺的事:把模型往新任務推一推,原本能力應該還在。但這篇論文直接把這個印象拆開來看。作者認為,當 evolution strategies(ES)用在 LLM fine-tuning 時,大家看到的「忘記」不一定是永久性損失,很多時候只是訓練過程中的 performance drift,而且後面還可能再回來。

這個差別很重要。因為如果只是暫時性漂移,那你在看 checkpoint、判斷 regressions、甚至決定要不要停訓練時,判讀方式都要改。不是每一次舊任務分數下滑,都代表方法真的壞掉了。

這篇在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這篇論文碰的是 continual learning 裡的老問題:模型學新任務之後,舊任務表現掉下來。近期研究曾把 ES 描述成特別容易出現這種遺忘的微調方式,這也讓它在多階段適應或持續學習場景裡看起來不夠可靠。

ES 微調忘記問題有解了

但作者想釐清一件事:這到底是 ES 本身的硬傷,還是訓練動態造成的假象。如果是前者,那你可能得換方法;如果是後者,那就還有調參和正則化的空間。

論文的核心問題意識很簡單:舊任務掉分,到底是不可逆的 forgetting,還是訓練途中會晃來晃去的 drift。這個判斷,會直接影響你怎麼設計微調流程。

方法不是換模型,而是把更新拉回來

這篇論文的第一個重點,是把「忘記」重新定義成 performance drift,而不是一開始就假設它是永久性遺失。作者在分析裡看到,舊任務表現常常會在 ES 訓練中回升,這表示模型未必真的把能力丟掉,只是走到了一段暫時不穩的參數路徑。

第二個重點,是作者把這種漂移和 weight space 裡的 random walk 行為連在一起。意思是,當某些方向的約束不夠強,ES 的更新就可能在那些方向上亂晃,晃到足以傷到舊任務表現。

因此他們提出 Anchored Weight Decay(AWD)。做法很直白:加上參數空間正則化,讓訓練不要離初始模型太遠。不是放任權重自由漂移,而是持續把更新往起點拉回來。

這個設計的好處,是它不需要改整套 ES 架構。論文把 AWD 當成訓練穩定器,而不是新模型,也不是新 benchmark。對實作的人來說,這代表它比較像一個可以直接插進流程裡的控制手段。

論文實際證明了什麼

先講限制:摘要沒有公開完整 benchmark 數字,所以這裡不能拿出具體分數來比。能確認的是,它給出的結論是質性的,但方向很清楚。

ES 微調忘記問題有解了

作者主張,AWD 可以穩住舊任務表現,同時保住目標任務表現。這點很關鍵,因為很多穩定化方法的代價,是把新任務也一起壓平;但摘要裡沒有把這個 trade-off 展開成完整數據表,所以目前只能就其聲稱來理解。

另一個更實際的說法是:AWD 的效果,能接近把 ES population size 開得很大,但計算成本低很多。對工程團隊來說,這是最有感的一句。因為如果你原本打算靠「加大族群」硬撐穩定性,AWD 可能提供一條更省算力的路。

論文也把這個結果往更大的方向推了一步:ES 在 LLM continual learning 裡,可能比外界想像得更有潛力。前提是你要處理好漂移,而不是把它當成無法避免的副作用。

對開發者代表什麼

如果你在做分階段微調,這篇論文最直接的提醒是:不要把每一次舊任務掉分都當成永久遺忘。很多時候,它可能只是訓練過程中的中途擺盪。這會影響你怎麼看 checkpoint,也會影響你什麼時候該停。

第二個啟發,是可以考慮把權重往初始模型錨定。AWD 的概念不複雜,本質上就是參數空間正則化的一種形式。即使沒有完整實作細節,這個方向對熟悉 fine-tuning 流程的團隊來說也不陌生。

第三個重點是算力。若摘要的說法成立,那 AWD 可能讓你少走一條粗暴路線:不必單靠更大的 ES population size 來換穩定。對資源有限的團隊,這種差異很現實。

不過,這篇摘要沒有交代任務名稱、訓練設定,也沒有列出完整 benchmark 細節。所以如果你要把它拿進 production 規劃,還是得等正文看更多實驗條件。

這篇的限制也很明確

第一個限制,就是資訊不夠完整。摘要沒有 benchmark 數字,沒有任務清單,也沒有模型規模。這代表我們現在只能確定研究方向和方法輪廓,還不能精準評估它在不同場景下的效果。

第二個限制,是 AWD 的泛化範圍還沒被摘要說清楚。它是否適用於不同模型大小、不同任務型態、不同微調流程,摘要都沒有交代。這些都會影響它是不是一個可直接搬用的工程解法。

第三個限制,是作者把漂移歸因到 weakly constrained directions in weight space,這個解釋很有啟發性,但摘要沒有提供更多驗證邊界。換句話說,這個診斷是合理的,但還看不出它在其他 fine-tuning regime 裡有多穩。

總結

這篇論文最重要的地方,不只是提出一個新正則化,而是把 ES 微調中的「忘記」重新說成可管理的漂移。這個改寫,會直接改變你怎麼看舊任務掉分。

對開發者來說,訊息很實用:ES 可能比先前批評得更適合做持續適應,只要你把模型錨住、避免不必要的參數漂移,很多看起來像遺忘的問題,未必真的不可逆。