[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-fixing-llm-forgetting-es-fine-tuning-zh":3,"article-related-fixing-llm-forgetting-es-fine-tuning-zh":30,"series-research-923bb0c4-95f3-49a0-8e01-5cdd6bcd2e32":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"923bb0c4-95f3-49a0-8e01-5cdd6bcd2e32","fixing-llm-forgetting-es-fine-tuning-zh","ES 微調忘記問題有解了","\u003Cp data-speakable=\"summary\">這篇論文指出，\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 用 evolution strategies \u003Ca href=\"\u002Fnews\u002Fpeft-vs-full-fine-tuning-zh\">微調\u003C\u002Fa>時的「忘記」多半是可回復的漂移，靠 anchored weight decay 就能壓住。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：Anchored Weight Decay\u003C\u002Fli>\u003C\u002Ful>\u003Cp>LLM 微調常被講成一件很直覺的事：把模型往新任務推一推，原本能力應該還在。但這篇論文直接把這個印象拆開來看。作者認為，當 evolution strategies（ES）用在 LLM fine-tuning 時，大家看到的「忘記」不一定是永久性損失，很多時候只是訓練過程中的 performance drift，而且後面還可能再回來。\u003C\u002Fp>\u003Cp>這個差別很重要。因為如果只是暫時性漂移，那你在看 checkpoint、判斷 regressions、甚至決定要不要停訓練時，判讀方式都要改。不是每一次舊任務分數下滑，都代表方法真的壞掉了。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>這篇論文碰的是 \u003Ca href=\"\u002Ftag\u002Fcontinual-learning\">continual learning\u003C\u002Fa> 裡的老問題：模型學新任務之後，舊任務表現掉下來。近期研究曾把 ES 描述成特別容易出現這種遺忘的微調方式，這也讓它在多階段適應或持續學習場景裡看起來不夠可靠。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780604276240-arx4.png\" alt=\"ES 微調忘記問題有解了\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但作者想釐清一件事：這到底是 ES 本身的硬傷，還是訓練動態造成的假象。如果是前者，那你可能得換方法；如果是後者，那就還有調參和正則化的空間。\u003C\u002Fp>\u003Cp>論文的核心問題意識很簡單：舊任務掉分，到底是不可逆的 forgetting，還是訓練途中會晃來晃去的 drift。這個判斷，會直接影響你\u003Ca href=\"\u002Fnews\u002Fhow-to-hire-mlops-engineer-2026-zh\">怎麼\u003C\u002Fa>設計微調流程。\u003C\u002Fp>\u003Ch2>方法不是換模型，而是把更新拉回來\u003C\u002Fh2>\u003Cp>這篇論文的第一個重點，是把「忘記」重新定義成 performance drift，而不是一開始就假設它是永久性遺失。作者在分析裡看到，舊任務表現常常會在 ES 訓練中回升，這表示模型未必真的把能力丟掉，只是走到了一段暫時不穩的參數路徑。\u003C\u002Fp>\u003Cp>第二個重點，是作者把這種漂移和 weight space 裡的 random walk 行為連在一起。意思是，當某些方向的約束不夠強，ES 的更新就可能在那些方向上亂晃，晃到足以傷到舊任務表現。\u003C\u002Fp>\u003Cp>因此他們提出 Anchored Weight Decay（AWD）。做法很直白：加上參數空間正則化，讓訓練不要離初始模型太遠。不是放任權重自由漂移，而是持續把更新往起點拉回來。\u003C\u002Fp>\u003Cp>這個設計的好處，是它不需要改整套 ES 架構。論文把 AWD 當成訓練穩定器，而不是新模型，也不是新 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>。對實作的人來說，這代表它比較像一個可以直接插進流程裡的控制手段。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>先講限制：摘要沒有公開完整 benchmark 數字，所以這裡不能拿出具體分數來比。能確認的是，它給出的結論是質性的，但方向很清楚。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780604278070-bewo.png\" alt=\"ES 微調忘記問題有解了\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>作者主張，AWD 可以穩住舊任務表現，同時保住目標任務表現。這點很關鍵，因為很多穩定化方法的代價，是把新任務也一起壓平；但摘要裡沒有把這個 trade-off 展開成完整數據表，所以目前只能就其聲稱來理解。\u003C\u002Fp>\u003Cp>另一個更實際的說法是：AWD 的效果，能接近把 ES population size 開得很大，但計算成本低很多。對工程團隊來說，這是最有感的一句。因為如果你原本打算靠「加大族群」硬撐穩定性，AWD 可能提供一條更省算力的路。\u003C\u002Fp>\u003Cp>論文也把這個結果往更大的方向推了一步：ES 在 LLM continual learning 裡，可能比外界想像得更有潛力。前提是你要處理好漂移，而不是把它當成無法避免的副作用。\u003C\u002Fp>\u003Ch2>對開發者代表什麼\u003C\u002Fh2>\u003Cp>如果你在做分階段微調，這篇論文最直接的提醒是：不要把每一次舊任務掉分都當成永久遺忘。很多時候，它可能只是訓練過程中的中途擺盪。這會影響你怎麼看 checkpoint，也會影響你\u003Ca href=\"\u002Fnews\u002Fdenver-hailstorm-weather-infrastructure-risk-zh\">什麼\u003C\u002Fa>時候該停。\u003C\u002Fp>\u003Cp>第二個啟發，是可以考慮把權重往初始模型錨定。AWD 的概念不複雜，本質上就是參數空間正則化的一種形式。即使沒有完整實作細節，這個方向對熟悉 fine-tuning 流程的團隊來說也不陌生。\u003C\u002Fp>\u003Cp>第三個重點是算力。若摘要的說法成立，那 AWD 可能讓你少走一條粗暴路線：不必單靠更大的 ES population size 來換穩定。對資源有限的團隊，這種差異很現實。\u003C\u002Fp>\u003Cp>不過，這篇摘要沒有交代任務名稱、訓練設定，也沒有列出完整 benchmark 細節。所以如果你要把它拿進 production 規劃，還是得等正文看更多實驗條件。\u003C\u002Fp>\u003Ch2>這篇的限制也很明確\u003C\u002Fh2>\u003Cp>第一個限制，就是資訊不夠完整。摘要沒有 benchmark 數字，沒有任務清單，也沒有模型規模。這代表我們現在只能確定研究方向和方法輪廓，還不能精準評估它在不同場景下的效果。\u003C\u002Fp>\u003Cp>第二個限制，是 AWD 的泛化範圍還沒被摘要說清楚。它是否適用於不同模型大小、不同任務型態、不同微調流程，摘要都沒有交代。這些都會影響它是不是一個可直接搬用的工程解法。\u003C\u002Fp>\u003Cp>第三個限制，是作者把漂移歸因到 weakly constrained directions in weight space，這個解釋很有啟發性，但摘要沒有提供更多驗證邊界。換句話說，這個診斷是合理的，但還看不出它在其他 fine-tuning regime 裡有多穩。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>這篇論文最重要的地方，不只是提出一個新正則化，而是把 ES 微調中的「忘記」重新說成可管理的漂移。這個改寫，會直接改變你怎麼看舊任務掉分。\u003C\u002Fp>\u003Cp>對開發者來說，訊息很實用：ES 可能比先前批評得更適合做持續適應，只要你把模型錨住、避免不必要的參數漂移，很多看起來像遺忘的問題，未必真的不可逆。\u003C\u002Fp>","這篇論文指出，LLM 用 evolution strategies 微調時的「忘記」多半是可回復的漂移，靠 anchored weight decay 就能壓住。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.30148",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780604276240-arx4.png","research","zh","9383f93b-9272-4bd3-81b9-1b3e84f4663e",[17,18,19,20,21],"evolution strategies","LLM fine-tuning","catastrophic forgetting","anchored weight decay","continual learning",[23,24,25],"ES 微調的舊任務掉分，可能是可回復的漂移，不一定是真遺忘。","Anchored Weight Decay 透過把權重拉回初始模型，來穩住訓練。","摘要沒有公開完整 benchmark 數字，實際泛化範圍仍需看正文。",0,"2026-06-04T20:17:25.720929+00:00","2026-06-04T20:17:25.709+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":21,"slug":33},"continual-learning",{"name":19,"slug":35},"catastrophic-forgetting",{"name":20,"slug":37},"anchored-weight-decay",{"name":17,"slug":39},"evolution-strategies",{"name":18,"slug":41},"llm-fine-tuning",{"id":15,"slug":43,"title":44,"language":45},"fixing-llm-forgetting-es-fine-tuning-en","Fixing LLM forgetting in ES fine-tuning","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"42510df4-4692-44c6-a45a-c82a4a86b646","tls-turns-insecure-links-into-encrypted-sessions-zh","TLS 把明文連線變成加密會話","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780596207456-9or4.png","2026-06-04T18:02:50.988357+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"4fa896da-9616-425a-92bc-c1d7d5861ff9","streamma-multi-agent-reasoning-latency-zh","StreamMA 讓多代理推理邊想邊傳","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780554786134-1w1d.png","2026-06-04T06:32:32.769423+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"f31f51ba-4445-4e43-9bda-31e70f53d42b","audio-language-models-arbitration-reversals-zh","音訊模型不是聽不懂","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780553877373-ux95.png","2026-06-04T06:17:27.890159+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"447ac6c9-477b-45c8-bec2-ff94dc4cf5d4","stride-training-data-attribution-sparse-recovery-zh","STRIDE 讓訓練資料歸因快 13 倍","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780552979370-897a.png","2026-06-04T06:02:29.149166+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]