[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-edge-of-stability-generalization-zh":3,"tags-edge-of-stability-generalization-zh":30,"related-lang-edge-of-stability-generalization-zh":31,"related-posts-edge-of-stability-generalization-zh":35,"series-research-1b8be06a-85ea-4cd1-a3c7-ffccdc3eefd5":72},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":18,"translated_content":10,"views":19,"is_premium":20,"created_at":21,"updated_at":21,"cover_image":11,"published_at":22,"rewrite_status":23,"rewrite_error":10,"rewritten_from_id":24,"slug":25,"category":26,"related_article_id":27,"status":28,"google_indexed_at":29,"x_posted_at":10},"1b8be06a-85ea-4cd1-a3c7-ffccdc3eefd5","邊界不穩定為何反而更會泛化","\u003Cp>現代神經網路常常不是在「穩穩收斂」下訓練，而是把學習率推到穩定邊界附近。這時候，loss 曲線可能抖、參數軌跡可能亂，甚至看起來像混沌。但這篇論文想說的是：這種看似不安分的訓練狀態，可能正是模型泛化好的原因之一。\u003C\u002Fp>\u003Cp>論文是 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.19740\">Generalization at the Edge of Stability\u003C\u002Fa>。它不是在講一個新的訓練技巧，而是在補一個大家早就看得到、卻一直說不清楚的理論缺口：為\u003Ca href=\"\u002Fnews\u002Fwhat-devops-really-means-on-aws-zh\">什麼\u003C\u002Fa>某些大學習率、甚至帶點不穩定的訓練流程，最後反而能得到更好的測試表現。\u003C\u002Fp>\u003Cp>這篇摘要沒有公開完整 bench\u003Ca href=\"\u002Fnews\u002Famazon-adds-5b-anthropic-deal-zh\">ma\u003C\u002Fa>rk 細節，所以我們不能從這份 raw 資料直接推論它在某個資料集上贏了多少、誤差多少，或具體提升幅度有多大。它能確定的是：作者提出了一套新的理論語言，去描述 edge-of-stability 這種訓練現象，並且把它和 generalization 綁在一起。\u003C\u002Fp>\u003Ch2>這篇論文想解什麼痛點\u003C\u002Fh2>\u003Cp>深度學習裡有個很常見的矛盾：訓練過程看起來不穩，結果卻可能更會泛化。尤其在大學習率下，優化不一定會乖乖掉進單一收斂點，反而可能出現振盪、混沌，甚至長時間都不會「安靜下來」。這種現象就是論文裡說的 edge-of-stability regime。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776837839747-ism8.png\" alt=\"邊界不穩定為何反而更會泛化\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題在於，過去很多解釋泛化的方式，會拿 Hessian 的 trace 或 spectral norm 這類簡化指標來看曲率。這些指標不是沒用，而是太粗。它們把很多方向上的資訊壓成少數幾個數字，結果很容易漏掉真正重要的幾何結構。\u003C\u002Fp>\u003Cp>對工程師來說，這件事很實際。因為平常調模型時，大家常常在學習率、batch size、optimizer、scheduler 之間做折衷。你會看到某些設定訓練過程很「吵」，但最後 test 表現卻不差。這篇論文的核心就是：這種現象可能不是偶然，而是有一套可描述的幾何與動力系統結構。\u003C\u002Fp>\u003Ch2>方法到底怎麼運作\u003C\u002Fh2>\u003Cp>作者先把 stochastic optimizer 看成隨機動力系統。這個視角很重要，因為它不再假設訓練一定會收斂到某個單點參數，而是允許系統最後落在一個 attractor set。更進一步，在他們研究的區域裡，這個 attractor 甚至可能帶有 fractal-like 的結構。\u003C\u002Fp>\u003Cp>接著，論文借用 Lyapunov dimension \u003Ca href=\"\u002Fnews\u002Fai-papers-of-the-week-ml-paper-roundup-zh\">the\u003C\u002Fa>ory 的直覺，提出一個新的量，叫做 sharpness dimension。名字已經透露重點：它不是只看「尖不尖」，而是看 sharpness 跟訓練動態怎麼互相作用。也就是說，模型是不是泛化得好，不只取決於某一個曲率數值，而是取決於整個曲率結構。\u003C\u002Fp>\u003Cp>這裡最關鍵的地方，是作者強調要看完整的 Hessian spectrum，以及 partial determinants 的結構。白話一點說，trace 或 spectral norm 只能告訴你整體或最極端的曲率，但無法告訴你每個方向的曲率怎麼分布。可是在 edge-of-stability 這種情況下，方向性資訊很可能才是主角。\u003C\u002Fp>\u003Cp>所以這篇論文的思路不是「訓練亂掉了，所以出問題」，而是「訓練的長期行為本來就可能是複雜吸引子，而這個吸引子的幾何大小，會反映在泛化上」。sharpness dimension 就是作者拿來量這件事的工具。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇論文的主結果，是建立了一個以 sharpness dimension 為基礎的 generalization bound。也就是說，它不是只提出一個直覺，而是把這個直覺寫成可推導的理論上界。摘要明確指出，這個泛化界依賴的是完整 Hessian spectrum，以及 partial determinants 的結構，而不是只看單一統計量。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776837836808-kofe.png\" alt=\"邊界不穩定為何反而更會泛化\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這點很重要。因為如果你只看 trace 或 spectral norm，很容易把不同模型、不同訓練動態混為一談。作者的主張則更細：在 chaotic regime 裡，真正影響泛化的是更完整的曲率資訊。換句話說，模型不是只在「平不平」這個單一維度上被描述，而是要看整個光譜形狀。\u003C\u002Fp>\u003Cp>摘要也提到，作者用各種 MLP 和 transformer 做實驗，驗證了理論，並且對 grokking 這個現象提供了新的理解。grokking 指的是模型在長時間訓練後，會突然從泛化很差跳到泛化很好的狀態。這篇論文把它和 edge-of-stability 的理論連起來，暗示這種突然轉變可能和訓練動力的幾何有關。\u003C\u002Fp>\u003Cp>不過，這裡也要講清楚限制：摘要沒有提供完整 benchmark 數字、資料集名稱、訓練設定，或具體提升幅度。所以我們可以說它在 MLP 和 transformer 上做了驗證，但不能從這份資料直接判斷效果有多大、跨多少任務、或是否能外推到更大規模模型。\u003C\u002Fp>\u003Ch2>這對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你平常在調神經網路，這篇論文最直接的啟發是：不穩定不一定是壞事。當學習率拉高、訓練看起來有點亂時，這不代表模型一定訓練失敗。相反地，在某些條件下，這種 edge-of-stability 狀態可能就是泛化能力形成的一部分。\u003C\u002Fp>\u003Cp>這也會改變你看訓練過程的方式。很多人習慣只盯 loss、gradient norm，或某個簡化過的 sharpness 指標。但如果這篇論文的思路是對的，那些訊號都可能太粗，只看得到表面，沒看到真正決定 generalization 的幾何結構。\u003C\u002Fp>\u003Cp>對做 optimizer、訓練分析、或模型 scaling 的人來說，這代表未來可能需要更細的 spectral 工具。尤其當模型訓練在穩定邊界附近時，單一最大特徵值或平均曲率，可能不足以描述整個訓練行為。你得看的是更完整的 Hessian 光譜，而不是只看一個摘要數字。\u003C\u002Fp>\u003Cp>另外，這篇論文也提醒一件事：我們在實務上常把「穩定」當成好事，但在深度學習裡，穩定和泛化不一定是同義詞。某些看起來很鬆動、甚至很混沌的訓練路徑，最後反而可能走到更好的解。\u003C\u002Fp>\u003Ch2>還有哪些限制與未解問題\u003C\u002Fh2>\u003Cp>第一個限制很直接：摘要沒有公開完整實驗細節。也就是說，我們不知道它怎麼量 sharpness dimension、計算成本多高、能不能直接套到超大模型，或在實務訓練流程裡是不是容易落地。\u003C\u002Fp>\u003Cp>第二個限制是，理論和工程之間還有一段距離。就算 generalization bound 成立，也不代表工程師立刻知道該怎麼調 learning rate，何時會進入 grokking，或怎麼在訓練中即時監控這個狀態。這篇論文比較像是把方向指出來，而不是把工具箱整包交給你。\u003C\u002Fp>\u003Cp>第三個問題是可操作性。完整 Hessian spectrum 和 partial determinants 聽起來很強，但實際上要不要算、怎麼算、成本是否可接受，這些都還需要更多資訊。摘要沒有回答這些問題，所以我們只能說它提出了一個更精細的理論框架，而不是一個現成的 production recipe。\u003C\u002Fp>\u003Cp>即便如此，這篇論文還是有價值。因為它把一個大家常看到、卻很難解釋的現象，從「訓練亂掉」改寫成「動力系統在高學習率下進入另一種幾何狀態」。這個視角一旦成立，很多原本看起來像例外的訓練行為，就可能變成理解 generalization 的關鍵線索。\u003C\u002Fp>\u003Cul>\u003Cli>作者把 stochastic optimizer 建模成 random dynamical system。\u003C\u002Fli>\u003Cli>提出新的 sharpness dimension，靈感來自 Lyapunov dimension theory。\u003C\u002Fli>\u003Cli>建立依賴 sharpness dimension 的 generalization bound。\u003C\u002Fli>\u003Cli>強調完整 Hessian spectrum 和 partial determinants，比 trace 或 spectral norm 更關鍵。\u003C\u002Fli>\u003Cli>摘要提到在 MLP 與 transformer 上驗證，並連到 grokking 現象。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>總結來說，這篇論文不是在鼓勵大家盲目把 learning rate 開大，而是在提醒：訓練不穩定和泛化能力之間，可能存在結構性的關係。對開發者來說，這代表 edge of stability 不只是要避開的風險區，也可能是理解模型為何會學得更好的入口。\u003C\u002Fp>","這篇論文把高學習率下的混沌訓練，連到泛化能力，並用 Hessian 光譜定義新的 sharpness dimension。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.19740",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776837839747-ism8.png",[13,14,15,16,17],"edge of stability","generalization","Hessian spectrum","sharpness dimension","grokking","zh",0,false,"2026-04-22T06:03:36.116147+00:00","2026-04-22T06:03:36.019+00:00","done","e2869acd-9242-4864-ae79-7343cb4d2832","edge-of-stability-generalization-zh","research","7fb8a4e6-2e67-41e8-8631-a9b482935aea","published","2026-04-22T09:00:15.048+00:00",[],{"id":27,"slug":32,"title":33,"language":34},"edge-of-stability-generalization-en","Why “edge of stability” can help generalization","en",[36,42,48,54,60,66],{"id":37,"slug":38,"title":39,"cover_image":40,"image_url":40,"created_at":41,"category":26},"b41b3999-fa8c-4e87-8914-4ed027fe8bfe","llms-for-asr-evaluation-beyond-wer-zh","LLM 評測 ASR 不只看 WER","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777010993292-cy1y.png","2026-04-24T06:09:37.70822+00:00",{"id":43,"slug":44,"title":45,"cover_image":46,"image_url":46,"created_at":47,"category":26},"7459b8af-e677-4be6-a601-67ed8909a425","task-boundaries-can-skew-continual-learning-results-zh","任務邊界會扭曲持續學習","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777010816716-77s9.png","2026-04-24T06:06:30.918134+00:00",{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":26},"12798df5-b029-476f-95e0-25463877e589","teaching-video-models-understand-time-zh","讓影片模型學會讀時間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777010640807-d7xp.png","2026-04-24T06:03:36.812308+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":26},"7ec4baa4-f0af-441e-a97d-56f81a2ca854","avise-ai-security-evaluation-framework-zh","AVISE 模組化測 AI 安全漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776924771424-kztu.png","2026-04-23T06:12:30.770582+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":26},"b418bc8d-86c6-44d6-93f0-e26473db9649","parallel-sft-code-rl-cross-language-transfer-zh","Parallel-SFT 讓 code RL 更會跨語言","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776924588963-c6d5.png","2026-04-23T06:09:32.299476+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":26},"0274c95d-bf59-405b-a4fd-425f4bb39368","speechparaling-bench-paralinguistic-speech-generation-zh","SpeechParaling-Bench盯住語氣細節","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776924234553-lme6.png","2026-04-23T06:03:38.74229+00:00",[73,78,83,88,93,98,103,108,113,118],{"id":74,"slug":75,"title":76,"created_at":77},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":79,"slug":80,"title":81,"created_at":82},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":84,"slug":85,"title":86,"created_at":87},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]