[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-edge-of-stability-generalization-zh":3,"article-related-edge-of-stability-generalization-zh":25,"series-research-1b8be06a-85ea-4cd1-a3c7-ffccdc3eefd5":69},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":22,"created_at":23,"published_at":24,"topic_cluster_id":11},"1b8be06a-85ea-4cd1-a3c7-ffccdc3eefd5","edge-of-stability-generalization-zh","邊界不穩定為何反而更會泛化","\u003Cp>現代神經網路常常不是在「穩穩收斂」下訓練，而是把學習率推到穩定邊界附近。這時候，loss 曲線可能抖、參數軌跡可能亂，甚至看起來像混沌。但這篇論文想說的是：這種看似不安分的訓練狀態，可能正是模型泛化好的原因之一。\u003C\u002Fp>\u003Cp>論文是 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.19740\">Generalization at the Edge of Stability\u003C\u002Fa>。它不是在講一個新的訓練技巧，而是在補一個大家早就看得到、卻一直說不清楚的理論缺口：為\u003Ca href=\"\u002Fnews\u002Fwhat-devops-really-means-on-aws-zh\">什麼\u003C\u002Fa>某些大學習率、甚至帶點不穩定的訓練流程，最後反而能得到更好的測試表現。\u003C\u002Fp>\u003Cp>這篇摘要沒有公開完整 bench\u003Ca href=\"\u002Fnews\u002Famazon-adds-5b-anthropic-deal-zh\">ma\u003C\u002Fa>rk 細節，所以我們不能從這份 raw 資料直接推論它在某個資料集上贏了多少、誤差多少，或具體提升幅度有多大。它能確定的是：作者提出了一套新的理論語言，去描述 edge-of-stability 這種訓練現象，並且把它和 generalization 綁在一起。\u003C\u002Fp>\u003Ch2>這篇論文想解什麼痛點\u003C\u002Fh2>\u003Cp>深度學習裡有個很常見的矛盾：訓練過程看起來不穩，結果卻可能更會泛化。尤其在大學習率下，優化不一定會乖乖掉進單一收斂點，反而可能出現振盪、混沌，甚至長時間都不會「安靜下來」。這種現象就是論文裡說的 edge-of-stability regime。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776837839747-ism8.png\" alt=\"邊界不穩定為何反而更會泛化\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題在於，過去很多解釋泛化的方式，會拿 Hessian 的 trace 或 spectral norm 這類簡化指標來看曲率。這些指標不是沒用，而是太粗。它們把很多方向上的資訊壓成少數幾個數字，結果很容易漏掉真正重要的幾何結構。\u003C\u002Fp>\u003Cp>對工程師來說，這件事很實際。因為平常調模型時，大家常常在學習率、batch size、optimizer、scheduler 之間做折衷。你會看到某些設定訓練過程很「吵」，但最後 test 表現卻不差。這篇論文的核心就是：這種現象可能不是偶然，而是有一套可描述的幾何與動力系統結構。\u003C\u002Fp>\u003Ch2>方法到底怎麼運作\u003C\u002Fh2>\u003Cp>作者先把 stochastic optimizer 看成隨機動力系統。這個視角很重要，因為它不再假設訓練一定會收斂到某個單點參數，而是允許系統最後落在一個 attractor set。更進一步，在他們研究的區域裡，這個 attractor 甚至可能帶有 fractal-like 的結構。\u003C\u002Fp>\u003Cp>接著，論文借用 Lyapunov dimension \u003Ca href=\"\u002Fnews\u002Fai-papers-of-the-week-ml-paper-roundup-zh\">the\u003C\u002Fa>ory 的直覺，提出一個新的量，叫做 sharpness dimension。名字已經透露重點：它不是只看「尖不尖」，而是看 sharpness 跟訓練動態怎麼互相作用。也就是說，模型是不是泛化得好，不只取決於某一個曲率數值，而是取決於整個曲率結構。\u003C\u002Fp>\u003Cp>這裡最關鍵的地方，是作者強調要看完整的 Hessian spectrum，以及 partial determinants 的結構。白話一點說，trace 或 spectral norm 只能告訴你整體或最極端的曲率，但無法告訴你每個方向的曲率怎麼分布。可是在 edge-of-stability 這種情況下，方向性資訊很可能才是主角。\u003C\u002Fp>\u003Cp>所以這篇論文的思路不是「訓練亂掉了，所以出問題」，而是「訓練的長期行為本來就可能是複雜吸引子，而這個吸引子的幾何大小，會反映在泛化上」。sharpness dimension 就是作者拿來量這件事的工具。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇論文的主結果，是建立了一個以 sharpness dimension 為基礎的 generalization bound。也就是說，它不是只提出一個直覺，而是把這個直覺寫成可推導的理論上界。摘要明確指出，這個泛化界依賴的是完整 Hessian spectrum，以及 partial determinants 的結構，而不是只看單一統計量。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776837836808-kofe.png\" alt=\"邊界不穩定為何反而更會泛化\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這點很重要。因為如果你只看 trace 或 spectral norm，很容易把不同模型、不同訓練動態混為一談。作者的主張則更細：在 chaotic regime 裡，真正影響泛化的是更完整的曲率資訊。換句話說，模型不是只在「平不平」這個單一維度上被描述，而是要看整個光譜形狀。\u003C\u002Fp>\u003Cp>摘要也提到，作者用各種 MLP 和 transformer 做實驗，驗證了理論，並且對 grokking 這個現象提供了新的理解。grokking 指的是模型在長時間訓練後，會突然從泛化很差跳到泛化很好的狀態。這篇論文把它和 edge-of-stability 的理論連起來，暗示這種突然轉變可能和訓練動力的幾何有關。\u003C\u002Fp>\u003Cp>不過，這裡也要講清楚限制：摘要沒有提供完整 benchmark 數字、資料集名稱、訓練設定，或具體提升幅度。所以我們可以說它在 MLP 和 transformer 上做了驗證，但不能從這份資料直接判斷效果有多大、跨多少任務、或是否能外推到更大規模模型。\u003C\u002Fp>\u003Ch2>這對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你平常在調神經網路，這篇論文最直接的啟發是：不穩定不一定是壞事。當學習率拉高、訓練看起來有點亂時，這不代表模型一定訓練失敗。相反地，在某些條件下，這種 edge-of-stability 狀態可能就是泛化能力形成的一部分。\u003C\u002Fp>\u003Cp>這也會改變你看訓練過程的方式。很多人習慣只盯 loss、gradient norm，或某個簡化過的 sharpness 指標。但如果這篇論文的思路是對的，那些訊號都可能太粗，只看得到表面，沒看到真正決定 generalization 的幾何結構。\u003C\u002Fp>\u003Cp>對做 optimizer、訓練分析、或模型 scaling 的人來說，這代表未來可能需要更細的 spectral 工具。尤其當模型訓練在穩定邊界附近時，單一最大特徵值或平均曲率，可能不足以描述整個訓練行為。你得看的是更完整的 Hessian 光譜，而不是只看一個摘要數字。\u003C\u002Fp>\u003Cp>另外，這篇論文也提醒一件事：我們在實務上常把「穩定」當成好事，但在深度學習裡，穩定和泛化不一定是同義詞。某些看起來很鬆動、甚至很混沌的訓練路徑，最後反而可能走到更好的解。\u003C\u002Fp>\u003Ch2>還有哪些限制與未解問題\u003C\u002Fh2>\u003Cp>第一個限制很直接：摘要沒有公開完整實驗細節。也就是說，我們不知道它怎麼量 sharpness dimension、計算成本多高、能不能直接套到超大模型，或在實務訓練流程裡是不是容易落地。\u003C\u002Fp>\u003Cp>第二個限制是，理論和工程之間還有一段距離。就算 generalization bound 成立，也不代表工程師立刻知道該怎麼調 learning rate，何時會進入 grokking，或怎麼在訓練中即時監控這個狀態。這篇論文比較像是把方向指出來，而不是把工具箱整包交給你。\u003C\u002Fp>\u003Cp>第三個問題是可操作性。完整 Hessian spectrum 和 partial determinants 聽起來很強，但實際上要不要算、怎麼算、成本是否可接受，這些都還需要更多資訊。摘要沒有回答這些問題，所以我們只能說它提出了一個更精細的理論框架，而不是一個現成的 production recipe。\u003C\u002Fp>\u003Cp>即便如此，這篇論文還是有價值。因為它把一個大家常看到、卻很難解釋的現象，從「訓練亂掉」改寫成「動力系統在高學習率下進入另一種幾何狀態」。這個視角一旦成立，很多原本看起來像例外的訓練行為，就可能變成理解 generalization 的關鍵線索。\u003C\u002Fp>\u003Cul>\u003Cli>作者把 stochastic optimizer 建模成 random dynamical system。\u003C\u002Fli>\u003Cli>提出新的 sharpness dimension，靈感來自 Lyapunov dimension theory。\u003C\u002Fli>\u003Cli>建立依賴 sharpness dimension 的 generalization bound。\u003C\u002Fli>\u003Cli>強調完整 Hessian spectrum 和 partial determinants，比 trace 或 spectral norm 更關鍵。\u003C\u002Fli>\u003Cli>摘要提到在 MLP 與 transformer 上驗證，並連到 grokking 現象。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>總結來說，這篇論文不是在鼓勵大家盲目把 learning rate 開大，而是在提醒：訓練不穩定和泛化能力之間，可能存在結構性的關係。對開發者來說，這代表 edge of stability 不只是要避開的風險區，也可能是理解模型為何會學得更好的入口。\u003C\u002Fp>","這篇論文把高學習率下的混沌訓練，連到泛化能力，並用 Hessian 光譜定義新的 sharpness dimension。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.19740",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776837839747-ism8.png","research","zh","7fb8a4e6-2e67-41e8-8631-a9b482935aea",[17,18,19,20,21],"edge of stability","generalization","Hessian spectrum","sharpness dimension","grokking",5,"2026-04-22T06:03:36.116147+00:00","2026-04-22T06:03:36.019+00:00",{"tags":26,"relatedLang":28,"relatedPosts":32},[27],{"name":18,"slug":18},{"id":15,"slug":29,"title":30,"language":31},"edge-of-stability-generalization-en","Generalization at the Edge of Stability: 1 Paper on Why","en",[33,39,45,51,57,63],{"id":34,"slug":35,"title":36,"cover_image":37,"image_url":37,"created_at":38,"category":13},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","2026-06-29T16:32:28.457338+00:00",{"id":40,"slug":41,"title":42,"cover_image":43,"image_url":43,"created_at":44,"category":13},"29321237-6e9a-4271-b9fb-e43e798d5dff","glm-52-beats-claude-semgrep-idor-test-zh","GLM 5.2 在 IDOR 測試贏過 Claude","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782749882713-7i5n.png","2026-06-29T16:17:31.911487+00:00",{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"5172bfc7-34c8-4477-a177-ffa615497ecf","opd-distillation-skills-without-bruteforce-rl-zh","OPD 讓你把技能蒸餾進模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782730101413-5wjx.png","2026-06-29T10:47:57.457072+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"c649adb7-c8ae-4ade-a092-2c0d53beeb71","measuring-llm-behavior-portability-zh","LLM 行為不一定可移植","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782717472977-na8g.png","2026-06-29T07:17:29.597679+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"637c3016-e364-4bfe-904e-5e60a18ed678","prompt-injection-ai-security-problem-zh","Prompt injection 已是 AI 資安問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782716580916-m1nm.png","2026-06-29T07:02:36.173749+00:00",[70,75,80,85,90,95,100,105,110,115],{"id":71,"slug":72,"title":73,"created_at":74},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":76,"slug":77,"title":78,"created_at":79},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":81,"slug":82,"title":83,"created_at":84},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]