[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-geometry-aware-similarity-metrics-for-neural-representations-zh":3,"article-related-geometry-aware-similarity-metrics-for-neural-representations-zh":24,"series-research-53a0dc54-0371-4e40-8d5e-74e94a73840c":67},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":21,"created_at":22,"published_at":23,"topic_cluster_id":11},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","\u003Cp>神經網路的成功充滿了神祕性。我們訓練它們，它們就能泛化，大多數時候我們只是聳聳肩接受這個事實。但這個表面成功的底下，藏著一個幾何現實：神經網路在高維空間裡排列資訊的方式，和它們捕捉的模式一樣重要。\u003C\u002Fp>\n\n\u003Cp>UC Berkeley的N Alex Cayco Gajic和Arthur Pellegrino決定更深入地理解這個幾何。他們沒有問「這些表示看起來像什麼」（外在幾何），而是問「它們的根本內部結構是什麼」（內在幾何）。答案是：指標相似性分析（Metric Similarity Analysis, MSA），一個用微分幾何來比較神經表示的框架，能捕捉傳統方法遺漏的東西。\u003C\u002Fp>\n\n\u003Cp>這篇於2026年3月30日提交到arXiv的論文，打開了一扇門讓我們理解：為什麼用不同方式訓練的神經網路，即使產生相似輸出，卻往往具有根本不同的內部幾何結構。\u003C\u002Fp>\n\n\u003Ch2>古典相似度量的侷限\u003C\u002Fh2>\n\n\u003Cp>研究者比較神經網路表示時，通常問：這兩個向量相似嗎？這看起來合理，直到你意識到答案完全取決於\u003Cem>怎麼\u003C\u002Fem>測量相似度。歐幾里得距離（直線距離）在某些情境有效，餘弦相似度在其他情境適用。但兩者都忽略了一個關鍵因素：表示空間的內在幾何。\u003C\u002Fp>\n\n\u003Cp>想象兩座城市，距離參考點等距（相同的歐幾里得距離），但在山脈的兩側，它們佔據著根本不同的地理結構。古典指標能捕捉距離；卻漏掉了景觀。\u003C\u002Fp>\n\n\u003Cp>神經網路的表示就像那些城市。它們所在的抽象空間有自己的結構—曲率、維度、測地距離（沿著底層流形的最短路徑）。標準指標把空間當成平坦無特徵的，遺失了表示如何組織資訊的關鍵信息。\u003C\u002Fp>\n\n\u003Ch2>指標相似性分析：微分幾何方法\u003C\u002Fh2>\n\n\u003Cp>Cayco Gajic和Pellegrino的MSA框架奠基於黎曼幾何—微分幾何的一個分支，將距離和角度概念延伸到曲面上。與其問「這些向量在歐幾里得空間裡距離多遠」，MSA問的是「它們所在流形的內在幾何是什麼，這些幾何如何比較」。\u003C\u002Fp>\n\n\u003Cp>流形假說—高維資料位於低維流形之上的信念—是現代機器學習的基礎。但它常被當成抽象假設擱置。MSA讓它具體化，實際測量流形性質：曲率、維度和內在距離。\u003C\u002Fp>\n\n\u003Cp>這個技術運用微分幾何工具來計算Ricci曲率張量這類性質，它捕捉流形在不同方向如何彎曲。兩個表示在古典指標下可能看起來相似，卻展現出完全不同的內在曲率，暗示根本不同的計算結構。\u003C\u002Fp>\n\n\u003Ch2>三個實驗領域\u003C\u002Fh2>\n\n\u003Cp>研究者在三個理解內在幾何很重要的場景測試MSA：\u003C\u002Fp>\n\n\u003Cp>\u003Cstrong>變化條件下的深度網路：\u003C\u002Fstrong>網路以不同初始化、不同學習率或不同資料增強策略訓練時，會收斂到不同的表示。古典指標可能說它們「夠相似了」。MSA會揭露底層計算流形是否真的同構，或者根本不同。\u003C\u002Fp>\n\n\u003Cp>\u003Cstrong>非線性動力系統：\u003C\u002Fstrong>理解相空間軌跡的幾何對預測系統行為至關重要。MSA提供工具比較不同參數體制下軌跡的內在幾何，揭示系統何時經歷根本重組，何時只是改變規模。\u003C\u002Fp>\n\n\u003Cp>\u003Cstrong>擴散模型：\u003C\u002Fstrong>當擴散模型透過反覆精煉產生影像時，表示幾何不斷演變。MSA能追蹤不同時間步的表示是否位於同一底層流形，或在定性不同的幾何結構間轉變。這攸關於理解生成能力來自何處。\u003C\u002Fp>\n\n\u003Ch2>為什麼幾何捕捉了指標遺漏的東西\u003C\u002Fh2>\n\n\u003Cp>古典相似度量無視流形結構。想象兩個高維空間在拓樸上相同，但內在曲率不同。點可能在兩個空間裡等距，但測地距離—沿著流形的最短路徑—卻不同，空間的計算方式也根本不同。\u003C\u002Fp>\n\n\u003Cp>這個區別不只是學術性的。它有真實的含義：兩個表示「相似」（按古典標準），卻可能學到完全不同的決策邊界，因為它們底層流形的曲率不同。MSA偵測這些結構差異，揭露兩個表示何時真正相似，何時只是表面接近。\u003C\u002Fp>\n\n\u003Cp>該框架也能處理流形維度變化的情況。一個表示可能在某個情況集中在低維子流形，在另一個情況下展開到高維度，即使逐點距離看起來相似。MSA透過測量內在維度來區分這些情景。\u003C\u002Fp>\n\n\u003Ch2>對神經網路研究的啟示\u003C\u002Fh2>\n\n\u003Cp>如果MSA確實成功捕捉了內在幾何，它提供了一個更有原則的方式來問：什麼構成好的表示？現有答案依賴下游任務表現—如果學到的表示產生好結果，我們就稱它好。但MSA暗示更深層的準則：表示應在結構良好、可詮釋的流形上組織資訊。\u003C\u002Fp>\n\n\u003Cp>這可能指導架構設計。或許過度扭曲表示流形的層（引入不必要的曲率）是不合意的。或許跳躍連接能成功的部分原因是保留流形結構。或許注意力機制成功是因為它動態調整流形幾何以適應當前任務。\u003C\u002Fp>\n\n\u003Cp>理解表示幾何也對遷移學習很重要。如果預訓練表示用「好」的流形結構—跨任務泛化的結構—那可能解釋預訓練為何有幫助。相反，如果微調過度扭曲預訓練流形，可能會摧毀遷移能力。\u003C\u002Fp>\n\n\u003Ch2>與更廣泛理論的連接\u003C\u002Fh2>\n\n\u003Cp>MSA連接到機器學習理論中的長久問題。流形假說假設資料集中在低維流形上。MSA提供工具驗證和量化這一點。梯度下降的隱含偏好—為什麼神經網路學到泛化解—可能部分反映學到的流形幾何。MSA提供透鏡來調查。\u003C\u002Fp>\n\n\u003Cp>該研究也涉及資訊幾何，用幾何工具研究機率分佈空間的領域。如果神經表示編碼機率分佈（生成模型的常見假設），它們的幾何性質編碼機率結構的資訊。MSA橋接這些視角。\u003C\u002Fp>\n\n\u003Ch2>方法論考量\u003C\u002Fh2>\n\n\u003Cp>一個挑戰是計算成本。測量黎曼性質需要仔細的數值計算。論文有解決這個問題，但實作MSA的從業者在處理超高維表示時，必須應對數值穩定性問題。\u003C\u002Fp>\n\n\u003Cp>另一個問題是可詮釋性。MSA揭露幾何差異，但要把差異轉化為可行洞察需要領域專業知識。高Ricci曲率的表示在某些情況下可能「壞」，在其他情況下「好」，取決於下游任務。\u003C\u002Fp>\n\n\u003Ch2>未來方向\u003C\u002Fh2>\n\n\u003Cp>自然的下一步是系統應用到現代架構：Transformers、視覺模型、多模態系統。基於注意力的架構產生的表示有特徵幾何性質嗎？某些設計選擇（層正規化、跳躍連接、位置編碼）是否能預測流形結構？\u003C\u002Fp>\n\n\u003Cp>也有潛力開發幾何感知學習演算法—在訓練中明確優化好流形性質的方法。如果網路幾何與泛化相關，幾何感知訓練可能改善效率和穩健性。\u003C\u002Fp>\n\n\u003Cp>對從業者而言，MSA是個診斷工具。當你有兩個表示在古典標準下看起來相似卻在生產環境表現不同時，MSA能揭露解釋差距的幾何差異。隨著神經網路進入更高利害關係應用，這些對表示結構的深入理解變得更加寶貴。\u003C\u002Fp>\n\n\u003Cp>要深入探索這項工作，請查看\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.28764\" target=\"_blank\" rel=\"noopener\">arXiv上關於黎曼幾何與神經表示的論文\u003C\u002Fa>，以及\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002F?query=representation+learning+geometry&searchtype=all\" target=\"_blank\" rel=\"noopener\">表示學習幾何方法的相關研究\u003C\u002Fa>。與\u003Ca href=\"https:\u002F\u002Fzh.wikipedia.org\u002Fwiki\u002F%E8%B5%B7%E5%9C%B0%E8%AE%80%E7%BE%A4%E4%BD%9F%E7%94%A8%E8%80%85%E7%A7%A4%E6%9A%A8\" target=\"_blank\" rel=\"noopener\">資訊幾何\u003C\u002Fa>和\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002F?query=manifold+hypothesis&searchtype=all\" target=\"_blank\" rel=\"noopener\">流形假說\u003C\u002Fa>的連接深厚，為未來研究提供豐富沃土。\u003C\u002Fp>","研究者用黎曼幾何分析神經網路表示的內在結構，揭示傳統相似度指標無法發現的深層模式。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.28764",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774939902743-mij0.png","research","zh","bffe6d87-1e52-49cc-8fb7-bb5776889b14",[17,18,19,20],"黎曼幾何","神經網路","表示學習","流形假說",12,"2026-03-31T06:01:01.241968+00:00","2026-03-31T06:52:08.278+00:00",{"tags":25,"relatedLang":26,"relatedPosts":30},[],{"id":15,"slug":27,"title":28,"language":29},"understanding-neural-nets-metric-similarity-en","Geometry Matters: Understanding Neural Networks Through Manifolds","en",[31,37,43,49,55,61],{"id":32,"slug":33,"title":34,"cover_image":35,"image_url":35,"created_at":36,"category":13},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","2026-06-29T16:32:28.457338+00:00",{"id":38,"slug":39,"title":40,"cover_image":41,"image_url":41,"created_at":42,"category":13},"29321237-6e9a-4271-b9fb-e43e798d5dff","glm-52-beats-claude-semgrep-idor-test-zh","GLM 5.2 在 IDOR 測試贏過 Claude","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782749882713-7i5n.png","2026-06-29T16:17:31.911487+00:00",{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"5172bfc7-34c8-4477-a177-ffa615497ecf","opd-distillation-skills-without-bruteforce-rl-zh","OPD 讓你把技能蒸餾進模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782730101413-5wjx.png","2026-06-29T10:47:57.457072+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"c649adb7-c8ae-4ade-a092-2c0d53beeb71","measuring-llm-behavior-portability-zh","LLM 行為不一定可移植","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782717472977-na8g.png","2026-06-29T07:17:29.597679+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"637c3016-e364-4bfe-904e-5e60a18ed678","prompt-injection-ai-security-problem-zh","Prompt injection 已是 AI 資安問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782716580916-m1nm.png","2026-06-29T07:02:36.173749+00:00",[68,73,78,83,88,89,94,99,104,109],{"id":69,"slug":70,"title":71,"created_at":72},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":74,"slug":75,"title":76,"created_at":77},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":79,"slug":80,"title":81,"created_at":82},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":84,"slug":85,"title":86,"created_at":87},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":4,"slug":5,"title":6,"created_at":22},{"id":90,"slug":91,"title":92,"created_at":93},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]