[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-stride-training-data-attribution-sparse-recovery-zh":3,"article-related-stride-training-data-attribution-sparse-recovery-zh":30,"series-research-447ac6c9-477b-45c8-bec2-ff94dc4cf5d4":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"447ac6c9-477b-45c8-bec2-ff94dc4cf5d4","stride-training-data-attribution-sparse-recovery-zh","STRIDE 讓訓練資料歸因快 13 倍","\u003Cp data-speakable=\"summary\">STRIDE 把訓練資料歸因改寫成稀疏恢復，透過子集合擾動回推影響來源，讓歸因成本比既有方法快 13 倍。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：比既有方法快 13 倍\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：子集合擾動稀疏恢復\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.05165\">STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations\u003C\u002Fa> 想解的是一個很實際、也很難規模化的問題：模型到底是被哪些訓練資料影響出這個答案的。對做資料清理、污染檢查、模型除錯的人來說，這種歸因能力很重要。但傳統做法一碰到大型語言模型，成本就迅速爆掉。\u003C\u002Fp>\u003Cp>這篇摘要的主張很直接。與其一路追蹤龐大的參數更新，或反覆重訓模型去看輸出怎麼變，不如改從模型行為本身下手。STRIDE 把訓練資料歸因，轉成一個可以用擾動訊號來解的問題。\u003Ca href=\"\u002Fnews\u002F5-takeaways-from-spurs-vs-trail-blazers-game-5-zh\">重點\u003C\u002Fa>不是盯著每個權重怎麼動，而是看模型在 activation space 裡怎麼被推動。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>訓練資料歸因，簡單講，就是把模型的預測往回追，找出哪些訓練樣本真的影響了它。理想狀態下，這應該是因果問題：加一筆資料、刪一筆資料，再觀察輸出變化。這種訊號最乾淨，但對大型模型來說，實務上幾乎就是重訓成本。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780552979370-897a.png\" alt=\"STRIDE 讓訓練資料歸因快 13 倍\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>所以很多現有方法會退一步，改在參數空間裡用梯度近似影響力。問題是，摘要也點得很清楚：梯度要跨越數十億參數，成本太高，而且只抓得到局部近似。也就是說，它能當線索，但不等於真的量到資料\u003Ca href=\"\u002Fnews\u002Fhow-to-set-up-openclaw-safely-zh\">如何\u003C\u002Fa>改\u003Ca href=\"\u002Fnews\u002Fgame-thread-prompt-turns-nba-chatter-into-template-zh\">變模\u003C\u002Fa>型行為。\u003C\u002Fp>\u003Cp>STRIDE 要補的，就是這個落差。它不是要完整重建訓練路徑，而是把歸因變成一種「看輸出如何被子集合擾動」的推論問題。這個方向的核心價值，在於它試圖避開重訓與全參數追蹤的硬成本。\u003C\u002Fp>\u003Ch2>方法到底怎麼做\u003C\u002Fh2>\u003Cp>STRIDE 全名是 Steering-based Training Data Influence Decomposition。名字已經透露方法骨架：它先學一組輕量的 steering operators，再用這些操作去模擬某個訓練資料子集合造成的行為偏移。\u003C\u002Fp>\u003Cp>白話一點說，這不是在問「權重怎麼變」，而是在問「我能不能用一個小小的操控器，把模型推到跟某批訓練資料相似的反應狀態」。如果可以，就能拿這些擾動去觀察測試預測的變化。\u003C\u002Fp>\u003Cp>接下來，STRIDE 用 sparse linear decomposition 來回推個別訓練樣本的影響。這裡的關鍵是「稀疏」。它假設對某個預測真正重要的資料，往往只佔少數，不需要把所有樣本都當成同等重要。這很像壓縮感知的直覺：如果訊號本來就稀疏，就有機會用較少觀測把它解回來。\u003C\u002Fp>\u003Cp>對工程實作來說，這個設計很有吸引力。因為它把原本可能是重訓、重算梯度、重掃資料的流程，換成「先做擾動、再做重建」的管線。只要方法成立，歸因就不再只是研究室裡的理論題，而有機會變成能跑在真實工作流裡的工具。\u003C\u002Fp>\u003Ch2>摘要公開證明了什麼\u003C\u002Fh2>\u003Cp>摘要裡有兩個明確結果。第一，STRIDE 在 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> pre-training attribution 上達到 state-of-the-art。第二，它比 previous art 快 13 倍。這也是摘要中唯一公開的 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 級數字；沒有更細的 leaderboard、逐任務分數或資料集拆解。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780552975179-lm6v.png\" alt=\"STRIDE 讓訓練資料歸因快 13 倍\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>除了速度，摘要也提到它驗證了下游用途，包含 data selection、data contamination 和 qualitative analysis。這代表作者不是把它包裝成純理論方法，而是想把它放進\u003Ca href=\"\u002Ftag\u002F資料治理\">資料治理\u003C\u002Fa>、污染檢查、以及模型行為分析的實際工作流。\u003C\u002Fp>\u003Cp>但要注意，摘要沒有把評估細節交代完整。你看不到測了哪些模型、用了哪些資料集、歸因品質怎麼量，也看不到誤差範圍。換句話說，13 倍這個數字很亮眼，但還不能直接推論它在所有場景都同樣穩。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做 LLM 訓練或微調，訓練資料歸因會越來越像必備能力。因為模型越大、資料越雜，越需要回答幾個實務問題：哪批樣本在拉動這個怪輸出、哪些資料該移除、模型是不是其實被污染資料帶偏了。\u003C\u002Fp>\u003Cp>STRIDE 的意義在於，它把這件事往可負擔的方向推了一步。13 倍加速不只是論文指標。如果歸因本身是資料清理或審核流程中的瓶頸，那速度提升就可能直接影響迭代節奏。對資料選擇、污染檢查、模型事後分析，這都會有實際幫助。\u003C\u002Fp>\u003Cp>另一個值得注意的地方，是它挑戰了「歸因一定要在參數空間裡做」這個默認前提。STRIDE 改看 activation space 的行為，再用稀疏恢復去解影響來源。這種抽象層級的切換，對很多模型分析任務都很有啟發性。\u003C\u002Fp>\u003Ch2>還有哪些限制沒講清楚\u003C\u002Fh2>\u003Cp>摘要的資訊量夠讓人知道方向，但還不夠讓人判斷部署價值。它沒有公開完整 benchmark 細節，所以目前無法確認 13 倍加速在不同模型大小或不同歸因設定下是否一致。\u003C\u002Fp>\u003Cp>摘要也沒說清楚 steering operators 的學習成本。這很重要，因為如果前置建模本身就很重，那整體效益可能會被吃掉。另外，它也沒有交代是否需要存取內部 activations，這會直接影響方法能不能接到現有訓練管線。\u003C\u002Fp>\u003Cp>還有一個現實問題是稀疏假設。STRIDE 的 sparse recovery 依賴「真正重要的影響是少數」這個前提，但摘要沒有說明當訊號不稀疏時會怎樣。這類方法在理想情況下很漂亮，但在資料互相糾纏、影響分散時，表現可能就會變得不穩。\u003C\u002Fp>\u003Cp>即便如此，STRIDE 仍然是一篇值得注意的研究。它不是只把既有 attribution 方法再加速一點，而是重新定義問題：與其追參數，不如從模型行為與擾動訊號去反推訓練資料影響。對做資料治理、模型除錯、污染分析的團隊來說，這種思路很值得跟進。\u003C\u002Fp>\u003Cul>\u003Cli>STRIDE 把訓練資料歸因改成子集合擾動下的稀疏恢復問題。\u003C\u002Fli>\u003Cli>摘要聲稱它在 LLM pre-training attribution 上達到 SOTA，且速度快 13 倍。\u003C\u002Fli>\u003Cli>摘要沒有公開完整 benchmark 細節，實際部署成本與穩定性仍需看全文。\u003C\u002Fli>\u003C\u002Ful>","STRIDE 把訓練資料歸因改寫成稀疏恢復，透過子集合擾動回推影響來源，讓歸因成本比既有方法快 13 倍。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.05165",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780552979370-897a.png","research","zh","b940c037-352c-4c68-8e44-62748fafa560",[17,18,19,20,21],"training data attribution","sparse recovery","LLM pre-training","subset perturbations","data contamination",[23,24,25],"把資料歸因從重訓\u002F梯度追蹤，改成擾動後的稀疏恢復。","摘要主張在 LLM pre-training attribution 上達到 SOTA，並快 13 倍。","目前只知道方向與主張，完整 benchmark 與部署成本仍未公開。",2,"2026-06-04T06:02:29.149166+00:00","2026-06-04T06:02:29.127+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":21,"slug":33},"data-contamination",{"name":18,"slug":35},"sparse-recovery",{"name":17,"slug":37},"training-data-attribution",{"name":20,"slug":39},"subset-perturbations",{"name":19,"slug":41},"llm-pre-training",{"id":15,"slug":43,"title":44,"language":45},"stride-training-data-attribution-sparse-recovery-en","STRIDE tracks training data influence faster","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"4fa896da-9616-425a-92bc-c1d7d5861ff9","streamma-multi-agent-reasoning-latency-zh","StreamMA 讓多代理推理邊想邊傳","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780554786134-1w1d.png","2026-06-04T06:32:32.769423+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"f31f51ba-4445-4e43-9bda-31e70f53d42b","audio-language-models-arbitration-reversals-zh","音訊模型不是聽不懂","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780553877373-ux95.png","2026-06-04T06:17:27.890159+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","2026-06-03T06:17:44.126547+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]