[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-dashattention-differentiable-adaptive-sparse-attention-zh":3,"article-related-dashattention-differentiable-adaptive-sparse-attention-zh":30,"series-research-475844e6-3e2c-49a6-aea0-86a94945d2c2":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"475844e6-3e2c-49a6-aea0-86a94945d2c2","dashattention-differentiable-adaptive-sparse-attention-zh","DashAttention 讓稀疏長上下文可微","\u003Cp data-speakable=\"summary\">DashAttention 把\u003Ca href=\"\u002Ftag\u002F長上下文\">長上下文\u003C\u002Fa>分層注意力做成可微、可自適應的稀疏選擇，讓模型在高稀疏下仍能保住效能。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：75% sparsity\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：α-entmax 自適應選塊\u003C\u002Fli>\u003C\u002Ful>\u003Cp>長上下文注意力一直有個老問題：你可以看得很廣，但成本高；你也可以先砍掉一大半內容，但很容易把關鍵資訊一起丟掉。這篇論文要處理的，就是這個「省算力」和「保品質」之間的拉扯。\u003C\u002Fp>\u003Cp>作者認為，現有的分層式稀疏注意力，像是先粗選 KV block、再做細粒度 softmax 的流程，最大的問題不在於「不夠快」，而在於「太硬」。因為它通常靠 top-k 做離散選擇，等於預先假設每個 query 都只需要固定數量的相關區塊。實際上，不同 query 對上下文的需求差很多，這種固定門檻會限制模型表現。\u003C\u002Fp>\u003Cp>這篇論文提出的 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.18753\">DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention\u003C\u002Fa>，就是想把這個流程改成更靈活的版本。它保留分層注意力的效率優勢，但把第一階段改成可自適應、可微分的稀疏選擇，讓 sparse 和 dense 兩段可以一起訓練，而不是像兩個彼此切開的模組。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>先講白話版。長上下文模型最怕的不是「沒有注意力」，而是「注意力太分散」。如果前面那層粗選做得不準，後面的精細注意力就只能在錯的候選集合裡找答案。這時候模型看起來還在運作，但其實已經偏掉了。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779171840613-dq1r.png\" alt=\"DashAttention 讓稀疏長上下文可微\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>傳統 top-k 分層注意力有兩個結構性限制。第一，它不會因為 query 不同就改變保留數量。第二，top-k 是離散操作，梯度沒辦法順暢穿過 sparse selection 與 dense attention 的邊界。結果就是，模型雖然有「先篩再算」的設計，卻不一定學得到真正適合自己的篩法。\u003C\u002Fp>\u003Cp>DashAttention 的出發點，就是把這個硬切的流程改成可學習的流程。它不是單純把 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 砍少，而是讓模型自己決定該保留多少個 KV block，並且維持整條路徑都能反向傳播。\u003C\u002Fp>\u003Ch2>方法怎麼運作\u003C\u002Fh2>\u003Cp>DashAttention 的核心是兩階段結構。第一階段不是固定 top-k，而是用 α-entmax 來做稀疏選擇。這個轉換的\u003Ca href=\"\u002Fnews\u002Fspurs-vs-timberwolves-game-5-takeaways-zh-tw-zh\">重點\u003C\u002Fa>在於，它可以產生稀疏輸出，但保留的 block 數量可以隨 query 而變，不需要每次都死守同一個 k。\u003C\u002Fp>\u003Cp>換句話說，有些 query 需要更多上下文，系統就能保留更多 block；有些 query 只需要少量資訊，就能更果斷地稀疏化。這讓第一階段不再只是粗暴過濾，而是\u003Ca href=\"\u002Fnews\u002Fwembanyama-stat-page-turns-into-recap-zh\">變成\u003C\u002Fa>一個依照內容調整的 prior。\u003C\u002Fp>\u003Cp>第二階段則是在被選出的區塊上做更細的 softmax attention。因為前面的稀疏選擇本身是可微的，所以 sparse 與 dense 不再是互相獨立的兩段式流程，而是可以一起優化的整體。這就是 DashAttention 跟傳統 top-k pipeline 最大的差別。\u003C\u002Fp>\u003Cp>論文用的不是「更少 token」這種單一目標，而是「可變數量的 block 選擇 + 可微分的分層注意力」。這也解釋了為\u003Ca href=\"\u002Fnews\u002Fwhy-wembanyama-game-3-should-change-spurs-expectations-zh\">什麼\u003C\u002Fa>作者會特別強調它是 adaptive、differentiable，而且還是 hierarchical。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>根據摘要，作者主張 DashAttention 具有 non-dispersive 的特性，也就是注意力不會過度發散。這點被用來解釋它在長上下文建模上的表現會更穩。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779171846871-4q8c.png\" alt=\"DashAttention 讓稀疏長上下文可微\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>在大語言模型實驗中，摘要寫到 DashAttention 在 75% sparsity 下，能做到和 full attention 相近的準確度。它也比 NSA 和 InfLLMv2 有更好的 Pareto frontier，尤其是在高稀疏區間。這代表它不是只在「省算力」這一端有優勢，而是能把效能與效率的平衡往更好的方向推。\u003C\u002Fp>\u003Cp>不過，這裡也要講清楚限制：摘要沒有公開完整 benchmark 細節。它沒有列出完整測試集、任務名稱、模型尺寸，也沒有把精確 accuracy 數字全部攤開。所以從摘要能確定的是趨勢，不是完整的實驗圖表。\u003C\u002Fp>\u003Cp>另外，作者還提供了 \u003Ca href=\"\u002Ftag\u002Fgpu\">GPU\u003C\u002Fa>-aware 的 Triton 實作。摘要指出，這個實作在 inference 時的速度表現，甚至能優於 FlashAttention-3。不過摘要沒有給出確切倍率，所以我們只能說它有速度優勢，不能替它補上沒寫出的數字。\u003C\u002Fp>\u003Ch2>對開發者代表什麼\u003C\u002Fh2>\u003Cp>如果你在做長上下文 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 系統，真正的問題從來不是「能不能稀疏」，而是「稀疏會不會把品質砍壞」。DashAttention 的價值，在於它試圖把這兩件事一起解，而不是先犧牲一邊再補另一邊。\u003C\u002Fp>\u003Cp>這對調整 attention 層的成本曲線很有意義。75% sparsity 還能維持接近 full attention 的結果，至少在論文摘要的描述裡，已經顯示它不是那種單純靠剪枝換速度、最後品質掉一大截的方法。對需要長上下文推理、又受限於記憶體頻寬與延遲的場景，這種設計方向很有吸引力。\u003C\u002Fp>\u003Cp>更實際的一點是，作者把 GPU-aware Triton implementation 一起端出來。對開發者來說，這通常比單純的算法概念更重要。因為 attention 類方法最後能不能落地，常常不是看論文圖畫得漂不漂亮，而是看 kernel、硬體和序列長度能不能配合。\u003C\u002Fp>\u003Ch2>還有哪些限制與問題沒回答\u003C\u002Fh2>\u003Cp>摘要也留下不少工程師會想追問的空白。首先是 benchmark 資訊不足。你看不到完整數據集、模型規模、測試條件，也不知道它在不同任務上的表現是否一致。這讓它很難直接被拿來和其他方法做嚴格對照。\u003C\u002Fp>\u003Cp>其次，分層稀疏注意力的實際收益很吃系統條件。kernel 寫得好不好、GPU 架構、序列長度、部署方式，都會影響最後的速度和成本。摘要雖然說 Triton 實作很有效率，但沒有說明這些優勢在不同環境下能不能穩定重現。\u003C\u002Fp>\u003Cp>還有一個問題是泛化性。摘要只提到 large language models 的實驗結果，但沒有說跨架構、跨任務，這套 adaptive sparse selection 是否都能維持同樣的 Pareto 改善。這些都需要看完整論文或後續實作驗證。\u003C\u002Fp>\u003Cp>即便如此，這篇的方向還是很清楚：它想把 sparse attention 從固定規則，推向可學習、可變動、端到端可訓練的機制。對長上下文模型來說，這不是小修小補，而是把稀疏化從「硬切」改成「會判斷的選擇」。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>DashAttention 證明了一件事：長上下文注意力不一定要在「全看」和「硬砍」之間二選一。它可以在保留分層效率的同時，讓稀疏選擇變成可微、可自適應的流程。\u003C\u002Fp>\u003Cp>從摘要能看到的結果是，這種設計在 75% sparsity 下仍能維持接近 full attention 的表現，並且在高稀疏區間比 NSA 和 InfLLMv2 更有優勢。對開發者來說，這代表稀疏注意力還有繼續往「更聰明」方向演進的空間，而不只是單純把 token 砍少。\u003C\u002Fp>\u003Cul>\u003Cli>DashAttention 把固定 top-k 改成 α-entmax 自適應選塊。\u003C\u002Fli>\u003Cli>它讓 sparse 與 dense attention 保持可微分，方便端到端訓練。\u003C\u002Fli>\u003Cli>摘要只公開了趨勢與 75% sparsity，沒有完整 benchmark 表格。\u003C\u002Fli>\u003C\u002Ful>","DashAttention 把長上下文的分層稀疏注意力改成可微、可自適應的選擇機制，讓模型在 75% 稀疏下仍能維持接近全注意力的表現。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.18753",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779171840613-dq1r.png","research","zh","f15bbb27-837c-4841-9460-5c68d705e883",[17,18,19,20,21],"DashAttention","sparse attention","α-entmax","long-context","Triton",[23,24,25],"把固定 top-k 稀疏選擇改成可變數量、可微分的 α-entmax 機制。","摘要宣稱在 75% sparsity 下仍能接近 full attention，且優於 NSA 與 InfLLMv2 的 Pareto frontier。","摘要沒有公開完整 benchmark 細節，工程上仍需看模型、資料集與 kernel 表現。",2,"2026-05-19T06:23:32.886786+00:00","2026-05-19T06:23:32.697+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":41,"relatedPosts":45},[32,34,35,37,39],{"name":18,"slug":33},"sparse-attention",{"name":19,"slug":19},{"name":36,"slug":20},"long context",{"name":17,"slug":38},"dashattention",{"name":21,"slug":40},"triton",{"id":15,"slug":42,"title":43,"language":44},"dashattention-differentiable-adaptive-sparse-attention-en","DashAttention makes sparse long-context attention differentiable","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","2026-06-03T06:17:44.126547+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"9f9c2a61-d058-4c62-bb88-106e683657f0","nasa-landsat-wild-disturbances-rising-zh","NASA Landsat：野火與風暴變多","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780448581102-owp0.png","2026-06-03T01:02:37.513233+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"3479bdee-21fb-4fda-9572-9394caba01b0","adacodec-predictive-visual-code-video-mllms-zh","AdaCodec 用預測碼壓縮影片 token","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381988591-z2sp.png","2026-06-02T06:32:28.249023+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]