[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-dexcompose-reuses-dexterous-policies-across-tasks-zh":3,"article-related-dexcompose-reuses-dexterous-policies-across-tasks-zh":30,"series-research-89159fcf-2fbb-4b72-9e05-7928e609a925":73},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"89159fcf-2fbb-4b72-9e05-7928e609a925","dexcompose-reuses-dexterous-policies-across-tasks-zh","DexCompose 讓手部技能可重用","\u003Cp data-speakable=\"summary\">DexCompose 用手指級的動作分工，把已訓練好的靈巧手策略組成多任務操作。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：16 個任務、77.4% 平均 composite success rate\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：手指級動作 ownership\u003C\u002Fli>\u003C\u002Ful>\u003Cp>靈巧手的難，不只是在單一任務做對。更麻煩的是，當你想在既有技能上再疊一個新任務，原本穩住物體的動作，可能會被新的控制訊號打亂。DexCompose 就是在處理這種「保住原本狀態」和「執行新任務」互相打架的問題。\u003C\u002Fp>\u003Cp>這篇論文的重點，不是再訓練一個更大的單一控制器，而是把已經學好的\u003Ca href=\"\u002Fnews\u002Fhawor-hand-motion-mano-params-zh\">手部\u003C\u002Fa>策略拿來重組。對做機器手、抓取、操作的開發者來說，這很實際：如果技能可以重用，新的任務就不一定要從頭學一次。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>Dexterous manipulation 的核心痛點是 interference。手上每根手指都在影響接觸、摩擦、姿態和物體狀態。當你把第二個任務加進來，動作衝突很容易發生。原本該穩住的地方被動到了，原本該改變的地方又被保守策略卡住。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782712975186-mj1e.png\" alt=\"DexCompose 讓手部技能可重用\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>摘要把這件事描述成一種 destructive tradeoff：一邊要保留既有 manipulation outcome，一邊又要執行新任務。這不是單純的「先做 A 再做 B」就能解。因為在靈巧手上，兩個任務常常是同時爭搶同一組關節、同一個接觸面、同一個穩定條件。\u003C\u002Fp>\u003Cp>所以 DexCompose 想解的不是「\u003Ca href=\"\u002Fnews\u002Fanthropic-965b-valuation-ai-stocks-exposure-zh\">怎麼\u003C\u002Fa>把兩個 policy 串起來」，而是「怎麼讓手的控制空間先分工」。它的假設很直接：如果能清楚分出哪些動作是用來保護原本狀態，哪些動作是用來完成新任務，干擾就能下降。\u003C\u002Fp>\u003Ch2>方法怎麼運作\u003C\u002Fh2>\u003Cp>DexCompose 被描述成一個 role-aware residual composition framework。白話一點，就是它不是把兩個全手策略硬疊在一起，而是先找出它們各自應該負責的部分，再用 residual 的方式做組合。\u003C\u002Fp>\u003Cp>第一步，是從第一個技能的成功 post-task states 蒐集\u003Ca href=\"\u002Fnews\u002Fmistral-ocr-4-citation-ready-structured-output-zh\">資料\u003C\u002Fa>。接著，方法會做 release tests，並針對候選 finger masks 去測試哪些手指真的需要維持這個狀態。這一步很像在問：哪些手指是「穩定物體」的關鍵，哪些手指其實可以拿去做別的事。\u003C\u002Fp>\u003Cp>這個 finger-level 的分析，最後會變成明確的 action ownership。某些手指被分派去保住既有結果，其他手指則被分派給新任務。這就是所謂的 role-aware：不是平均混合兩個 policy，而是先定義每一部分手到底該守住什麼、該改變什麼。\u003C\u002Fp>\u003Cp>接著，框架會訓練兩個不對稱的 residual modules。第一個是 bounded residual stabilizer，用來限制保留任務的偏移，避免原本技能漂掉。第二個是 context-aware residual，用來調整 frozen downstream policy，但它只會在分配給新任務的 action subspace 裡運作。\u003C\u002Fp>\u003Cp>這種不對稱設計很關鍵。論文的意思不是「兩個任務都一起學、一起改」，而是保留和適應本來就是不同的控制問題，所以應該交給不同的 residual 機制處理。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要提到的評估涵蓋 16 個 composite dexterous manipulation tasks。這些任務橫跨 4 種 object-retention \u003Ca href=\"\u002Ftag\u002Fskills\">skills\u003C\u002Fa> 和 4 種 downstream interactions。就摘要資訊來看，這比只做單一 demo 來得完整，至少說明方法不是只在一個小場景裡有效。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782712974859-1ac1.png\" alt=\"DexCompose 讓手部技能可重用\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>唯一公開的具體數字，是 77.4% 的平均 composite success rate。摘要沒有再提供 per-task breakdown、baseline 對照表、ablation 數字，或其他更細的 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 細節，所以目前只能確認這個平均成功率，而不能把它解讀成全面勝出。\u003C\u002Fp>\u003Cp>不過，這個結果已經足以支持論文的主張：如果把動作 ownership 做清楚，再搭配雙 residual 結構，技能組合就有機會比傳統 policy chaining 更穩。換句話說，這篇不是在說「單一 policy 更強」，而是在說「可組合性本身可以被設計出來」。\u003C\u002Fp>\u003Cp>同時也要注意，摘要沒有交代硬體、訓練成本、延遲、失敗模式，這些對實作很重要的資訊都沒有公開。對工程端來說，這代表目前看到的是研究方向，不是可以直接拿去部署的完整 recipe。\u003C\u002Fp>\u003Ch2>對開發者有什麼意義\u003C\u002Fh2>\u003Cp>如果你在做 manipulation 系統，這篇最有價值的地方是「重用」。訓練一個穩定的靈巧手策略本來就貴，而每加一個新任務，干擾風險就跟著上升。能夠保留舊技能、再疊上新技能，理論上可以降低重新訓練的成本。\u003C\u002Fp>\u003Cp>finger mask 的設計也很值得注意。它讓組合方式更可解釋。不是只靠網路自己學著不要互撞，而是直接把控制責任分給不同手指。這對 debugging 很有幫助，因為你比較容易看出是哪一部分在維持穩定，哪一部分在推進新任務。\u003C\u002Fp>\u003Cp>但這個方法仍然有前提。它依賴已經訓練好的 full-hand policies，也依賴能夠找到有效的 post-task states 和 release behavior。也就是說，它比較像是「把既有技能組合得更好」，不是「取代技能學習本身」。\u003C\u002Fp>\u003Ch2>限制和還沒回答的問題\u003C\u002Fh2>\u003Cp>摘要沒有說明，這個方法對 pretrained policies 的品質有多敏感。若底層技能本來就不穩，finger-level ownership 是否還能維持效果，摘要裡看不出來。\u003C\u002Fp>\u003Cp>另一個問題是泛化。不同物體、不同 grasp、不同手型，會不會需要不同的 finger masks？摘要沒有提供這方面的資訊。也沒有說明當穩定任務和新任務的衝突更劇烈時，這套方法會不會失效。\u003C\u002Fp>\u003Cp>還有擴展性。這篇摘要描述的是兩個 pretrained policies 的 composition，但真實機器人系統常常不是兩段式，而是更長的技能鏈或分支任務圖。摘要沒有交代這種 ownership 機制能不能平順延伸到更多技能。\u003C\u002Fp>\u003Cp>所以目前最合理的解讀是：DexCompose 提供了一個結構化的組合框架，但它還不是通用解法。它證明的是「分工式組合」這條路值得走，不是已經把所有靈巧手任務都解完了。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>DexCompose 的核心訊息很清楚：靈巧手要做多任務操作，關鍵不只是學得更強，而是把控制空間分得更清楚。它用手指級 action ownership 和兩個不對稱 residual，讓既有技能可以被拿來重組。\u003C\u002Fp>\u003Cp>從摘要能確定的結果來看，這個方法在 16 個 composite tasks 上拿到 77.4% 平均成功率。雖然缺少更完整的 benchmark 細節，但至少說明「技能可組合」不是空想，而是可以被方法化處理的問題。\u003C\u002Fp>\u003Cp>對做機器手、操作控制、技能庫管理的團隊來說，這篇的啟發很直接：與其一直追求單一 policy 包辦全部，不如思考怎麼讓策略之間可以分工、接力、重用。\u003C\u002Fp>\u003Cul>\u003Cli>它把手部控制拆成保留與適應兩種角色。\u003C\u002Fli>\u003Cli>它用 finger masks 和 residual modules 降低任務干擾。\u003C\u002Fli>\u003Cli>摘要只公開平均成功率，沒有完整 benchmark 細節。\u003C\u002Fli>\u003C\u002Ful>","DexCompose 用手指級的動作分工，把已訓練好的靈巧手策略組成多任務操作，並在 16 個任務上達到 77.4% 平均成功率。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.28323",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782712975186-mj1e.png","research","zh","46714aa0-3c43-4154-a9cf-f961865b6109",[17,18,19,20,21],"dexterous manipulation","policy composition","residual learning","finger masks","robotic manipulation",[23,24,25],"用手指級動作分工，降低多任務操作的互相干擾。","透過雙 residual 架構，分開處理保留舊技能與適應新任務。","摘要只公開 77.4% 平均成功率，缺少更完整 benchmark 細節。",0,"2026-06-29T06:02:28.144402+00:00","2026-06-29T06:02:28.127+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":32,"relatedPosts":36},[],{"id":15,"slug":33,"title":34,"language":35},"dexcompose-reuses-dexterous-policies-across-tasks-en","DexCompose Reuses Dexterous Policies Across Tasks","en",[37,43,49,55,61,67],{"id":38,"slug":39,"title":40,"cover_image":41,"image_url":41,"created_at":42,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"c649adb7-c8ae-4ade-a092-2c0d53beeb71","measuring-llm-behavior-portability-zh","LLM 行為不一定可移植","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782717472977-na8g.png","2026-06-29T07:17:29.597679+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"637c3016-e364-4bfe-904e-5e60a18ed678","prompt-injection-ai-security-problem-zh","Prompt injection 已是 AI 資安問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782716580916-m1nm.png","2026-06-29T07:02:36.173749+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"118680f5-6212-4535-986a-50c4a0e71699","solver-choice-nash-equilibrium-selection-zh","求解器會改變納許均衡","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782714784181-t42d.png","2026-06-29T06:32:31.062308+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"f303e5bb-372c-48f6-bfc3-f7a73a1e678b","proper-positive-only-learning-characterization-zh","正向樣本學習的完整界線","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782713880760-9ang.png","2026-06-29T06:17:33.749889+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"b67223ce-e3cb-4161-9df6-b384e364eb87","hawor-hand-motion-mano-params-zh","HaWoR 把手部重建收斂成 MANO","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782705793656-d9q2.png","2026-06-29T04:02:46.420535+00:00",[74,79,84,89,94,99,104,109,114,119],{"id":75,"slug":76,"title":77,"created_at":78},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":80,"slug":81,"title":82,"created_at":83},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]