[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-danceopd-on-policy-generative-field-distillation-zh":3,"article-related-danceopd-on-policy-generative-field-distillation-zh":30,"series-research-cd38b72e-b309-493d-b36f-684745ff5f7e":73},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"cd38b72e-b309-493d-b36f-684745ff5f7e","danceopd-on-policy-generative-field-distillation-zh","DanceOPD：把修圖技能蒸餾進同一模型","\u003Cp data-speakable=\"summary\">DanceOPD 用 on-policy 蒸餾，把文生圖與編輯能力放進同一個 flow-matching 模型，減少彼此互相干擾。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：路由到單一能力場\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文想解的，是影像生成裡很常見、也很煩的問題：你把文生圖、局部編輯、全域編輯塞進同一個模型後，能力常常不是相加，而是互撞。DanceOPD 的主張很直接，不是再做一個更大的模型，而是改訓練方式，讓不同能力能在同一條生成軌跡裡共存。\u003C\u002Fp>\u003Cp>論文標題是 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.27377\">DanceOPD: On-Policy Generative Field Distillation\u003C\u002Fa>。從摘要來看，它不是在談一個單點技巧，而是在談一套蒸餾框架。核心目標是把多種影像能力，整理成同一個 flow-matching 模型可以學的「場」，而不是彼此打架的獨立任務。\u003C\u002Fp>\u003Ch2>這篇在修什麼痛點\u003C\u002Fh2>\u003Cp>摘要先點出一個很現實的訓練失敗模式：文生圖、局部編輯、全域編輯雖然都重要，但它們不天然對齊。當你強化其中一種能力時，另一種能力可能就被拖下水。這不是小瑕疵，而是多功能影像模型最核心的\u003Ca href=\"\u002Fnews\u002Fqualcomm-soft-hard-escape-cuda-zh\">整合\u003C\u002Fa>難題。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782453784592-x1gk.png\" alt=\"DanceOPD：把修圖技能蒸餾進同一模型\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對開發者來說，這種衝突很熟悉。單看 demo，每個功能都可能還不錯；但一旦把它們放進同一個 backbone，模型就開始顧此失彼。結果就是，你想做的是「一個模型包辦所有影像操作」，最後卻變成「一個模型，三種互相干擾的行為」。\u003C\u002Fp>\u003Cp>DanceOPD 的切入點，是把這些能力看成共享 flow state space 裡的不同 velocity field。白話一點，就是不把它們當成互斥的模組，而是當成同一條生成過程中的不同控制方式。這樣的想法，目標是讓能力共存，而不是讓它們輪流搶方向盤。\u003C\u002Fp>\u003Ch2>方法到底怎麼做\u003C\u002Fh2>\u003Cp>摘要把方法定義成一個 on-policy generative field distillation framework，對象是 flow-matching 模型。關鍵詞是 on-policy。它的意思不是拿一堆隨便的狀態來訓練學生，而是讓學生從自己 rollout 真的走到的狀態出發，再去對應教師的能力場。\u003C\u002Fp>\u003Cp>這一點很重要。很多蒸餾問題的麻煩，不在於老師不夠強，而在於老師看到的狀態，跟學生實際會走到的狀態不一樣。DanceOPD 想縮小的，就是這個 mismatch。它讓每個樣本先被路由到某個能力場，再在低噪聲的 student-induced state 上取樣訓練，最後用簡單的 velocity MSE 目標來學。\u003C\u002Fp>\u003Cp>如果用工程角度看，這像是把訓練資料的來源，從「理想路徑」改成「模型自己真的會走的路徑」。這種設計的價值，不在於把 loss 弄得更花俏，而在於讓學生學到的東西，更貼近它推理時真正會碰到的狀況。\u003C\u002Fp>\u003Cp>摘要還提到，每個能力來源都被定義成 shared flow state space 裡的一個 velocity field。這代表文生圖、編輯、以及其他操作，不是各自獨立的黑盒，而是可以用同一套語言來描述。對做影像系統的人來說，這比「加一個 \u003Ca href=\"\u002Fnews\u002Fheadroom-token-compression-mcp-tool-zh\">head\u003C\u002Fa>、再加一個 head」更像是在建立統一的控制層。\u003C\u002Fp>\u003Cp>另外，摘要也說這個 formulation 能吸收 operator-defined fields，例如 classifier-free guidance。也就是說，它不只處理摘要裡點名的幾種能力，還想把外部定義的操作場一起納入同一套蒸餾框架。這讓方法看起來比較像一個通用的 flow-matching 訓練接口，而不是只針對某個單一任務的技巧。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要提到，作者做了涵蓋文生圖、編輯、realism-field absorption，以及 classifier-free guidance absorption 的完整實驗。這個測試面向算是有對到方法主張，因為它同時看主能力，也看框架是否真的能吸收外部操作場。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782453784144-hj0p.png\" alt=\"DanceOPD：把修圖技能蒸餾進同一模型\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但要注意，摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 細節。沒有分數、沒有百分比、也沒有吞吐量數字，所以這裡不能硬編結果。就摘要能支持的範圍來看，作者的結論是：這個方法能改善多能力組合，增強目標能力，並且保住 anchor generation quality。\u003C\u002Fp>\u003Cp>這裡的 anchor generation quality 很關鍵。影像模型常見的問題是，當你把新能力加進去，原本最穩的\u003Ca href=\"\u002Fnews\u002Fmoneygram-solana-validator-infrastructure-not-marketing-zh\">基礎\u003C\u002Fa>生成反而退步。也就是說，模型會學會修圖，卻忘了怎麼穩定生圖。DanceOPD 的主張，是它比對照方法更能避免這種「加功能、掉底盤」的狀況。\u003C\u002Fp>\u003Cp>所以，這篇論文真正證明的，不是某個排行榜上的大勝，而是訓練路徑可以被重新設計，讓多種影像能力在同一模型裡比較不容易互相毀掉。對研究來說，這是方法論上的訊號；對產品來說，這是可整合性的訊號。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做影像工具，這篇的價值很直白。使用者不想下載三個模型，分別處理生成、局部修補、全域改寫，還要再學一套 guidance 技巧。他們想要的是一個模型，能根據指令切換行為，而且不要一切換就崩。\u003C\u002Fp>\u003Cp>DanceOPD 的方向，正是把這個整合問題搬回訓練階段處理。它不是先假設架構一定要更大，而是先處理「模型怎麼學」這件事。很多時候，真正的瓶頸不是參數不夠，而是模型在訓練時看到的狀態分佈，跟推理時的真實軌跡不一致。\u003C\u002Fp>\u003Cp>這也提醒一個常被忽略的事：多能力模型的問題，可能不是某個能力單獨不夠強，而是整體訓練分佈不對。當不同能力互相干擾時，修補方式不一定是再疊更多資料，而是要讓蒸餾與路由方式更貼近模型實際生成的過程。\u003C\u002Fp>\u003Cp>對 flow-matching 系統來說，這篇的訊息尤其明確。它不是提供一個通用的「任何生成模型都適用」答案，而是針對 flow-matching 架構提出一種更適合多能力組合的訓練法。如果你正在做這類系統，這種 on-policy 思路值得放進設計清單。\u003C\u002Fp>\u003Ch2>限制與還沒回答完的問題\u003C\u002Fh2>\u003Cp>先講最明顯的限制：我們目前只有摘要，沒有完整 benchmark 數字。這代表你可以判斷它的方法方向，但還不能從這份 raw 資料裡看出它到底贏多少、在哪些資料集上贏、或是哪些情境下效果最好。\u003C\u002Fp>\u003Cp>第二個限制是適用範圍。摘要明確把方法放在 flow-matching models 的脈絡裡，所以它是否能直接搬到其他生成範式，來源沒有給足證據。這種訓練設計通常很吃架構前提，不能看到「蒸餾」兩個字就想當成萬用模板。\u003C\u002Fp>\u003Cp>第三個是實作複雜度。摘要說 loss 很簡單，用 velocity MSE 就能訓練，但簡單的目標函數，不代表整個訓練流程就簡單。像 sample routing、能力場管理、以及低噪聲 student-induced state 的處理，都可能在實務上增加工程成本。這些細節，摘要沒有展開。\u003C\u002Fp>\u003Cp>換句話說，DanceOPD 目前比較像是一個把問題重新定義好的方法：它把多能力影像生成的衝突，從「模型本身不夠強」改寫成「訓練與路由方式不對」。這種改寫很有價值，但它的實際落地成本與收益幅度，還要看完整論文與後續實作。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>DanceOPD 想證明的是：同一個影像模型可以同時學文生圖與編輯能力，但前提是訓練方式要改。它用 on-policy generative field distillation，把學生拉回自己真正會走的 rollout 狀態，再去對齊對應的能力場，目標是減少能力互撞。\u003C\u002Fp>\u003Cp>對開發者來說，這篇的重點不是「數字有多漂亮」，因為摘要沒有公開完整 benchmark。重點是，它提供了一個很實際的方向：如果你想做統一影像模型，蒸餾怎麼做、樣本怎麼路由，可能跟架構本身一樣重要。\u003C\u002Fp>\u003Cp>這類方法如果證實可行，會直接影響未來影像系統的設計方式。不是每個功能都拆成獨立模型，而是把能力當成共享生成場的一部分來管理。這正是 DanceOPD 想推的方向。\u003C\u002Fp>","DanceOPD 用 on-policy 蒸餾，把文生圖與編輯能力放進同一個 flow-matching 模型，減少彼此互相干擾。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.27377",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782453784592-x1gk.png","research","zh","696a4c45-6c7b-4a78-a947-2dee1ddc4a58",[17,18,19,20,21],"flow-matching","image editing","on-policy distillation","velocity field","classifier-free guidance",[23,24,25],"用 on-policy 蒸餾減少訓練分佈和推理軌跡的落差","把文生圖與編輯能力放進共享 flow state space","摘要未公開完整 benchmark 數字，效果細節仍要看正文",1,"2026-06-26T06:02:33.123618+00:00","2026-06-26T06:02:33.114+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":32,"relatedPosts":36},[],{"id":15,"slug":33,"title":34,"language":35},"danceopd-on-policy-generative-field-distillation-en","DanceOPD distills image-editing skills into one model","en",[37,43,49,55,61,67],{"id":38,"slug":39,"title":40,"cover_image":41,"image_url":41,"created_at":42,"category":13},"cd8b1802-2094-4f5c-89a9-230680124777","mistral-ocr-4-document-ai-structure-zh","Mistral OCR 4 把文件變結構化資料","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782468184906-6p2v.png","2026-06-26T10:02:37.422252+00:00",{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"a90ab5b6-f647-4cef-85af-35ff7bb21a93","autoregressive-boltzmann-generators-ditch-flows-zh","ArBG 改用自回歸做分子採樣","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782455577323-vrvt.png","2026-06-26T06:32:30.056363+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"93b19c63-dbfd-4277-92b5-b5a60946fd65","river-llm-reinforcement-learning-without-answers-zh","RiVER 讓 LLM 不靠標準答案也能學","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782454671897-i8l3.png","2026-06-26T06:17:26.979468+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"af1a155b-d8e6-4575-a014-959aef283098","microsoft-ai-team-collaboration-cfp-2026-zh","Microsoft 砸錢研究團隊協作 AI","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782415981776-jikr.png","2026-06-25T19:32:33.155576+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"2cc1973d-a7a5-4031-8ed3-e05ca5d335fd","ai-papers-code-music-rare-disease-zh","3 篇 AI 論文：程式、音樂、罕病診斷","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782372792462-buxp.png","2026-06-25T07:32:27.274897+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"f9ec6d6f-80a9-4a8e-b3ea-1eb5231aa796","new-nlp-papers-agent-memory-tool-use-zh","新 NLP 論文盯上代理記憶與工具使用","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782371888802-40t8.png","2026-06-25T07:17:39.070441+00:00",[74,79,84,89,94,99,104,109,114,119],{"id":75,"slug":76,"title":77,"created_at":78},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":80,"slug":81,"title":82,"created_at":83},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]