ProtoAda 用格式原型減少多模態漂移

OraCore Editors

返回首頁

[RSCH] 2026年6月2日6 分鐘閱讀OraCore 編輯部

ProtoAda 用格式原型減少多模態漂移

ProtoAda 用格式感知原型與幾何式整合，降低多模態持續指令微調中的任務干擾，特別針對答案格式容易被後續訓練扭曲的情況。

task routing prototype learning multimodal continual learning adapter expansion instruction tuning

分享 LinkedIn

ProtoAda 用格式感知原型減少多模態持續指令微調中的任務干擾。

研究機構：arXiv 摘要未明確標註
核心數據：摘要無公開 benchmark 數字
突破點：格式原型加幾何整合

ProtoAda: Prototype-Guided Adaptive Adapter Expansion and Geometric Consolidation for Multimodal Continual Instruction Tuning 這篇在處理一個很實際的問題：多模態模型不是訓練一次就結束。當你持續加入新任務，舊能力常常不是真的被忘掉，而是被後來的學習帶歪，尤其是答案格式會先壞掉。

這種問題在多模態系統裡很常見。模型看起來還懂圖文語意，但輸出型態已經亂了。原本要回座標，後面卻偏成短句；原本要維持結構化輸出，結果被其他任務的學習訊號沖掉。ProtoAda 想修的，就是這種「語意像，但格式不一樣」造成的持續微調漂移。

它到底在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這篇論文聚焦的是 Multimodal Continual Instruction Tuning，簡稱 MCIT。白話講，就是多模態大模型在實際部署後，還要一直學新能力，但不能把舊能力弄壞。這跟一次性 instruction tuning 不一樣，因為真實系統會一直追加新任務、新資料、新輸出型態。

摘要指出，近期一些方法會用稀疏架構來減少任務干擾，例如把 LoRA expert 做成 Mixture of LoRA Experts，再搭配 image-text similarity routing。問題是，語意相近不代表輸出格式相近。兩個任務都可能看同一張圖、讀同一段文字，但一個要回座標，一個要回簡答，處理方式其實不同。

ProtoAda 要解的，就是這種格式盲派工。摘要把它描述成 format-blind task assignment。當路由只看圖文相似度，就很容易把不同輸出型態的任務混在一起，最後造成梯度互相干擾，專家之間也難以協作。

這不是單純的準確率問題，而是行為結構被改寫。對開發者來說，這種 bug 很難排查，因為模型不一定整體退化，只是某些任務開始「答得不像原本那樣」。

ProtoAda 的方法怎麼運作

ProtoAda 的核心是 prototype-guided adaptive tuning。它不是只靠任務語意來決定要把更新送去哪個 adapter，而是把「答案格式」也納入考量。摘要提到它引入 format-aware task prototypes，讓任務表示同時捕捉語意與輸出結構。

這個設計的重點在路由。若兩個任務在語意上接近，但結構上不同，ProtoAda 就希望不要因為表面相似而把它們塞進同一個 expert。換句話說，它想讓模型知道：看起來像，不代表應該一起學。

第二個關鍵是 geometric consolidation。摘要寫得很直接：ProtoAda 會以 geometry-aware 的方式整合格式相容的更新，讓既有參數可以被重用，並逐步精煉。白話來說，就是把能夠共存的更新合在一起，但避免不同任務的參數彼此撞車。

如果把整個方法拆成工程語言，可以理解成兩層保護。第一層是更細的派工，避免錯配。第二層是更新合併時的幾何約束，避免學習訊號互相蓋掉。這樣一來，模型在持續學新任務時，比較不會把舊任務的輸出形狀弄壞。

這也解釋了為什麼標題裡會同時出現 adaptive adapter expansion 和 geometric consolidation。前者是擴充，後者是收斂；一個負責接新東西，一個負責別把舊東西拆掉。

論文實際證明了什麼

摘要說作者做了多個 benchmark 的大量實驗，結果顯示 ProtoAda 表現更好。它特別強調，當任務的答案結構容易被 sequential tuning 損壞時，提升會更明顯。

這句話很重要，因為它說明這個方法不是對所有任務平均有效，而是對「格式容易被污染」的場景特別有用。也就是說，它不是在宣稱萬用神器，而是在處理一種很具體、很棘手的持續學習失真。

不過，摘要沒有公開 benchmark 名稱，也沒有數字。沒有列出分數、沒有列出提升幅度、也沒有提供 ablation 或效率開銷。所以就摘要層級來看，我們只能確定它主張更好，不能替它補上具體 benchmark 成績。

這不代表方法沒價值。反而表示這篇論文的重點不在「我刷了多少分」，而在「我怎麼避免多模態持續微調把輸出格式學歪」。對研究和產品團隊來說，這種問題往往比單次分數更接近真實痛點。

對開發者有什麼影響

如果你在做會持續更新的多模態系統，這篇論文其實是在提醒一件事：模型退化不一定是忘記知識，也可能是學錯了輸出格式。這種失真比一般 accuracy 掉分更麻煩，因為它常常只影響特定任務，而且表面上還像是「模型大致懂了」。

ProtoAda 的觀點很實用。它把 answer format 拉到跟 semantic similarity 同等重要的位置。對工程實作來說，這意味著路由策略不能只看圖文內容像不像，還要看任務輸出是不是同一類型。若你同時處理 grounding、VQA 或其他多模態指令任務，這個差異會直接影響穩定性。

另一個值得注意的點，是稀疏 expert 架構不一定天然就能隔離任務。摘要反而指出，路由策略本身也可能變成干擾來源。如果 routing 的依據太粗，就算你有很多 expert，最後還是會把不該混的更新混在一起。

所以這篇論文給開發者的訊號很明確：持續學習不是只有「加新能力」這件事，還有「保住舊輸出形狀」這件事。尤其在多模態系統裡，輸出格式本身就是產品行為的一部分。

限制與還沒回答的問題

摘要的問題也很明顯。它沒有交代 benchmark 名稱、模型規模、提升幅度，也沒有說訓練或推理成本會不會增加。這些都是實作時一定會問的問題，但摘要沒有給答案。

另外，format-aware prototypes 到底怎麼建，摘要也沒講清楚。它如何跨不同多模態任務泛化、對噪聲任務定義敏不敏感、幾何整合的數學形式是什麼，這些都還要看正文才能知道。對團隊來說，這些細節會決定它是能直接接進訓練管線，還是只能停在研究 demo。

但就 abstract 能提供的訊息來看，ProtoAda 已經把問題框得很清楚：多模態持續微調的風險，不只是遺忘，而是格式漂移。當任務看起來相似，模型不一定真的該共用同一套更新。這篇論文就是在把這件事變成可操作的方法。

如果你在做長期迭代的 multimodal assistant、agent 系統，或專門型 vision-language 工具，這個方向值得注意。它提醒我們，適應新任務不只是塞新知識，還要守住舊行為的形狀。對持續學習來說，這可能就是穩定和失控的分界線。

ProtoAda 把答案格式納入任務路由，不只看語意相似度。
摘要主張多個 benchmark 表現更好，但沒有公開數字。
它特別針對 sequential tuning 容易破壞輸出結構的任務。

// 相關文章

ProtoAda 用格式原型減少多模態漂移

它到底在解什麼痛點

訂閱 AI 趨勢週報

ProtoAda 的方法怎麼運作

論文實際證明了什麼

對開發者有什麼影響

限制與還沒回答的問題

Agentopia：把代理社會拉長到10年

LLM 在反直覺機率題翻車

Bento 把 Wasm 記憶體切成隔間

BIS 把穩定幣規則變成可用緩衝

如何防止 LLM 微調災難性遺忘

Code2LoRA 讓模型學會倉庫脈絡