ART 把微調搬進圖片裡

OraCore Editors

返回首頁

[RSCH] 2026年6月12日6 分鐘閱讀OraCore 編輯部

ART 把微調搬進圖片裡

ART 把凍結的多模態 LLM 微調，改成只優化一張圖片，避開改權重與加 adapter 的部署麻煩。

LoRA parameter-efficient fine-tuning multimodal llm soft prompting pixel-space optimization

分享 LinkedIn

ART 把凍結的多模態 LLM 微調，改成只優化一張圖片，避開改權重與加 adapter 的部署麻煩。

研究機構：University of Stavanger + NORCE Research
核心數據：摘要無公開 benchmark 數字
突破點：單圖像像素微調

這篇論文在做的事很直接：不動模型權重，改訓練輸入圖片本身。對台灣常見的多模態服務場景來說，這種做法的吸引力不在花俏，而在少改系統、少碰 serving pipeline。

作者把這個方法叫 ART。它想解的不是單純準確率問題，而是「怎麼在不破壞高吞吐推理架構的前提下，替凍結的多模態 LLM 做適配」。這個角度很工程，也很實際。

這篇論文想解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

傳統微調大多都要碰模型內部。像 LoRA 要加額外權重，soft prompting 則要處理連續 embedding。這些方法雖然常見，但一旦進到實際部署，常會遇到 serving 上的額外複雜度。

論文點名的問題很明確：高吞吐推理系統通常是為了固定、優化過的執行路徑而設計。像 vLLM 這類系統，最怕的是你臨時要加自訂 graph、動態載入 adapter，或塞進非標準 token。這些都會牽動吞吐、記憶體行為，還有維運成本。

所以 ART 不是想再做一種更大的 adapter，而是想繞開 adapter 這條路。它把「可訓練的東西」放回模型已經存在的影像通道，讓適配資訊跟著圖片走，而不是跟著權重走。

ART 到底怎麼運作

方法核心是 pixel-space parameterization。簡單講，就是把一張圖片視為可訓練參數，然後用梯度下降去更新它的像素值。模型本身保持 frozen，不做權重更新。

因為這張圖會經過 vision transformer 和跨模態投影層，所以語言目標的梯度可以一路回傳到圖片本身。這讓圖片變成一種可微分的 prompt，但它不是文字，也不是虛擬 token，而是實際存在的像素陣列。

論文描述的訓練流程帶有 reinforcement-style 的味道：先 rollout，再做 advantage estimation，接著 policy clipping，最後反向更新。作者也提到，他們實作上使用 DAPO，也就是一種近期的 GRPO 變體，但理論上其他可微分目標也能替換。

這點很重要，因為它代表 ART 的設計不只綁一種 loss。只要目標函數能產生梯度，理論上就能走同一條圖片優化路徑。對研究者來說，這是方法彈性；對工程師來說，這是整合空間。

為什麼它看起來像一張圖，卻像在存知識

ART 產生的圖片不是純雜訊。論文說，這些圖可以被做成有主題的「computational artworks」，像是數學書、腦袋、工具之類的 seed 圖。只是這些外觀之上，還會疊上高頻率的任務特徵。

作者甚至把這種現象形容成 AI 的 steganography。也就是說，圖片同時扮演兩種角色：表面上是視覺物件，底下則承載了微調資訊。論文還提到，可以用無損 PNG 檔案大小的增加，當成一種資訊量的 proxy。

對開發者來說，這個觀點很有意思。因為它把「學到的東西」外部化成一個圖片檔，而不是藏在一堆額外權重裡。只要你的多模態服務本來就能吃圖片，這張圖就能沿著正常 request pipeline 進去，不需要特別改模型結構。

論文實際證明了什麼

摘要寫得很清楚：作者把 ART 測在不同大小的開源 Qwen 架構上，並且用了幾個文字型 benchmark。這些 benchmark 包含 GSM8K、GPQA 與 ToolMind。前者偏小學數學，後兩者分別對應研究生級問答與結構化工具使用。

論文主張，ART 在數學與結構化工具使用任務上，能達到和 LoRA 競爭的準確率。它也說明了哪些任務會落後。不過，摘要沒有公開完整 benchmark 數字，所以不能從這份 raw 資料直接引用具體分數或表格。

作者還把 ART 拿去跟幾種基線比，包括提升推理的其他圖像嘗試、隨機圖片控制，以及 LoRA 權重微調。這個比較很關鍵，因為它顯示效果不是來自「有用圖片」這件事本身，而是來自被優化過的 ART 圖片。

另外，論文也強調方法和 fine-tuning objective 的相容性。因為它是沿著像素與視覺路徑做反向傳播，所以作者把它描述成可搭配任何 fine-tuning objective 的方法。這個說法很廣，但摘要沒有進一步把邊界條件講細。

對開發者有什麼影響

如果你在做多模態系統，ART 最大的賣點是部署比較乾淨。它的目標不是讓模型內部多一層複雜邏輯，而是讓 fine-tuned prompt 看起來就像一個普通的多模態請求。這對 serving 端很友善。

這種設計特別適合在乎吞吐和穩定性的環境。比起需要 adapter 特殊管理、權重切換或自訂 token injection 的方法，一張圖片更容易被路由、快取和服務。至少在系統設計上，它少碰了很多麻煩點。

更大的意義是，這篇論文把多模態模型的視覺通道，變成一個可控的適配介面。以前視覺輸入多半是拿來做感知；這裡則是直接拿來承載任務行為。這會讓 PEFT 的設計空間變得不太一樣。

限制在哪裡

先講最直接的限制：摘要沒有公開 benchmark 數字，所以你無法只靠這份資料判斷 ART 到底比 LoRA 好多少，或差多少。論文雖然說有競爭力，但缺少完整數據，實務上還是要看全文。

第二個限制是，摘要只說有些任務落後，沒有明講是哪些任務、落後幅度多大。這對做產品決策的人很重要，因為你會想知道它是不是只適合某類任務，而不是泛用解法。

第三個問題是穩健性。既然 learned state 被放進圖片裡，那它對 resize、壓縮、前處理、或多模態管線變動有多敏感，這些都值得追問。摘要沒有直接回答，只能看出作者很在意標準 request handling，但細節仍不足。

最後，ART 只對有可用視覺路徑的多模態模型有意義。它不是文字模型的直接替代方案，也不是所有任務都能套。它的價值，取決於架構本身，以及你的任務能不能被表達成影像通道的適配問題。

結論

ART 的重點不是把微調變得更炫，而是把微調搬到一個更好部署的位置。它把凍結模型的適配，從權重空間移到像素空間，這個想法很怪，但也很務實。

如果你關心的是多模態模型怎麼在既有 serving 架構裡跑得順，這篇論文值得看。它不是在追求一種新參數量化技巧，而是在問：可不可以只改一張圖，就讓模型學到任務行為。

從研究角度看，這是個很有系統味的 PEFT 方向；從工程角度看，則是一個試圖降低部署摩擦的替代方案。摘要沒有給足數字，但方法本身已經很有辨識度。

ART 把凍結的多模態 LLM 微調，改成只優化一張圖片。
它主要想解決 LoRA、soft prompting 在部署上的額外複雜度。
摘要主張它在數學與工具使用任務上可與 LoRA 競爭，但沒有公開完整數字。

// 相關文章

ART 把微調搬進圖片裡

這篇論文想解什麼痛點

訂閱 AI 趨勢週報

ART 到底怎麼運作

為什麼它看起來像一張圖，卻像在存知識

論文實際證明了什麼

對開發者有什麼影響

限制在哪裡

結論

Project Glasswing 揭露 Mythos 會串漏洞

Mana把工具操作改寫成動畫

RA-RFT 讓模型學會類比推理

EvoArena：測 LLM 代理在變動世界的記憶力

LLM 寫 TLA+ 還不夠準

多語指令微調，LoRA 夠用了