[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-art-fine-tunes-multimodal-llms-through-images-zh":3,"article-related-art-fine-tunes-multimodal-llms-through-images-zh":31,"series-research-eeec4435-6270-4f2a-afae-f309ce6064e9":85},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"eeec4435-6270-4f2a-afae-f309ce6064e9","art-fine-tunes-multimodal-llms-through-images-zh","ART 把微調搬進圖片裡","\u003Cp data-speakable=\"summary\">ART 把凍結的多模態 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 微調，改成只優化一張圖片，避開改權重與加 adapter 的\u003Ca href=\"\u002Fnews\u002Fanthropic-tcs-claude-enterprise-deployments-zh\">部署\u003C\u002Fa>麻煩。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：University of Stavanger + NORCE Research\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：單圖像像素微調\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文在做的事很直接：不動模型權重，改訓練輸入圖片本身。對台灣常見的多模態服務場景來說，這種做法的吸引力不在花俏，而在少改系統、少碰 serving pipeline。\u003C\u002Fp>\u003Cp>作者把這個方法叫 ART。它想解的不是單純準確率問題，而是「怎麼在不破壞高吞吐推理架構的前提下，替凍結的多模態 LLM 做適配」。這個角度很工程，也很實際。\u003C\u002Fp>\u003Ch2>這篇論文想解什麼痛點\u003C\u002Fh2>\u003Cp>傳統微調大多都要碰模型內部。像 LoRA 要加額外權重，soft prompting 則要處理連續 embedding。這些方法雖然常見，但一旦進到實際部署，常會遇到 serving 上的額外複雜度。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781234274416-5iek.png\" alt=\"ART 把微調搬進圖片裡\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>論文點名的問題很明確：高吞吐推理系統通常是為了固定、優化過的執行路徑而設計。像 \u003Ca href=\"\u002Ftag\u002Fvllm\">vLLM\u003C\u002Fa> 這類系統，最怕的是你臨時要加自訂 graph、動態載入 adapter，或塞進非標準 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa>。這些都會牽動吞吐、記憶體行為，還有維運成本。\u003C\u002Fp>\u003Cp>所以 ART 不是想再做一種更大的 adapter，而是想繞開 adapter 這條路。它把「可訓練的東西」放回模型已經存在的影像通道，讓適配資訊跟著圖片走，而不是跟著權重走。\u003C\u002Fp>\u003Ch2>ART 到底怎麼運作\u003C\u002Fh2>\u003Cp>方法核心是 pixel-space parameterization。簡單講，就是把一張圖片視為可訓練參數，然後用梯度下降去更新它的像素值。模型本身保持 frozen，不做權重更新。\u003C\u002Fp>\u003Cp>因為這張圖會經過 vision transformer 和跨模態投影層，所以語言目標的梯度可以一路回傳到圖片本身。這讓圖片變成一種可微分的 prompt，但它不是文字，也不是虛擬 token，而是實際存在的像素陣列。\u003C\u002Fp>\u003Cp>論文描述的訓練流程帶有 reinforcement-style 的味道：先 rollout，再做 advantage estimation，接著 policy clipping，最後反向更新。作者也提到，他們實作上使用 DAPO，也就是一種近期的 GRPO 變體，但理論上其他可微分目標也能替換。\u003C\u002Fp>\u003Cp>這點很重要，因為它代表 ART 的設計不只綁一種 loss。只要目標函數能產生梯度，理論上就能走同一條圖片優化路徑。對研究者來說，這是方法彈性；對工程師來說，這是整合空間。\u003C\u002Fp>\u003Ch2>為什麼它看起來像一張圖，卻像在存知識\u003C\u002Fh2>\u003Cp>ART 產生的圖片不是純雜訊。論文說，這些圖可以被做成有主題的「computational artworks」，像是數學書、腦袋、工具之類的 seed 圖。只是這些外觀之上，還會疊上高頻率的任務特徵。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781234275023-knac.png\" alt=\"ART 把微調搬進圖片裡\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>作者甚至把這種現象形容成 AI 的 steganography。也就是說，圖片同時扮演兩種角色：表面上是視覺物件，底下則承載了微調資訊。論文還提到，可以用無損 PNG 檔案大小的增加，當成一種資訊量的 proxy。\u003C\u002Fp>\u003Cp>對開發者來說，這個觀點很有意思。因為它把「學到的東西」外部化成一個圖片檔，而不是藏在一堆額外權重裡。只要你的多模態服務本來就能吃圖片，這張圖就能沿著正常 request pipeline 進去，不需要特別改模型結構。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要寫得很清楚：作者把 ART 測在不同大小的開源 \u003Ca href=\"\u002Ftag\u002Fqwen\">Qwen\u003C\u002Fa> 架構上，並且用了幾個文字型 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>。這些 benchmark 包含 GSM8K、GPQA 與 ToolMind。前者偏小學數學，後兩者分別對應研究生級問答與結構化工具使用。\u003C\u002Fp>\u003Cp>論文主張，ART 在數學與結構化工具使用任務上，能達到和 LoRA 競爭的準確率。它也說明了哪些任務會落後。不過，摘要沒有公開完整 benchmark 數字，所以不能從這份 raw 資料直接引用具體分數或表格。\u003C\u002Fp>\u003Cp>作者還把 ART 拿去跟幾種基線比，包括提升推理的其他圖像嘗試、隨機圖片控制，以及 LoRA 權重微調。這個比較很關鍵，因為它顯示效果不是來自「有用圖片」這件事本身，而是來自被優化過的 ART 圖片。\u003C\u002Fp>\u003Cp>另外，論文也強調方法和 fine-tuning objective 的相容性。因為它是沿著像素與視覺路徑做反向傳播，所以作者把它描述成可搭配任何 fine-tuning objective 的方法。這個說法很廣，但摘要沒有進一步把邊界條件講細。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做多模態系統，ART 最大的賣點是部署比較乾淨。它的目標不是讓模型內部多一層複雜邏輯，而是讓 fine-tuned prompt 看起來就像一個普通的多模態請求。這對 serving 端很友善。\u003C\u002Fp>\u003Cp>這種設計特別適合在乎吞吐和穩定性的環境。比起需要 adapter 特殊管理、權重切換或自訂 token injection 的方法，一張圖片更容易被路由、快取和服務。至少在系統設計上，它少碰了很多麻煩點。\u003C\u002Fp>\u003Cp>更大的意義是，這篇論文把多模態模型的視覺通道，變成一個可控的適配介面。以前視覺輸入多半是拿來做感知；這裡則是直接拿來承載任務行為。這會讓 PEFT 的設計空間變得不太一樣。\u003C\u002Fp>\u003Ch2>限制在哪裡\u003C\u002Fh2>\u003Cp>先講最直接的限制：摘要沒有公開 benchmark 數字，所以你無法只靠這份資料判斷 ART 到底比 LoRA 好多少，或差多少。論文雖然說有競爭力，但缺少完整數據，實務上還是要看全文。\u003C\u002Fp>\u003Cp>第二個限制是，摘要只說有些任務落後，沒有明講是哪些任務、落後幅度多大。這對做產品決策的人很重要，因為你會想知道它是不是只適合某類任務，而不是泛用解法。\u003C\u002Fp>\u003Cp>第三個問題是穩健性。既然 learned state 被放進圖片裡，那它對 resize、壓縮、前處理、或多模態管線變動有多敏感，這些都值得追問。摘要沒有直接回答，只能看出作者很在意標準 request handling，但細節仍不足。\u003C\u002Fp>\u003Cp>最後，ART 只對有可用視覺路徑的多模態模型有意義。它不是文字模型的直接替代\u003Ca href=\"\u002Fnews\u002Fmidjourney-pricing-guide-2026-plans-costs-zh\">方案\u003C\u002Fa>，也不是所有任務都能套。它的價值，取決於架構本身，以及你的任務能不能被表達成影像通道的適配問題。\u003C\u002Fp>\u003Ch2>結論\u003C\u002Fh2>\u003Cp>ART 的重點不是把微調變得更炫，而是把微調搬到一個更好部署的位置。它把凍結模型的適配，從權重空間移到像素空間，這個想法很怪，但也很務實。\u003C\u002Fp>\u003Cp>如果你關心的是多模態模型怎麼在既有 serving 架構裡跑得順，這篇論文值得看。它不是在追求一種新參數量化技巧，而是在問：可不可以只改一張圖，就讓模型學到任務行為。\u003C\u002Fp>\u003Cp>從研究角度看，這是個很有系統味的 PEFT 方向；從工程角度看，則是一個試圖降低部署摩擦的替代方案。摘要沒有給足數字，但方法本身已經很有\u003Ca href=\"\u002Fnews\u002Ffine-tune-slm-emotion-recognition-zh\">辨識\u003C\u002Fa>度。\u003C\u002Fp>\u003Cul>\u003Cli>ART 把凍結的多模態 LLM 微調，改成只優化一張圖片。\u003C\u002Fli>\u003Cli>它主要想解決 LoRA、soft prompting 在部署上的額外複雜度。\u003C\u002Fli>\u003Cli>摘要主張它在數學與工具使用任務上可與 LoRA 競爭，但沒有公開完整數字。\u003C\u002Fli>\u003C\u002Ful>","ART 把凍結的多模態 LLM 微調，改成只優化一張圖片，避開改權重與加 adapter 的部署麻煩。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fhtml\u002F2606.11854",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781234274416-5iek.png","research","zh","e78898e3-584f-48ec-b86f-474a7bfa2533",[17,18,19,20,21,22],"multimodal LLM","parameter-efficient fine-tuning","pixel-space optimization","LoRA","soft prompting","Qwen",[24,25,26],"把微調從權重空間搬到像素空間，模型本身保持 frozen。","適合想減少 adapter 管理與 serving 複雜度的多模態部署場景。","摘要宣稱可與 LoRA 競爭，但沒有公開完整 benchmark 數字。",2,"2026-06-12T03:17:26.810233+00:00","2026-06-12T03:17:26.806+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":44,"relatedPosts":48},[33,35,37,40,42],{"name":20,"slug":34},"lora",{"name":18,"slug":36},"parameter-efficient-fine-tuning",{"name":38,"slug":39},"multimodal llm","multimodal-llm",{"name":21,"slug":41},"soft-prompting",{"name":19,"slug":43},"pixel-space-optimization",{"id":15,"slug":45,"title":46,"language":47},"art-fine-tunes-multimodal-llms-through-images-en","ART fine-tunes multimodal LLMs through images","en",[49,55,61,67,73,79],{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"e08b8946-29a0-486a-b2c1-b23faf16b441","taxonomy-rwa-tokenization-blockchain-infrastructure-zh","RWA 代幣化的 23 維分類法","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781259482592-9fiv.png","2026-06-12T10:17:30.417901+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"34681ebb-0d9d-4988-822a-45b6e5ad46d6","2026-llm-paper-lists-better-than-feeds-zh","2026 年的 LLM 論文清單，比資訊流更適合做研究","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781258570660-0l2n.png","2026-06-12T10:02:16.438561+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"8a06c20a-c2d6-4cb0-a35c-69eab7f7f89a","anthropic-ai-building-ai-recursive-self-improvement-zh","Anthropic 自己的數據已經證明：AI 正在幫 AI 進步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781257685705-1m6f.png","2026-06-12T09:47:24.801004+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"29143a1b-a610-4674-96a5-e3b1695350bd","project-glasswing-mythos-bug-chaining-zh","Project Glasswing 揭露 Mythos 會串漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781254982476-voas.png","2026-06-12T09:02:32.008908+00:00",{"id":74,"slug":75,"title":76,"cover_image":77,"image_url":77,"created_at":78,"category":13},"ba442703-edfa-4353-b256-db502d94a99e","mana-articulated-tool-manipulation-animation-zh","Mana把工具操作改寫成動畫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781246882933-bvjm.png","2026-06-12T06:47:29.612828+00:00",{"id":80,"slug":81,"title":82,"cover_image":83,"image_url":83,"created_at":84,"category":13},"6911e614-4894-4f1f-a0ad-816e323793ef","retrieval-augmented-reinforcement-fine-tuning-analogy-zh","RA-RFT 讓模型學會類比推理","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245983485-miul.png","2026-06-12T06:32:27.726554+00:00",[86,91,96,101,106,111,116,121,126,131],{"id":87,"slug":88,"title":89,"created_at":90},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":92,"slug":93,"title":94,"created_at":95},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":97,"slug":98,"title":99,"created_at":100},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":102,"slug":103,"title":104,"created_at":105},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":107,"slug":108,"title":109,"created_at":110},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":112,"slug":113,"title":114,"created_at":115},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":117,"slug":118,"title":119,"created_at":120},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":122,"slug":123,"title":124,"created_at":125},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":127,"slug":128,"title":129,"created_at":130},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":132,"slug":133,"title":134,"created_at":135},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]