[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-art-fine-tunes-multimodal-llms-via-pixels-zh":3,"article-related-art-fine-tunes-multimodal-llms-via-pixels-zh":30,"series-research-59cf2061-712e-4a92-b3a7-5bdd8644c5a6":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"59cf2061-712e-4a92-b3a7-5bdd8644c5a6","art-fine-tunes-multimodal-llms-via-pixels-zh","用像素微調多模態 LLM","\u003Cp data-speakable=\"summary\">ART 用一張可訓練圖片，讓凍結的多模態 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 不改權重也能做任務微調。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：University of Stavanger + NORCE Research\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：用像素當適配器\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fhtml\u002F2606.11854v1\">ART：Art-based Reinforcement Training\u003C\u002Fa> 想解的問題很直接：多模態模型越來越常進到實際服務環境，但常見的參數高效率微調方法，像 \u003Ca href=\"\u002Fnews\u002Ffine-tuning-methods-sft-lora-dpo-rlhf-grpo-zh\">LoRA\u003C\u002Fa> 或 soft prompting，會把部署流程弄複雜。ART 的做法不是去動模型權重，而是去訓練一張輸入圖片，讓這張圖自己承擔微調訊號。\u003C\u002Fp>\u003Cp>這個想法聽起來很怪，但工程味很重。模型維持 frozen，推理服務也維持標準路徑。你送進去的仍然是正常的多模態請求，只是其中那張圖，已經被訓練成一個任務專用的「適配器」。\u003C\u002Fp>\u003Ch2>它到底在修什麼痛點\u003C\u002Fh2>\u003Cp>作者先盯住的是部署摩擦，不是模型架構。現實裡，很多下游任務其實還是以文字為主，但跑在多模態 LLM 上時，就會碰到一堆額外成本：要載入 adapter、要處理連續 embedding、要跟高吞吐推理引擎的標準管線對齊。這些事情本身不難，但會拖慢系統整合。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781266684477-t1np.png\" alt=\"用像素微調多模態 LLM\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>LoRA 是最常見的 PEFT 路線，但它會在層與層之間加上額外權重。對優化過的 serving stack 來說，這種改動不一定友善。Soft prompting 雖然不改權重，卻還是要處理特殊的連續提示表示，跟標準 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> pipeline 之間也不是完全無縫。\u003C\u002Fp>\u003Cp>ART 的切入點是把「可訓練的位置」換到視覺通道。只要模型的 vision tower 和跨模態投影本來就會把像素映射到同一個 embedding 空間，那像素本身就能變成可微分的訓練對象。換句話說，adapter 不再是模組，而是一張圖。\u003C\u002Fp>\u003Ch2>ART 的運作方式\u003C\u002Fh2>\u003Cp>ART 全名是 Art-based Reinforcement Training。論文把多模態 LLM 凍結起來，只優化原始圖像輸入。這張圖不是固定素材，而是可訓練資料；梯度會一路回傳到像素空間，讓圖片本身承擔 fine-tuning 的角色。\u003C\u002Fp>\u003Cp>從流程看，作者把它\u003Ca href=\"\u002Fnews\u002Fbitcoin-hyper-turns-btc-congestion-into-l2-pitch-zh\">寫成\u003C\u002Fa>兩段式迴圈。第一段是 rollout 和 advantage estimation，第二段是 policy clipping 與 backward step。實作上還用了 Dynamic sAmpling Policy Optimization，也就是 DAPO，論文把它描述成一種 GRPO 變體。重點不是這套 RL 名稱本身，而是它證明了：只要凍結模型，優化目標就能換，底層服務不必跟著改。\u003C\u002Fp>\u003Cp>圖片參數化也有設計。論文說，learnable image 會從 seed image 初始化，並以 logit space 表示，讓像素值保持合法，同時仍能做連續優化。這樣一來，圖片比較像一個可訓練張量，而不是單純的 JPEG 或 PNG 檔。\u003C\u002Fp>\u003Cp>這也帶出一個很有意思的副作用：最後得到的圖片，可以被做成帶有風格的 computational artwork。作者甚至把它跟 steganography 類比，因為這張圖可能看起來只是一般藝術圖，但其實裡面藏著任務特定的調整訊號。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>這篇論文評估的是不同尺寸的開源 \u003Ca href=\"\u002Ftag\u002Fqwen\">Qwen\u003C\u002Fa> 架構，搭配幾個文字型基準。摘要和原始內容提到的 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 包括 GSM8K、GPQA 和 ToolMind。前者是數學推理，後者涵蓋研究生等級問答與結構化工具使用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781266687620-nuuc.png\" alt=\"用像素微調多模態 LLM\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>根據摘要，ART 在數學與結構化工具使用的 benchmark 上，能做到和 LoRA 相當的準確率。論文也提到，它辨識出哪些任務上 ART 會落後。這個訊息很重要，因為它直接說明 ART 不是要取代所有 weight-space fine-tuning，而是提供另一條可部署的路。\u003C\u002Fp>\u003Cp>不過，來源摘要沒有公開完整 benchmark 數字，所以這裡不能硬講提升了幾個百分點、吞吐量多少，或記憶體省了多少。能確定的是方向性結果：ART 至少能在部分標準任務上逼近 LoRA，同時維持凍結模型與標準服務接口的優勢。\u003C\u002Fp>\u003Cp>作者還拿輸出圖檔的 lossless PNG 檔案大小來看資訊儲存量。這個角度很少見，但很有意思：這張圖不只是 prompt，也可能是一個承載任務適配資訊的容器。也就是說，訓練成果不是藏在權重裡，而是藏在圖檔裡。\u003C\u002Fp>\u003Ch2>對開發者代表什麼\u003C\u002Fh2>\u003Cp>如果你在做多模態模型服務，ART 最吸引人的地方，是它盡量不碰既有推理管線。模型保持 frozen，serving engine 不需要額外的權重管理器，也不需要為 adapter 做特殊處理。理論上，這讓它更容易塞進已經針對標準多模態輸入做過優化的系統。\u003C\u002Fp>\u003Cp>但它不是萬用解。論文自己就說 ART 是在特定 benchmark 上評估，而且也承認有些任務表現會落後。來源內容也沒有在摘要裡提供廣泛的 production 證據、延遲數據或記憶體比較，所以在真的拿去上線前，還需要額外驗證。\u003C\u002Fp>\u003Cp>還有一個限制很現實：ART 依賴的是多模態模型的視覺路徑。它不是給純文字 LLM 的通用技巧。也就是說，這招能不能好用，很吃模型家族本身的 vision-text 對齊\u003Ca href=\"\u002Fnews\u002Fethereum-l2-payments-stablecoins-tokenized-assets-zh\">穩定\u003C\u002Fa>度。\u003C\u002Fp>\u003Ch2>它在 PEFT 光譜中的位置\u003C\u002Fh2>\u003Cp>ART 可以放在 visual prompting、soft prompting、adversarial reprogramming 這幾個方向中間看，但目標不一樣。過去有些方法是想用視覺通道去引導或擾動模型行為；ART 則是把同一條通道拿來做能力提升。這個差別是論文 framing 的核心。\u003C\u002Fp>\u003Cp>跟 LoRA 比，ART 不碰權重。跟 soft prompting 比，ART 不需要額外處理連續 token embedding。跟傳統 visual prompt tuning 比，ART 也不是單純替 vision model 學一個連續提示，而是把圖片本身當成多模態語言任務的訓練載體。這讓它既像研究想法，也像工程折衷。\u003C\u002Fp>\u003Cp>對實作者來說，真正要衡量的是這個 tradeoff 值不值得。若你的需求是 frozen model、標準 serving、又想要任務專用調整，ART 很有吸引力。但如果你需要的是成熟、好維護、容易檢查的權重更新，LoRA 仍然是比較傳統也比較直覺的路。\u003C\u002Fp>\u003Ch2>目前還沒回答完的問題\u003C\u002Fh2>\u003Cp>這份來源材料還留了不少空白。最明顯的是 benchmark 數字沒有公開在摘要裡，所以你很難只靠這段文字判斷收益大小。它也沒有說 learned images 對不同模型版本、不同 prompt、或不同部署環境的穩定性如何。\u003C\u002Fp>\u003Cp>維運面也是一個未知數。把一張優化過的圖片當作任務適配器，概念很漂亮，但它也會多出一種新的資產型態。團隊要怎麼做版本控管、怎麼把它納入 \u003Ca href=\"\u002Ftag\u002Fmlops\">MLOps\u003C\u002Fa>、怎麼避免圖片資產跟模型設定脫節，這些都還需要實務設計。\u003C\u002Fp>\u003Cp>最後，論文提到圖片檔內可能承載資訊，但摘要沒有把這件事講得很完整。這張圖到底比較像 prompt、壓縮後的 policy，還是兩者兼具？來源內容只說它可能是兩者，但沒有把邊界說死。\u003C\u002Fp>\u003Cp>總結來看，ART 證明了一件事：凍結的多模態 LLM，不一定只能靠改權重來微調。只要模型的視覺路徑可微，像素本身就能成為適配器。對開發者來說，這打開的是一條很不一樣的工程路線。\u003C\u002Fp>","ART 用一張可訓練圖片，讓凍結的多模態 LLM 不改權重也能做任務微調。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fhtml\u002F2606.11854v1",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781266684477-t1np.png","research","zh","b1779b30-e9e3-4406-aa29-d44e94f7ca67",[17,18,19,20,21],"multimodal LLM","parameter-efficient fine-tuning","LoRA","soft prompting","reinforcement training",[23,24,25],"ART 把微調位置從權重搬到像素，讓 frozen multimodal LLM 也能做任務適配。","論文在 Qwen 架構與 GSM8K、GPQA、ToolMind 等任務上，表示可與 LoRA 競爭，但摘要未公開完整數字。","這方法的優勢是部署摩擦低；限制是只適用多模態模型，且實際穩定性仍需更多驗證。",2,"2026-06-12T12:17:31.662347+00:00","2026-06-12T12:17:31.648+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":43,"relatedPosts":47},[32,34,36,39,41],{"name":19,"slug":33},"lora",{"name":18,"slug":35},"parameter-efficient-fine-tuning",{"name":37,"slug":38},"multimodal llm","multimodal-llm",{"name":21,"slug":40},"reinforcement-training",{"name":20,"slug":42},"soft-prompting",{"id":15,"slug":44,"title":45,"language":46},"art-fine-tunes-multimodal-llms-via-pixels-en","ART fine-tunes multimodal LLMs via pixels","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"e08b8946-29a0-486a-b2c1-b23faf16b441","taxonomy-rwa-tokenization-blockchain-infrastructure-zh","RWA 代幣化的 23 維分類法","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781259482592-9fiv.png","2026-06-12T10:17:30.417901+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"34681ebb-0d9d-4988-822a-45b6e5ad46d6","2026-llm-paper-lists-better-than-feeds-zh","2026 年的 LLM 論文清單，比資訊流更適合做研究","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781258570660-0l2n.png","2026-06-12T10:02:16.438561+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"8a06c20a-c2d6-4cb0-a35c-69eab7f7f89a","anthropic-ai-building-ai-recursive-self-improvement-zh","Anthropic 自己的數據已經證明：AI 正在幫 AI 進步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781257685705-1m6f.png","2026-06-12T09:47:24.801004+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"29143a1b-a610-4674-96a5-e3b1695350bd","project-glasswing-mythos-bug-chaining-zh","Project Glasswing 揭露 Mythos 會串漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781254982476-voas.png","2026-06-12T09:02:32.008908+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"ba442703-edfa-4353-b256-db502d94a99e","mana-articulated-tool-manipulation-animation-zh","Mana把工具操作改寫成動畫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781246882933-bvjm.png","2026-06-12T06:47:29.612828+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"6911e614-4894-4f1f-a0ad-816e323793ef","retrieval-augmented-reinforcement-fine-tuning-analogy-zh","RA-RFT 讓模型學會類比推理","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781245983485-miul.png","2026-06-12T06:32:27.726554+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]