[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-gaze-heads-steering-vlms-attention-zh":3,"article-related-gaze-heads-steering-vlms-attention-zh":30,"series-research-8ceebbae-fce7-4672-9aaa-83f087961e43":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"8ceebbae-fce7-4672-9aaa-83f087961e43","gaze-heads-steering-vlms-attention-zh","用注意力頭引導 VLM 看圖說話","\u003Cp data-speakable=\"summary\">研究指出，只要改動少量注意力頭，就能在不重訓下把 VLM 的描述導向指定圖像區域。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：83.1% accuracy\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：找出 gaze heads 並重導注意力\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇〈\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002Fgaze-heads-steering-vlms-attention\">Gaze Heads: Steering VLMs by Redirecting Attention\u003C\u002Fa>〉在做一件很實際的事：把多模態模型裡那種「到底在看哪裡」的黑盒子，拆成可以觀察、也可以動手改的機制。作者不是只問模型會不會看圖說話，而是追問它在生成描述時，內部到底有沒有一小群注意力頭，會跟著目前正在講的圖像區域移動。\u003C\u002Fp>\u003Cp>如果這個機制真的存在，意義就很直接。你不一定要重新訓練模型，也不一定要靠更長的提示詞硬拗。只要在推理階段改動那一小段注意力，模型就可能從原本會描述的區域，轉去你指定的區域。這讓「引導 VLM 看哪裡」變成一個可操作的工程問題。\u003C\u002Fp>\u003Ch2>這篇論文要解的痛點\u003C\u002Fh2>\u003Cp>VLM 很會講，但它怎麼決定下一句要講畫面的哪一塊，常常不透明。輸出是文字序列，輸入卻是空間影像。這種序列與空間的落差，讓除錯很麻煩。模型講錯物件、跳到別的區域、或忽略使用者想看的地方時，你很難直接指出是哪一層、哪個頭出了問題。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781503374052-ojne.png\" alt=\"用注意力頭引導 VLM 看圖說話\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這篇論文想回答的，就是一個很機械式的問題：模型在描述圖片時，內部有沒有某個特定元件，會對應到「現在正在看哪裡」？如果有，那它就不是抽象的感覺，而是一個可以拿來控制輸出的槓桿。\u003C\u002Fp>\u003Cp>作者選了 comic strips 當測試場景，這點很聰明。漫畫的敘事順序本來就有明確的空間排列，比起一般自然圖片，更容易判斷模型是不是跟著預期的 panel 走，還是中途跑偏。\u003C\u002Fp>\u003Ch2>方法怎麼做，白話講\u003C\u002Fh2>\u003Cp>核心方法其實很像在找「視線追蹤器」。作者在\u003Ca href=\"\u002Fnews\u002Fgemini-3-5-live-translate-rolls-out-70-languages-en-zh\">語言\u003C\u002Fa>模型骨幹裡搜尋那些注意力模式，會跟當下正在描述的圖像區域一起移動的 attention heads，並把它們命名為 gaze heads。\u003C\u002Fp>\u003Cp>找法也不複雜。摘要描述的是用一個簡單的 correlation score，搭配少量 forward passes 來辨識。也就是說，不需要大規模訓練，也不需要很重的 probe。重點是看哪些 head 的注意力分佈，會跟模型敘述的圖像區域同步變化。\u003C\u002Fp>\u003Cp>找到之後，下一步才是驗證它是不是只是旁觀者。作者做的介入，是把這些 gaze heads 的注意力改導到指定區域。若這個機制真的在控制生成，那模型就應該開始描述被你選中的那一塊，\u003Ca href=\"\u002Fnews\u002Fcursor-bugbot-before-push-not-pr-zh\">而不是\u003C\u002Fa>照原本的路徑走。\u003C\u002Fp>\u003Cp>這裡還有一個重要對照：只動少量、目標明確的 heads 有效；把介入擴大到所有 heads 就不行。這個差異很關鍵，因為它表示效果不是單純把注意力整體弄亂，而是有一個相對特定的 circuit-level handle 可以抓。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>最強的結果，是作者用 top-100 的 gaze heads 做單次 attention-mask 介入。這些 heads 少於全部 heads 的 9%，卻能把模型的答案導向任一指定的 comic panel，準確率達到 83.1%。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781503373103-8o6n.png\" alt=\"用注意力頭引導 VLM 看圖說話\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這代表什麼？代表模型的描述可以在推理時被重新導向，而且不需要碰訓練流程。你只要改動網路裡一小部分注意力，輸出就會跟著變。這不是泛泛而談的「模型能被影響」，而是具體到可以選 panel、可以量化成功率的 steering 結果。\u003C\u002Fp>\u003Cp>作者也做了反例。隨機挑 heads 來改，不能把答案穩定導向目標區域；把所有 heads 一起動，反而會把生成弄壞。這個對照很重要，因為它說明有效的不是「任何 attention edit 都行」，而是「少量、對的位置才行」。\u003C\u002Fp>\u003Cp>另外，這個控制不是只能做一次性的切換。摘要提到，如果在生成中途把 gaze target 換掉，模型會先把目前 panel 的描述收尾，接著在幾個 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 內轉向新的目標。也就是說，這個機制不只適合靜態 steering，也能支援動態切換。\u003C\u002Fp>\u003Cp>除了漫畫，作者也把同樣的介入用在 COCO 自然圖片上，結果也能把回答導向指定區域。這把論點從「漫畫這種特殊場景可行」往前推了一步，至少顯示它不只是一個單點 demo。\u003C\u002Fp>\u003Cp>摘要還提到，這個現象跨了 2B 到 32B 的模型規模，也出現在其他 VLM 架構上。不過這裡有一個明確限制：某些 frozen-encoder 家族沒有對應的 head set。換句話說，它不是被作者宣稱成「所有 VLM 都有」的通則。\u003C\u002Fp>\u003Ch2>這對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做 VLM 應用，這篇論文提供的是一種新的控制面。過去多半是靠 prompt、資料、或 fine-tuning 去調模型行為；這裡則是直接在推理階段，改一小段內部注意力，就能把描述方向拉回來。\u003C\u002Fp>\u003Cp>這對幾種場景特別有意思。像是除錯時，當模型老是講錯區域，你可以測試是不是某些 heads 的注意力路徑出了偏差。又或者在區域式 captioning、互動式多模態工具裡，使用者想要模型只看某個局部，這種方法就提供了一個比單純提示詞更直接的手段。\u003C\u002Fp>\u003Cp>從系統角度看，這個介入被描述成簡單的 attention-mask edit，這代表它比較像是推理管線裡的一個可插拔操作，而不是重訓一整套模型。論文沒有宣稱它已經是 production-ready，但它確實展示了：多模態行為不一定只能靠訓練修，內部的小型控制點也可能夠用。\u003C\u002Fp>\u003Ch2>限制在哪裡\u003C\u002Fh2>\u003Cp>先講最直接的：這篇摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 細節。它有給出 83.1% 這個結果，也有說明在 comic panels、COCO images、不同模型規模上觀察到的現象，但沒有把完整任務表、延遲、或更廣泛的 robustness 數據都攤出來。\u003C\u002Fp>\u003Cp>第二個限制，是方法要先找得到 gaze heads 才能動手。摘要說可以用少量 forward passes 與簡單 correlation score 找出來，但這仍然依賴模型內部真的存在可辨識的模式。若某個模型家族沒有形成類似的 head set，這個 steering 手法就不一定能直接搬過去。\u003C\u002Fp>\u003Cp>第三個問題是穩定性。摘要示範了中途切換 target，也提到可延伸到 COCO 圖像，但沒有主張它能在所有提示詞、所有圖像風格、或更長對話裡都穩定成立。對實務來說，這些都是後續還要補的驗證。\u003C\u002Fp>\u003Ch2>這篇真正重要的地方\u003C\u002Fh2>\u003Cp>這篇論文最有價值的，不只是「能控制模型」，而是它把一個很模糊的多模態行為，縮成一個可量測、可干預的內部機制。模型不是單純在「看圖說話」，而是可能透過少數幾個 heads，維持敘述與圖像區域的對齊。\u003C\u002Fp>\u003Cp>對研究者來說，這提供了一個更具體的 mechanistic 目標。不是只說模型注意到某處，而是進一步指出：這些 heads 似乎在追蹤正在被描述的區域。對工程端來說，這也是一個新的 debug 與 steering 工具箱。\u003C\u002Fp>\u003Cp>總結一句話：這篇工作\u003Ca href=\"\u002Fnews\u002Fcursors-latest-update-ide-workflow-tools-zh\">證明\u003C\u002Fa>，某些 VLM 的圖像敘述可以被少量注意力頭精準導向，而且不必重訓模型。這讓「模型到底在看哪裡」從抽象問題，變成可以直接動手處理的控制問題。\u003C\u002Fp>\u003Ch2>快速重點\u003C\u002Fh2>\u003Cul>\u003Cli>少量 gaze heads 就能成為 VLM 的可控入口。\u003C\u002Fli>\u003Cli>推理階段改 attention，比重訓更直接。\u003C\u002Fli>\u003Cli>方法有效，但不是所有模型家族都保證有同樣結構。\u003C\u002Fli>\u003C\u002Ful>","研究指出，只要改動少量注意力頭，就能在不重訓下把 VLM 的描述導向指定圖像區域。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.14703",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781503374052-ojne.png","research","zh","32895cbf-48cf-4030-9c82-aa9c5bc313ec",[17,18,19,20,21],"VLM","attention heads","mechanistic interpretability","inference-time steering","multimodal models",[23,24,25],"少量注意力頭可在推理時把 VLM 描述導向指定圖像區域。","top-100 gaze heads 的單次 attention-mask 介入可達 83.1% steering accuracy。","方法有模型家族限制，且摘要未公開完整 benchmark 細節。",0,"2026-06-15T06:02:26.201961+00:00","2026-06-15T06:02:26.173+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":20,"slug":33},"inference-time-steering",{"name":18,"slug":35},"attention-heads",{"name":19,"slug":37},"mechanistic-interpretability",{"name":21,"slug":39},"multimodal-models",{"name":17,"slug":41},"vlm",{"id":15,"slug":43,"title":44,"language":45},"gaze-heads-steering-vlms-attention-en","Gaze Heads: Steering VLMs by Redirecting Attention","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"2a2b904a-d812-40ae-bdac-dc07bc6afd45","persona-pruner-lightweight-role-playing-models-zh","Persona-Pruner：把大模型修成角色專用小腦袋","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781505181281-pq7r.png","2026-06-15T06:32:24.904806+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"d77cb1e8-9169-416f-a673-317bc4e2ee39","clinhallu-medical-mllm-hallucination-benchmark-zh","ClinHallu 追蹤醫療 MLLM 幻覺來源","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781504269169-ifu4.png","2026-06-15T06:17:22.803066+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"e6c76870-1fa5-45e5-bb8c-436070b9e5cc","ai-benchmarks-2026-evaluations-limits-zh","AI Benchmarks 2026：高分撞上天花板","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781381872937-6kjx.png","2026-06-13T20:17:25.971321+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"59cf2061-712e-4a92-b3a7-5bdd8644c5a6","art-fine-tunes-multimodal-llms-via-pixels-zh","用像素微調多模態 LLM","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781266684477-t1np.png","2026-06-12T12:17:31.662347+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"e08b8946-29a0-486a-b2c1-b23faf16b441","taxonomy-rwa-tokenization-blockchain-infrastructure-zh","RWA 代幣化的 23 維分類法","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781259482592-9fiv.png","2026-06-12T10:17:30.417901+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"34681ebb-0d9d-4988-822a-45b6e5ad46d6","2026-llm-paper-lists-better-than-feeds-zh","2026 年的 LLM 論文清單，比資訊流更適合做研究","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781258570660-0l2n.png","2026-06-12T10:02:16.438561+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]