[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-persistent-visual-memory-lvml-visual-drift-zh":3,"article-related-persistent-visual-memory-lvml-visual-drift-zh":26,"series-research-dbd84f6a-1f4e-44c3-ae97-165482ff2d21":78},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":23,"created_at":24,"published_at":25,"topic_cluster_id":11},"dbd84f6a-1f4e-44c3-ae97-165482ff2d21","persistent-visual-memory-lvml-visual-drift-zh","PVM 讓 LVLM 不再視覺漂移","\u003Cp data-speakable=\"summary\">Persistent Visual Memory 讓 LVLM 在長篇生成時，還能持續保留影像資訊。\u003C\u002Fp>\u003Cp>大型視覺語言\u003Ca href=\"\u002Fnews\u002Fhycop-modular-interpretable-pde-surrogates-zh\">模型\u003C\u002Fa>（LVLM）很會看圖，也很會寫字，但這篇論文指出一個實務上很麻煩的問題：文字一旦越生成越長，模型對視覺資訊的注意力會慢慢變弱。作者提出的 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.00814\">Persistent Visual Memory\u003C\u002Fa>（PVM），就是要把這個「越講越忘圖」的現象拉回來。\u003C\u002Fp>\u003Cp>這不是單純的提示詞技巧，也不是把資料再餵多一點就能解的問題。論文想處理的是 LVLM 的結構性失真：模型在長輸出過程中，會逐漸把內部資源分配給累積的文字上下文，而不是原本看到的影像。對開發者來說，這種漂移很危險，因為它往往不會在短答案裡立刻爆掉，而是等到模型需要長篇推理、逐步說明或多輪對話時才慢慢浮現。\u003C\u002Fp>\u003Ch2>這篇論文在解什麼痛點\u003C\u002Fh2>\u003Cp>作者把這個現象稱為「Visual Signal Dilution」。白話一點說，就是生成的 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 越多，文字歷史越長，影像訊號在注意力機制裡就越容易被稀釋。論文的描述是，生成序列長度與視覺注意力之間呈現反比關係。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777876263458-zklg.png\" alt=\"PVM 讓 LVLM 不再視覺漂移\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個問題的麻煩之處，在於它不是單一層或單一超參數的失誤，而是深度生成時就可能出現的內在偏移。模型並不是完全看不到圖，而是越往後寫，越不容易把圖像特徵放在決策路徑的前面。結果就是，模型前面還在看圖，後面卻開始靠文字自己補完。\u003C\u002Fp>\u003Cp>對實際應用來說，這會影響很多場景。像是需要長篇解釋圖片內容、對同一張圖做多步推理，或是在多輪對話裡持續引用視覺資訊的系統，都可能遇到這種「前面有看，後面走神」的狀況。論文的出發點很直接：如果 LVLM 要在長輸出裡保持可靠，就不能只在開頭看清楚一次而已。\u003C\u002Fp>\u003Ch2>PVM 的方法到底怎麼做\u003C\u002Fh2>\u003Cp>PVM 被描述成一個輕量級、可學習的模組，整合在 LVLM 的 Feed-Forw\u003Ca href=\"\u002Fnews\u002Fcloudflare-ai-code-review-prompt-injection-zh\">ar\u003C\u002Fa>d Network（FFN）旁邊，作為平行分支存在。它的核心設計概念，是提供一條「與距離無關」的檢索路徑，讓模型在需要時可以直接取回視覺嵌入。\u003C\u002Fp>\u003Cp>這個設計的重點，不是完全取代原本的注意力路徑，而是補一條更穩定的通道。論文的意思是，標準注意力在生成越長時越不可靠，PVM 則試著讓視覺資訊不要完全依賴那條會被文字上下文吃掉的路徑。換句話說，它像是在模型內部放了一個持久化的視覺記憶層，讓影像特徵不會因為 token 越堆越多就消失。\u003C\u002Fp>\u003Cp>從架構角度看，這種做法比重新設計整個 LVLM 更務實。作者把它定位成一個輕量加掛的模組，而不是大改模型骨架的重工程。這也代表它的價值，不只是在效果上，而是在可整合性上：如果一個方法能用相對小的參數成本，去補一個長生成階段的穩定性漏洞，那對模型建置者會很有吸引力。\u003C\u002Fp>\u003Cp>不過，摘要沒有交代更細的實作流程，例如模組內部的精確運算、訓練細節或插入位置的完整設計。因此，從目前公開的 raw 資料來看，我們只能確認它是「平行於 FFN 的輕量可學習分支」，不能再往下腦補成某種特定記憶網路或外掛式檢索器。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>實驗是在 Qwen3-VL 模型上做的，涵蓋 4B 和 8B 兩個尺度。摘要指出，PVM 帶來了明顯改善，而且參數增加幾乎可以忽略，並且在兩個尺度上都能看到一致的平均準確率提升。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777876253193-8d6u.png\" alt=\"PVM 讓 LVLM 不再視覺漂移\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但這裡要注意一點：摘要沒有公開完整 benchmark 細節。它沒有列出測了哪些資料集，也沒有提供精確分數、絕對提升幅度，或各項任務的細部表現。所以目前能確定的是「方向正向」，不能從摘要直接推導出實際提升到底有多大。\u003C\u002Fp>\u003Cp>即便如此，論文還是提供了兩個對工程上有意義的分析結果。第一，PVM 可以抵抗長度引起的訊號衰減；第二，它能加速內部預測的收斂。這兩點代表它可能不只是把最終答案做對，還可能讓模型在長生成過程中維持更穩定的內部狀態。\u003C\u002Fp>\u003Cp>如果把這些結果串起來看，論文的主張其實很清楚：PVM 對複雜推理任務特別有幫助，因為這類任務最需要持續的視覺感知。越是要一邊長篇輸出、一邊維持對圖像的依賴，這種機制就越可能派上用場。\u003C\u002Fp>\u003Cul>\u003Cli>測試模型：Qwen3-VL\u003C\u002Fli>\u003Cli>模型尺度：4B、8B\u003C\u002Fli>\u003Cli>參數成本：negligible parameter overhead\u003C\u002Fli>\u003Cli>結果描述：consistent average accuracy gains\u003C\u002Fli>\u003Cli>額外分析：抗長度衰減、加速內部預測收斂\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你有在做 LVLM，這篇最值得記住的不是某個漂亮分數，而是它指出了一個很真實的部署風險：模型不是只會「看不懂圖」，也可能是「看懂了但後面忘了怎麼用」。這種問題在短問答裡\u003Ca href=\"\u002Fnews\u002Fllms-procedural-execution-diagnostic-study-zh\">不一定\u003C\u002Fa>明顯，但在長輸出、複雜推理、逐步說明的任務裡，會慢慢變成品質落差。\u003C\u002Fp>\u003Cp>PVM 的吸引力，在於它把修補點放在架構層，而不是只靠 prompt 或訓練資料去硬撐。從摘要的描述看，它試圖用很小的額外參數，去補長生成時的視覺訊號衰減。如果這種方向成立，對需要\u003Ca href=\"\u002Ftag\u002F長上下文\">長上下文\u003C\u002Fa>多模態可靠性的系統會很有價值。\u003C\u002Fp>\u003Cp>但目前也有不少限制要先講清楚。摘要沒有說明完整 benchmark，所以我們不知道它在多少任務上成立；沒有公開精確數字，所以無法判斷提升幅度；也沒有說明方法是否能穩定泛化到 Qwen3-VL 以外的 LVLM 架構。此外，摘要沒有交代是否增加延遲，也沒有說明它在不同提示風格下的表現差異。\u003C\u002Fp>\u003Cp>所以比較務實的結論是：PVM 是一個針對「長生成時視覺漂移」的架構型修補方案，而且從摘要看起來結果不錯。但它目前比較像研究方向上的強訊號，不是已經能直接下定論的通用解法。對工程團隊來說，值得關注的是它提醒了一件事：多模態模型的失敗，有時不是因為沒看過圖，而是因為生成太長，圖像在決策路徑裡被慢慢擠掉了。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>PVM 想解的問題很單純：讓 LVLM 在長篇生成時，不要讓視覺資訊從模型裡慢慢流失。它用一個平行的輕量模組，把影像特徵維持在可被取用的位置，目標是減少視覺訊號隨文字變長而衰減的現象。\u003C\u002Fp>\u003Cp>從目前公開的摘要來看，這篇論文的價值在於它把一個常被忽略的失真模式講得很清楚，也提出了一個結構上的修補方向。對\u003Ca href=\"\u002Ftag\u002F台灣開發者\">台灣開發者\u003C\u002Fa>來說，這類研究最實際的意義不是「又多了一個新名詞」，而是提醒我們：多模態模型要真的能上線，重點不只是在第一眼看懂圖片，而是在整段長輸出裡，還能一直看得住。\u003C\u002Fp>","Persistent Visual Memory（PVM）用輕量級平行模組，試圖讓 LVLM 在長篇生成時持續保留視覺資訊，減少視覺訊號隨文字變長而衰減的問題。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.00814",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777876263458-zklg.png","research","zh","8171cdaa-97e2-43fc-88f1-45be756c0a8e",[17,18,19,20,21,22],"LVLM","visual drift","Persistent Visual Memory","attention","FFN","Qwen3-VL",4,"2026-05-04T06:30:30.018682+00:00","2026-05-04T06:30:29.883+00:00",{"tags":27,"relatedLang":37,"relatedPosts":41},[28,30,32,34,36],{"name":21,"slug":29},"ffn",{"name":18,"slug":31},"visual-drift",{"name":17,"slug":33},"lvlm",{"name":19,"slug":35},"persistent-visual-memory",{"name":20,"slug":20},{"id":15,"slug":38,"title":39,"language":40},"persistent-visual-memory-lvml-visual-drift-en","Persistent Visual Memory fixes LVLM visual drift","en",[42,48,54,60,66,72],{"id":43,"slug":44,"title":45,"cover_image":46,"image_url":46,"created_at":47,"category":13},"a4cf24e5-b958-4f91-bdca-2f1a57e81aef","why-benchmark-leaderboards-are-wrong-about-model-logic-zh","為什麼基準排行榜看錯了模型邏輯","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780673571153-x7yi.png","2026-06-05T15:32:23.043639+00:00",{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"4a829d2a-24a3-42dd-8be4-49e5ab35435a","why-prompt-engineering-is-wrong-about-2026-zh","為什麼 2026 年 prompt engineering 錯了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780661884287-ow45.png","2026-06-05T12:17:19.813402+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"52a37532-880d-4261-8f62-2f254d6c592d","spire-evidence-grounded-ai-humanities-zh","SPIRE 讓人文 AI 更重證據","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780647483844-bcuj.png","2026-06-05T08:17:29.603104+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"b38c56a6-e7f3-45fb-b100-d37e7b3ed417","reinforcement-aware-distillation-llm-reasoning-zh","強化感知蒸餾，想把推理一起學進去","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780646589500-0me6.png","2026-06-05T08:02:33.908932+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"60f7d702-20a7-4cec-9a80-185f072c8dfe","next-token-models-plan-ahead-zh","次詞模型其實會先想一步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780645684780-roea.png","2026-06-05T07:47:34.35089+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"7ec803f7-2658-4c9e-baa6-2b8528407d7f","google-deepmind-co-scientist-researchers-zh","Google DeepMind 對外開放 Co-Scientist","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780636679231-q694.png","2026-06-05T05:17:30.68789+00:00",[79,84,89,94,99,104,109,114,119,124],{"id":80,"slug":81,"title":82,"created_at":83},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]