[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-reroute-keeps-useful-vision-tokens-alive-zh":3,"article-related-reroute-keeps-useful-vision-tokens-alive-zh":30,"series-research-2a097023-5013-40ba-81e1-014bc4ef713d":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"2a097023-5013-40ba-81e1-014bc4ef713d","reroute-keeps-useful-vision-tokens-alive-zh","Reroute 讓視覺 token 可回流","\u003Cp data-speakable=\"summary\">Reroute 把視覺 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 從「刪掉就沒了」改成「先延後、後面還能回來」，讓 VLM 在降 token 時更保留後段推理需要的圖像細節。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：可回收路由\u003C\u002Fli>\u003C\u002Ful>\u003Cp>Vision-language model 一直有個老問題：圖片一進\u003Ca href=\"\u002Fnews\u002Fmistral-model-lineup-specialization-beats-giant-model-zh\">模型\u003C\u002Fa>，就常被切成很多 visual tokens。token 越多，decoder attention 和 KV-cache 的成本就越高。這篇論文要解的，不是「要不要壓縮」，而是「壓縮時能不能不要一刀切」。\u003C\u002Fp>\u003Cp>作者認為，傳統做法太像先判死刑。很多 visual-token reduction 方法會先算分數，保留高分 token，低分 token 直接刪掉。但在多模態推理裡，早期看起來不重要的 token，到了後面可能才變成關鍵。尤其是需要對齊圖片局部資訊的問題，太早刪掉就回不來了。\u003C\u002Fp>\u003Cp>Reroute 的核心概念很直接：不要永久丟棄 token，先把它延後，讓它有機會在後面的路由決策裡再被看見。這讓 token reduction 從「一次性刪除」變成「可恢復的流動」。\u003C\u002Fp>\u003Ch2>這篇在修哪個痛點\u003C\u002Fh2>\u003Cp>在 vision-language model 裡，圖片不是一路以像素形式進到 decoder。它會先被投影成一串 visual tokens，然後跟文字 token 一起參與 attention。這種設計很靈活，但代價也很明確：token 數量一多，推理就更慢、更吃記憶體。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781157777884-jrfr.png\" alt=\"Reroute 讓視覺 token 可回流\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>所以很多系統都會想辦法減 token。問題在於，現有方法多半是「排序、保留、刪除」這種單向流程。這種流程假設 token 的重要性在整個 decoder 裡都差不多穩定，但論文認為這個假設不可靠。\u003C\u002Fp>\u003Cp>作者的觀點是，token 的重要性會隨著 decoder 深度改變。某個 token 在前面幾層看起來不突出，不代表後面不會用到。對 grounding 敏感的任務尤其如此，\u003Ca href=\"\u002Fnews\u002Fxiaomi-mimo-1t-model-1000-tokens-per-second-zh\">模型\u003C\u002Fa>可能在後段才需要把語言和圖片某個小區域連起來。\u003C\u002Fp>\u003Cp>如果你太早把那個 token 刪掉，模型就少了一次把它撿回來的機會。這也是這篇論文真正想修的地方：不是單純壓縮，而是避免壓縮變成不可逆損失。\u003C\u002Fp>\u003Ch2>Reroute 到底怎麼做\u003C\u002Fh2>\u003Cp>Reroute 是一個 training-free 的 plug-in。意思是，它不需要重新訓練 base model。它做的是改變 decoding 時的 routing 行為，直接接在現有 pruning 方法上。\u003C\u002Fp>\u003Cp>論文保留了原本常見的 attention-score ranking 和 stage-wise schedule。也就是說，它不是把整套 token reduction 推翻重寫，而是沿用既有規則，只改 token 被淘汰後的命運。\u003C\u002Fp>\u003Cp>在一般 pruning 裡，沒被選中的 token 會直接消失。Reroute 不這樣做。它把這些 token 先 defer 掉，讓它們跳過當前 decoder stage，然後在下一次 routing decision 時重新進入候選池。\u003C\u002Fp>\u003Cp>這個設計的重點是 recoverable。token 就算這一輪沒過，也不代表永遠出局。它還能在後面的層級被重新考慮。換句話說，Reroute 把 token reduction 變成一連串決策，\u003Ca href=\"\u002Fnews\u002Fwindows-agent-runtime-not-human-desktop-zh\">而不是\u003C\u002Fa>一次性刪除。\u003C\u002Fp>\u003Cp>因為它沿用原本的 ranking 和 schedule，論文的設計目標是盡量維持原 pruning 方法的效率區間。摘要沒有給出精確的額外開銷數字，所以只能保守地說：它是想在不改變效率等級的前提下，提升 token reduction 的穩定性。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要提到，作者把 Reroute 放到 FastV、PDrop 和 Nüwa 這些變體上測試，並且搭配 LLaVA-1.5 與 \u003Ca href=\"\u002Ftag\u002Fqwen\">Qwen\u003C\u002Fa> backbones。這代表它不是只對單一模型或單一 pruning 方案有效，而是試圖證明這個想法有一定通用性。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781157778588-luah.png\" alt=\"Reroute 讓視覺 token 可回流\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>結果上，摘要說 Reroute 在 aggressive token reduction 下能改善 grounding，同時維持一般 VQA 表現。這裡要注意，摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 數字，所以不能從這份材料直接讀出提升幅度，也不能拿它去對照特定分數。\u003C\u002Fp>\u003Cp>但方向很清楚。當問題需要模型回頭利用圖片中的局部細節時，recoverable routing 比硬刪除更有彈性。它不是讓模型「更會看圖」這麼空泛，而是讓模型在 token 被降載後，還保留重新取用的機會。\u003C\u002Fp>\u003Cp>這也說明一件事：token reduction 本身不是錯，錯的是把「低分 token」直接等同於「永遠沒用」。論文的訊息比較像是在提醒工程實作：你不一定要改 ranking model，先改 token 的處置流程，就可能得到更好的行為。\u003C\u002Fp>\u003Ch2>對開發者有什麼實際影響\u003C\u002Fh2>\u003Cp>如果你在做多模態產品，visual-token reduction 幾乎就是少數幾個能直接動到 latency 和 memory 的槓桿。decoder 要同時看很多 image tokens，成本很快就上來。這時候，任何降 token 的方法都很誘人。\u003C\u002Fp>\u003Cp>但問題也很現實：降得太兇，模型可能在一般問答看起來還行，遇到需要對圖像細節做 grounding 的任務就掉下去。這篇論文的價值，在於它提供了一個更保守、也更工程化的折衷：先降載，但不要把後路封死。\u003C\u002Fp>\u003Cp>Reroute 的另一個優點是 training-free。這對實務很重要。你不用重訓整個 VLM stack，就能把它當成一個 plug-in 疊到現有 pruning 方法上試試看。對團隊來說，導入門檻比重新設計整套 token reduction pipeline 低很多。\u003C\u002Fp>\u003Cp>它也提醒開發者，multimodal efficiency 不只是「少一點 token」而已，而是 token 的生命週期怎麼管理。某些 token 不是全局重要，但在 decoder 的某個深度、某個時機點會變重要。可回收路由就是把這個假設寫進系統裡。\u003C\u002Fp>\u003Ch2>這篇的限制也很明顯\u003C\u002Fh2>\u003Cp>先講最直接的：摘要沒有公開完整 benchmark 數字。沒有表格、沒有 latency、沒有 memory 的精確數值，也沒有失敗案例。就算方向看起來不錯，光靠這份摘要還不能量化它到底贏多少。\u003C\u002Fp>\u003Cp>第二個限制是泛化範圍。摘要確實提到它在 FastV、PDrop、Nüwa，以及 LLaVA-1.5 和 Qwen 上測試，但沒有說不同 decoder depth、不同 routing schedule，或更極端 token budget 下會怎麼表現。這些都會影響你能不能直接拿去上線。\u003C\u002Fp>\u003Cp>第三個問題是系統細節。token 如果被 defer 好幾次，最後什麼時候才算真的沒用了？摘要沒有交代停止條件，也沒有說重新放回候選池會不會帶來額外成本。對 production 來說，這些細節都很關鍵。\u003C\u002Fp>\u003Cp>不過，這篇論文的主張其實很務實：如果你一定要減少視覺 token，那就不要把第一次排序當成最後判決。先降載，再保留回流空間，這樣模型比較不容易把後段需要的圖像資訊一起丟掉。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>Reroute 的重點不是把 pruning 推翻，而是把它變得沒那麼不可逆。它用可回收路由，讓被暫時跳過的 visual tokens 還能在後面重新進場，特別適合那些需要 grounding 的多模態任務。\u003C\u002Fp>\u003Cp>對開發者來說，這是一個很實用的設計方向：效率還是要顧，但 token 不一定要一刪到底。這篇論文證明的，就是這個折衷有機會比傳統硬刪更穩。\u003C\u002Fp>\u003Cul>\u003Cli>Reroute 把不可逆刪除改成可回收路由。\u003C\u002Fli>\u003Cli>它是 training-free，可疊加在既有 pruning 方法上。\u003C\u002Fli>\u003Cli>摘要只說改善 grounding 與維持 VQA，沒有公開完整 benchmark 數字。\u003C\u002Fli>\u003C\u002Ful>","Reroute 把視覺 token 從「刪掉就沒了」改成「先延後、後面還能回來」，讓 VLM 在降 token 時更保留後段推理需要的圖像細節。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.12412",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781157777884-jrfr.png","research","zh","e9cb5863-f541-4d53-8f38-289660919a1f",[17,18,19,20,21],"vision-language model","visual token reduction","routing","grounding","KV-cache",[23,24,25],"把低分 visual token 先延後，不是直接刪掉。","可回收路由可接在既有 pruning 方法上，且不需重訓。","摘要指出 grounding 有改善，但沒有公開完整 benchmark 數字。",0,"2026-06-11T06:02:32.142485+00:00","2026-06-11T06:02:32.134+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":41,"relatedPosts":45},[32,33,35,38,39],{"name":20,"slug":20},{"name":17,"slug":34},"vision-language-model",{"name":36,"slug":37},"KV cache","kv-cache",{"name":19,"slug":19},{"name":18,"slug":40},"visual-token-reduction",{"id":15,"slug":42,"title":43,"language":44},"reroute-keeps-useful-vision-tokens-alive-en","Reroute Keeps Useful Vision Tokens Alive","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"d29d34a6-1c00-4ac8-a751-292abacada4d","factr-2-force-sensing-robot-arms-zh","FACTR 2 讓便宜機械臂感知力道","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781159594673-4qjg.png","2026-06-11T06:32:36.344211+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"12b6e836-bcdb-402a-adf8-c9a3f40e1194","c-dic-incremental-compression-dialogue-memory-zh","C-DIC 讓長對話記憶可逐輪壓縮","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781158690051-pemt.png","2026-06-11T06:17:38.214577+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"4838a0cd-3cfb-4973-a7b1-04180deb779f","sequential-fine-tuning-essay-scoring-zh","順序微調讓作文評分更準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781146983587-s508.png","2026-06-11T03:02:29.339358+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"5ea39e66-f8fd-4617-a3db-19c82a59f870","nvidia-nemotron-3-ultra-open-models-compete-zh","Nemotron 3 Ultra 證明開源模型仍能和頂尖對手正面競爭","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781108276896-z6a9.png","2026-06-10T16:17:24.337274+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"38c6e573-9203-4b23-b8d1-44ed1326c981","open-source-llms-beat-gpt4-class-2026-zh","2026 年開源 LLM 已經在多數核心工作上超越 GPT-4 級模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781107384930-z08z.png","2026-06-10T16:02:24.174518+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"8e6f024e-e1af-4a14-b243-5fdcbd2d6060","speechllm-l2-assessment-rationales-zh","SpeechLLM 會打分也會解釋","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781103793758-kezv.png","2026-06-10T15:02:33.463183+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]