[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-omniagent-active-perception-video-understanding-zh":3,"article-related-omniagent-active-perception-video-understanding-zh":31,"series-research-66aaa847-deb1-4cd3-a60f-f23f5e00868e":74},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"66aaa847-deb1-4cd3-a60f-f23f5e00868e","omniagent-active-perception-video-understanding-zh","OmniAgent讓長影片先想再看","\u003Cp data-speakable=\"summary\">OmniAgent把長影片理解改成主動觀察、思考與行動的迴圈，讓推理成本更像跟著回合數走，而不是跟著影片長度暴增。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：LVBench 50.5% 對 47.3%\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：POMDP 主動感知迴圈\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.19341\">Native Active Perception as Reasoning for Omni-Modal Understanding\u003C\u002Fa> 這篇論文想處理的，不是單純把影片看完，而是讓模型學會「該看哪裡、何時停、何時再想」。它把長影片理解從被動掃描，改成一個會主動取證的推理流程。\u003C\u002Fp>\u003Cp>這個方向對開發者很實際。因為長影片最麻煩的，往往不是模型看不懂，而是看得太多。影片越長，context 負擔越重，推理成本也越難控。作者想解的，就是這個「長度一上來，系統就開始吃不消」的痛點。\u003C\u002Fp>\u003Ch2>這篇論文在解什麼問題\u003C\u002Fh2>\u003Cp>傳統長影片系統多半是被動的。它們會把整段影片的影格一路處理下去，就算使用者的問題只需要其中幾秒，模型還是得把很多無關內容一起帶著走。摘要直接指出，這會帶來不必要的計算成本，也讓 context burden 隨著影片長度一起膨脹。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781762588958-zreo.png\" alt=\"OmniAgent讓長影片先想再看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>換句話說，影片越長，不只是資料越多，模型還要背越多包袱。這對離線分析也許還能忍，但對互動式產品就很傷。你會想要的是：模型在需要時才去找證據，而不是先把整支影片硬吞下去。\u003C\u002Fp>\u003Cp>論文也提到，已有一些互動式框架，但它們仍然依賴全域預掃描。也就是說，它們雖然\u003Ca href=\"\u002Fnews\u002Fgpt-56-fix-and-upgrade-release-zh\">可能\u003C\u002Fa>比純暴力掃描更聰明，卻還沒有真正脫離「先看過一遍再說」的思路。OmniAgent 想做的，是把選擇性觀察\u003Ca href=\"\u002Fnews\u002F90-minute-takedown-turns-ai-ops-into-crisis-zh\">變成\u003C\u002Fa>原生能力，而不是額外掛上的技巧。\u003C\u002Fp>\u003Cp>這個差別對工程實作很重要。若模型只能在吃完整段影片後回答，那它比較像離線批次工具；若模型能在推理過程中主動補證據，它就更接近可以互動、可控、也更省成本的系統。\u003C\u002Fp>\u003Ch2>OmniAgent 的方法怎麼運作\u003C\u002Fh2>\u003Cp>核心概念是把影片理解建模成 POMDP，也就是 partially observable Markov decision process。白話一點說，模型不假裝自己一開始就看見全部真相。它得在每一輪裡，根據目前掌握的資訊，決定要觀察什麼、思考什麼、再採取什麼動作。\u003C\u002Fp>\u003Cp>論文把這個流程寫成 Observation、Thought、Action 的循環。不是一次把整段影片掃完，而是反覆決定下一步要看哪裡。這讓感知本身變成推理的一部分，而不是推理之前的前置作業。\u003C\u002Fp>\u003Cp>另一個關鍵是記憶設計。OmniAgent 不會一直把原始影片 context 全部攤在前面，而是把有用的音視覺線索萃取成持久的文字記憶。之後的推理，就主要依賴這份文字記憶來運作。\u003C\u002Fp>\u003Cp>這個設計的意義很直接：把「原始影片長度」和「推理複雜度」切開。摘要明確主張，模型不必因為影片更長，就被迫承受更大的推理負擔。對長影片任務來說，這是架構層級的改寫。\u003C\u002Fp>\u003Cp>訓練上，作者用了兩個組件。第一個是 Agentic Supervised Fine-Tuning，用 best-of-N trajectory synthesis 搭配雙階段品質控管，去 bootstrap 這種原生主動感知行為。第二個是 Agentic \u003Ca href=\"\u002Ftag\u002Freinforcement-learning\">Reinforcement Learning\u003C\u002Fa> with TAURA，TAURA 是 Turn-aware Adaptive Uncertainty Rescaled Advantage，重點是用 turn-level entropy 來做 credit assignment。\u003C\u002Fp>\u003Cp>簡單講，這不是只教模型怎麼答題，而是教它怎麼替自己找題目、找證據。模型得學會在什麼時候多看一眼，什麼時候先想一下，再決定下一步。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要提到，作者在十個 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 上評估，包含 VideoMME 和 LVBench。它宣稱 OmniAgent 在 open-source models 裡達到 state-of-the-art，但摘要沒有公開完整 benchmark 表格，所以這裡看不到每個測試的細節數字。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781762586064-sd89.png\" alt=\"OmniAgent讓長影片先想再看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>不過摘要裡有一個很明確的對比：7B 的 OmniAgent 在 LVBench 上拿到 50.5%，而 Qwen2.5-VL-72B 是 47.3%。後者模型大十倍，結果卻輸了。這是摘要中最有說服力的一組數字，也最能說明主動感知不一定要靠更大參數量撐場。\u003C\u002Fp>\u003Cp>摘要還說，OmniAgent 有 positive test-time scaling。意思是推理回合數增加時，表現會變好。這點很重要，因為它代表模型不是被鎖死在單次前向流程，而是可以用更多思考換來更好答案。\u003C\u002Fp>\u003Cp>但這裡也要保守看。摘要沒有提供這些額外回合到底花多少成本，也沒有給 latency、memory usage、throughput 之類的數字。換句話說，它證明了「多想幾輪有幫助」，但沒有在摘要裡交代「多想幾輪值不值得」。\u003C\u002Fp>\u003Cp>所以目前能確定的是：在摘要公開的資訊裡，OmniAgent 至少在一個明確對比上打贏了更大的模型，也展示了回合數擴展的好處。至於完整的效率曲線，還得看原文。\u003C\u002Fp>\u003Ch2>對開發者來說，這代表什麼\u003C\u002Fh2>\u003Cp>如果你在做影片助理、內容搜尋、審核系統，或任何需要處理長片段的工作流，這篇論文提供的是一種不同的架構思路。不要只想著把 context window 拉大，然後期待 brute force 解決一切。\u003C\u002Fp>\u003Cp>更像樣的做法，可能是讓模型主動去收證據。當問題只跟片段中的少數時刻有關時，模型就不必浪費算力去處理整支影片。這種設計對長內容特別有吸引力，因為它把計算資源花在真正有資訊量的地方。\u003C\u002Fp>\u003Cp>文字記憶也是一個實務上的亮點。相較於一直維持龐大的 raw multimodal context，文字化的記憶比較容易檢查，也比較容易除錯。摘要沒有直接證明這會讓產品更好維護，但這個方向確實更接近工程師熟悉的可觀測性思維。\u003C\u002Fp>\u003Cp>另外，turn-based 的推理也可能讓互動式產品更自然。使用者不一定要一次拿到最終答案，模型可以在過程中逐步補足資訊。對某些場景來說，這比一次性吞完整段影片再吐答案，更符合真實使用流程。\u003C\u002Fp>\u003Cul>\u003Cli>主動感知可減少不必要的全片處理。\u003C\u002Fli>\u003Cli>回合式推理讓長影片任務不再完全綁死在影片長度上。\u003C\u002Fli>\u003Cli>文字記憶比直接塞滿多模態 context 更容易檢查。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>這篇論文的限制在哪裡\u003C\u002Fh2>\u003Cp>最大限制是摘要資訊還不夠細。雖然我們知道它用了 POMDP、Observation-Thought-Action、文字記憶、Agentic SFT 與 TAURA，但摘要沒有交代實作細節，例如動作空間怎麼定義、記憶格式長什麼樣、模型怎麼決定下一個觀察點。\u003C\u002Fp>\u003Cp>這些細節對重現很重要。因為「主動看」聽起來簡單，真正難的是怎麼讓模型穩定地知道該看哪裡、看多久、看完怎麼更新狀態。摘要沒有回答這些問題。\u003C\u002Fp>\u003Cp>另一個限制是成本資訊不足。摘要只說 test-time scaling 會讓表現變好，但沒有說額外推理回合的代價是多少。對產品\u003Ca href=\"\u002Fnews\u002Fanthropic-paid-ai-monetization-path-zh\">落地\u003C\u002Fa>來說，這一點很關鍵。能不能用，不只看準不準，還要看算不算得起。\u003C\u002Fp>\u003Cp>最後，benchmark 雖然提到十個，但摘要沒有完整列出數字，只公開了 LVBench 這組明確對比。所以目前最穩妥的判讀是：OmniAgent 展現了一條很有潛力的主動式多模態推理路線，但還不是所有長影片問題的終局解法。\u003C\u002Fp>\u003Cp>即便如此，這篇論文的方向已經很清楚。長影片理解，可能不需要模型像錄影機一樣全程照單全收，而是更像調查員：先看線索，再決定下一步要去哪裡找證據。對開發者來說，這是很值得記住的設計轉向。\u003C\u002Fp>","OmniAgent把長影片理解改成主動觀察、思考與行動的迴圈，讓推理成本更像跟著回合數走，而不是跟著影片長度暴增。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.19341",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781762588958-zreo.png","research","zh","0e33a353-6482-43dc-a0d7-646b9b1a2a2a",[17,18,19,20,21,22],"active perception","video understanding","POMDP","multimodal reasoning","long-video","text memory",[24,25,26],"把長影片理解改成主動觀察、思考、行動的迴圈。","LVBench 上 7B 模型以 50.5% 打贏 72B 模型的 47.3%。","摘要未公開完整 benchmark 與成本細節，落地仍要看原文。",0,"2026-06-18T06:02:31.730245+00:00","2026-06-18T06:02:31.721+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":33,"relatedPosts":37},[],{"id":15,"slug":34,"title":35,"language":36},"omniagent-active-perception-video-understanding-en","OmniAgent brings active perception to video understanding","en",[38,44,50,56,62,68],{"id":39,"slug":40,"title":41,"cover_image":42,"image_url":42,"created_at":43,"category":13},"ba82ac15-7751-4d2c-82b0-3cbbf76b8a09","locus-local-ordinance-corpus-us-zh","LOCUS把美國地方法規變機器可讀","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781764380299-ajfw.png","2026-06-18T06:32:29.60696+00:00",{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"88f6d8ec-e98a-42c4-a54c-78b5a8d67a2a","turing-rl-user-simulator-rewards-zh","Turing-RL 讓模擬使用者更像真人","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781763487848-hcqd.png","2026-06-18T06:17:31.073525+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"f0501097-0bec-43ec-b310-56fc442ab53c","arxiv-ai-papers-agents-memory-data-zh","ArXiv這批 AI 論文都在補三件事","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781685180920-w8wl.png","2026-06-17T08:32:36.427824+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"a11f0446-10ed-4065-b079-fd59f9d7e6e1","reprorepo-github-issues-reproducibility-audits-zh","ReproRepo 用 GitHub issues 做可重現性稽核","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781678882881-amo7.png","2026-06-17T06:47:34.915676+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"7cd85acd-4f96-43b7-a980-db5092ece240","variable-width-transformers-cut-wasted-capacity-zh","可變寬度 Transformer 省算力","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677978302-5pqn.png","2026-06-17T06:32:32.22399+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"956f7918-ff9c-4c2d-b8a5-e12b4ad361f2","veritas-robot-policy-visual-verification-zh","VERITAS 讓機器人邊跑邊驗證","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677082980-g8km.png","2026-06-17T06:17:37.525843+00:00",[75,80,85,90,95,100,105,110,115,120],{"id":76,"slug":77,"title":78,"created_at":79},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":81,"slug":82,"title":83,"created_at":84},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":86,"slug":87,"title":88,"created_at":89},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]