OmniAgent讓長影片先想再看

OraCore Editors

返回首頁

[RSCH] 2026年6月18日7 分鐘閱讀OraCore 編輯部

OmniAgent讓長影片先想再看

OmniAgent把長影片理解改成主動觀察、思考與行動的迴圈，讓推理成本更像跟著回合數走，而不是跟著影片長度暴增。

分享 LinkedIn

OmniAgent把長影片理解改成主動觀察、思考與行動的迴圈，讓推理成本更像跟著回合數走，而不是跟著影片長度暴增。

研究機構：arXiv 摘要未明確標註
核心數據：LVBench 50.5% 對 47.3%
突破點：POMDP 主動感知迴圈

Native Active Perception as Reasoning for Omni-Modal Understanding 這篇論文想處理的，不是單純把影片看完，而是讓模型學會「該看哪裡、何時停、何時再想」。它把長影片理解從被動掃描，改成一個會主動取證的推理流程。

這個方向對開發者很實際。因為長影片最麻煩的，往往不是模型看不懂，而是看得太多。影片越長，context 負擔越重，推理成本也越難控。作者想解的，就是這個「長度一上來，系統就開始吃不消」的痛點。

這篇論文在解什麼問題

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

傳統長影片系統多半是被動的。它們會把整段影片的影格一路處理下去，就算使用者的問題只需要其中幾秒，模型還是得把很多無關內容一起帶著走。摘要直接指出，這會帶來不必要的計算成本，也讓 context burden 隨著影片長度一起膨脹。

換句話說，影片越長，不只是資料越多，模型還要背越多包袱。這對離線分析也許還能忍，但對互動式產品就很傷。你會想要的是：模型在需要時才去找證據，而不是先把整支影片硬吞下去。

論文也提到，已有一些互動式框架，但它們仍然依賴全域預掃描。也就是說，它們雖然可能比純暴力掃描更聰明，卻還沒有真正脫離「先看過一遍再說」的思路。OmniAgent 想做的，是把選擇性觀察變成原生能力，而不是額外掛上的技巧。

這個差別對工程實作很重要。若模型只能在吃完整段影片後回答，那它比較像離線批次工具；若模型能在推理過程中主動補證據，它就更接近可以互動、可控、也更省成本的系統。

OmniAgent 的方法怎麼運作

核心概念是把影片理解建模成 POMDP，也就是 partially observable Markov decision process。白話一點說，模型不假裝自己一開始就看見全部真相。它得在每一輪裡，根據目前掌握的資訊，決定要觀察什麼、思考什麼、再採取什麼動作。

論文把這個流程寫成 Observation、Thought、Action 的循環。不是一次把整段影片掃完，而是反覆決定下一步要看哪裡。這讓感知本身變成推理的一部分，而不是推理之前的前置作業。

另一個關鍵是記憶設計。OmniAgent 不會一直把原始影片 context 全部攤在前面，而是把有用的音視覺線索萃取成持久的文字記憶。之後的推理，就主要依賴這份文字記憶來運作。

這個設計的意義很直接：把「原始影片長度」和「推理複雜度」切開。摘要明確主張，模型不必因為影片更長，就被迫承受更大的推理負擔。對長影片任務來說，這是架構層級的改寫。

訓練上，作者用了兩個組件。第一個是 Agentic Supervised Fine-Tuning，用 best-of-N trajectory synthesis 搭配雙階段品質控管，去 bootstrap 這種原生主動感知行為。第二個是 Agentic Reinforcement Learning with TAURA，TAURA 是 Turn-aware Adaptive Uncertainty Rescaled Advantage，重點是用 turn-level entropy 來做 credit assignment。

簡單講，這不是只教模型怎麼答題，而是教它怎麼替自己找題目、找證據。模型得學會在什麼時候多看一眼，什麼時候先想一下，再決定下一步。

論文實際證明了什麼

摘要提到，作者在十個 benchmark 上評估，包含 VideoMME 和 LVBench。它宣稱 OmniAgent 在 open-source models 裡達到 state-of-the-art，但摘要沒有公開完整 benchmark 表格，所以這裡看不到每個測試的細節數字。

不過摘要裡有一個很明確的對比：7B 的 OmniAgent 在 LVBench 上拿到 50.5%，而 Qwen2.5-VL-72B 是 47.3%。後者模型大十倍，結果卻輸了。這是摘要中最有說服力的一組數字，也最能說明主動感知不一定要靠更大參數量撐場。

摘要還說，OmniAgent 有 positive test-time scaling。意思是推理回合數增加時，表現會變好。這點很重要，因為它代表模型不是被鎖死在單次前向流程，而是可以用更多思考換來更好答案。

但這裡也要保守看。摘要沒有提供這些額外回合到底花多少成本，也沒有給 latency、memory usage、throughput 之類的數字。換句話說，它證明了「多想幾輪有幫助」，但沒有在摘要裡交代「多想幾輪值不值得」。

所以目前能確定的是：在摘要公開的資訊裡，OmniAgent 至少在一個明確對比上打贏了更大的模型，也展示了回合數擴展的好處。至於完整的效率曲線，還得看原文。

對開發者來說，這代表什麼

如果你在做影片助理、內容搜尋、審核系統，或任何需要處理長片段的工作流，這篇論文提供的是一種不同的架構思路。不要只想著把 context window 拉大，然後期待 brute force 解決一切。

更像樣的做法，可能是讓模型主動去收證據。當問題只跟片段中的少數時刻有關時，模型就不必浪費算力去處理整支影片。這種設計對長內容特別有吸引力，因為它把計算資源花在真正有資訊量的地方。

文字記憶也是一個實務上的亮點。相較於一直維持龐大的 raw multimodal context，文字化的記憶比較容易檢查，也比較容易除錯。摘要沒有直接證明這會讓產品更好維護，但這個方向確實更接近工程師熟悉的可觀測性思維。

另外，turn-based 的推理也可能讓互動式產品更自然。使用者不一定要一次拿到最終答案，模型可以在過程中逐步補足資訊。對某些場景來說，這比一次性吞完整段影片再吐答案，更符合真實使用流程。

主動感知可減少不必要的全片處理。
回合式推理讓長影片任務不再完全綁死在影片長度上。
文字記憶比直接塞滿多模態 context 更容易檢查。

這篇論文的限制在哪裡

最大限制是摘要資訊還不夠細。雖然我們知道它用了 POMDP、Observation-Thought-Action、文字記憶、Agentic SFT 與 TAURA，但摘要沒有交代實作細節，例如動作空間怎麼定義、記憶格式長什麼樣、模型怎麼決定下一個觀察點。

這些細節對重現很重要。因為「主動看」聽起來簡單，真正難的是怎麼讓模型穩定地知道該看哪裡、看多久、看完怎麼更新狀態。摘要沒有回答這些問題。

另一個限制是成本資訊不足。摘要只說 test-time scaling 會讓表現變好，但沒有說額外推理回合的代價是多少。對產品落地來說，這一點很關鍵。能不能用，不只看準不準，還要看算不算得起。

最後，benchmark 雖然提到十個，但摘要沒有完整列出數字，只公開了 LVBench 這組明確對比。所以目前最穩妥的判讀是：OmniAgent 展現了一條很有潛力的主動式多模態推理路線，但還不是所有長影片問題的終局解法。

即便如此，這篇論文的方向已經很清楚。長影片理解，可能不需要模型像錄影機一樣全程照單全收，而是更像調查員：先看線索，再決定下一步要去哪裡找證據。對開發者來說，這是很值得記住的設計轉向。

// 相關文章

OmniAgent讓長影片先想再看

這篇論文在解什麼問題

訂閱 AI 趨勢週報

OmniAgent 的方法怎麼運作

論文實際證明了什麼

對開發者來說，這代表什麼

這篇論文的限制在哪裡

LOCUS把美國地方法規變機器可讀

Turing-RL 讓模擬使用者更像真人

ArXiv這批 AI 論文都在補三件事

ReproRepo 用 GitHub issues 做可重現性稽核

可變寬度 Transformer 省算力

VERITAS 讓機器人邊跑邊驗證