[RSCH] 7 分鐘閱讀OraCore 編輯部

OmniAgent讓長影片先想再看

OmniAgent把長影片理解改成主動觀察、思考與行動的迴圈,讓推理成本更像跟著回合數走,而不是跟著影片長度暴增。

分享 LinkedIn
OmniAgent讓長影片先想再看

OmniAgent把長影片理解改成主動觀察、思考與行動的迴圈,讓推理成本更像跟著回合數走,而不是跟著影片長度暴增。

  • 研究機構:arXiv 摘要未明確標註
  • 核心數據:LVBench 50.5% 對 47.3%
  • 突破點:POMDP 主動感知迴圈

Native Active Perception as Reasoning for Omni-Modal Understanding 這篇論文想處理的,不是單純把影片看完,而是讓模型學會「該看哪裡、何時停、何時再想」。它把長影片理解從被動掃描,改成一個會主動取證的推理流程。

這個方向對開發者很實際。因為長影片最麻煩的,往往不是模型看不懂,而是看得太多。影片越長,context 負擔越重,推理成本也越難控。作者想解的,就是這個「長度一上來,系統就開始吃不消」的痛點。

這篇論文在解什麼問題

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

傳統長影片系統多半是被動的。它們會把整段影片的影格一路處理下去,就算使用者的問題只需要其中幾秒,模型還是得把很多無關內容一起帶著走。摘要直接指出,這會帶來不必要的計算成本,也讓 context burden 隨著影片長度一起膨脹。

OmniAgent讓長影片先想再看

換句話說,影片越長,不只是資料越多,模型還要背越多包袱。這對離線分析也許還能忍,但對互動式產品就很傷。你會想要的是:模型在需要時才去找證據,而不是先把整支影片硬吞下去。

論文也提到,已有一些互動式框架,但它們仍然依賴全域預掃描。也就是說,它們雖然可能比純暴力掃描更聰明,卻還沒有真正脫離「先看過一遍再說」的思路。OmniAgent 想做的,是把選擇性觀察變成原生能力,而不是額外掛上的技巧。

這個差別對工程實作很重要。若模型只能在吃完整段影片後回答,那它比較像離線批次工具;若模型能在推理過程中主動補證據,它就更接近可以互動、可控、也更省成本的系統。

OmniAgent 的方法怎麼運作

核心概念是把影片理解建模成 POMDP,也就是 partially observable Markov decision process。白話一點說,模型不假裝自己一開始就看見全部真相。它得在每一輪裡,根據目前掌握的資訊,決定要觀察什麼、思考什麼、再採取什麼動作。

論文把這個流程寫成 Observation、Thought、Action 的循環。不是一次把整段影片掃完,而是反覆決定下一步要看哪裡。這讓感知本身變成推理的一部分,而不是推理之前的前置作業。

另一個關鍵是記憶設計。OmniAgent 不會一直把原始影片 context 全部攤在前面,而是把有用的音視覺線索萃取成持久的文字記憶。之後的推理,就主要依賴這份文字記憶來運作。

這個設計的意義很直接:把「原始影片長度」和「推理複雜度」切開。摘要明確主張,模型不必因為影片更長,就被迫承受更大的推理負擔。對長影片任務來說,這是架構層級的改寫。

訓練上,作者用了兩個組件。第一個是 Agentic Supervised Fine-Tuning,用 best-of-N trajectory synthesis 搭配雙階段品質控管,去 bootstrap 這種原生主動感知行為。第二個是 Agentic Reinforcement Learning with TAURA,TAURA 是 Turn-aware Adaptive Uncertainty Rescaled Advantage,重點是用 turn-level entropy 來做 credit assignment。

簡單講,這不是只教模型怎麼答題,而是教它怎麼替自己找題目、找證據。模型得學會在什麼時候多看一眼,什麼時候先想一下,再決定下一步。

論文實際證明了什麼

摘要提到,作者在十個 benchmark 上評估,包含 VideoMME 和 LVBench。它宣稱 OmniAgent 在 open-source models 裡達到 state-of-the-art,但摘要沒有公開完整 benchmark 表格,所以這裡看不到每個測試的細節數字。

OmniAgent讓長影片先想再看

不過摘要裡有一個很明確的對比:7B 的 OmniAgent 在 LVBench 上拿到 50.5%,而 Qwen2.5-VL-72B 是 47.3%。後者模型大十倍,結果卻輸了。這是摘要中最有說服力的一組數字,也最能說明主動感知不一定要靠更大參數量撐場。

摘要還說,OmniAgent 有 positive test-time scaling。意思是推理回合數增加時,表現會變好。這點很重要,因為它代表模型不是被鎖死在單次前向流程,而是可以用更多思考換來更好答案。

但這裡也要保守看。摘要沒有提供這些額外回合到底花多少成本,也沒有給 latency、memory usage、throughput 之類的數字。換句話說,它證明了「多想幾輪有幫助」,但沒有在摘要裡交代「多想幾輪值不值得」。

所以目前能確定的是:在摘要公開的資訊裡,OmniAgent 至少在一個明確對比上打贏了更大的模型,也展示了回合數擴展的好處。至於完整的效率曲線,還得看原文。

對開發者來說,這代表什麼

如果你在做影片助理、內容搜尋、審核系統,或任何需要處理長片段的工作流,這篇論文提供的是一種不同的架構思路。不要只想著把 context window 拉大,然後期待 brute force 解決一切。

更像樣的做法,可能是讓模型主動去收證據。當問題只跟片段中的少數時刻有關時,模型就不必浪費算力去處理整支影片。這種設計對長內容特別有吸引力,因為它把計算資源花在真正有資訊量的地方。

文字記憶也是一個實務上的亮點。相較於一直維持龐大的 raw multimodal context,文字化的記憶比較容易檢查,也比較容易除錯。摘要沒有直接證明這會讓產品更好維護,但這個方向確實更接近工程師熟悉的可觀測性思維。

另外,turn-based 的推理也可能讓互動式產品更自然。使用者不一定要一次拿到最終答案,模型可以在過程中逐步補足資訊。對某些場景來說,這比一次性吞完整段影片再吐答案,更符合真實使用流程。

  • 主動感知可減少不必要的全片處理。
  • 回合式推理讓長影片任務不再完全綁死在影片長度上。
  • 文字記憶比直接塞滿多模態 context 更容易檢查。

這篇論文的限制在哪裡

最大限制是摘要資訊還不夠細。雖然我們知道它用了 POMDP、Observation-Thought-Action、文字記憶、Agentic SFT 與 TAURA,但摘要沒有交代實作細節,例如動作空間怎麼定義、記憶格式長什麼樣、模型怎麼決定下一個觀察點。

這些細節對重現很重要。因為「主動看」聽起來簡單,真正難的是怎麼讓模型穩定地知道該看哪裡、看多久、看完怎麼更新狀態。摘要沒有回答這些問題。

另一個限制是成本資訊不足。摘要只說 test-time scaling 會讓表現變好,但沒有說額外推理回合的代價是多少。對產品落地來說,這一點很關鍵。能不能用,不只看準不準,還要看算不算得起。

最後,benchmark 雖然提到十個,但摘要沒有完整列出數字,只公開了 LVBench 這組明確對比。所以目前最穩妥的判讀是:OmniAgent 展現了一條很有潛力的主動式多模態推理路線,但還不是所有長影片問題的終局解法。

即便如此,這篇論文的方向已經很清楚。長影片理解,可能不需要模型像錄影機一樣全程照單全收,而是更像調查員:先看線索,再決定下一步要去哪裡找證據。對開發者來說,這是很值得記住的設計轉向。