標籤

multimodal reasoning

2 篇文章

OmniAgent讓長影片先想再看

技術研究/6月18日

OmniAgent讓長影片先想再看

OmniAgent把長影片理解改成主動觀察、思考與行動的迴圈，讓推理成本更像跟著回合數走，而不是跟著影片長度暴增。

HippoCamp：測試代理讀懂你的檔案

技術研究/4月2日

HippoCamp：測試代理讀懂你的檔案

HippoCamp 把代理丟進個人電腦的密集檔案環境，測它們能否搜尋、抓證據、做跨模態推理。結果顯示，現有模型在個人化情境仍明顯吃力。