[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-hippocamp-benchmarks-contextual-agents-personal-computers-zh":3,"article-related-hippocamp-benchmarks-contextual-agents-personal-computers-zh":25,"series-research-5891a3dd-ae46-4ae3-b885-21da33df572b":68},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":22,"created_at":23,"published_at":24,"topic_cluster_id":11},"5891a3dd-ae46-4ae3-b885-21da33df572b","hippocamp-benchmarks-contextual-agents-personal-computers-zh","HippoCamp：測試代理讀懂你的檔案","\u003Cp>大多數 agent benchmark 測的是網頁、工具操作，或是一般軟體流程。\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.01221\">HippoCamp: Benchmarking Contextual Agents on Personal Computers\u003C\u002Fa> 直接把焦點移到更接近真實助理的場景：在個人電腦裡，從使用者自己的檔案中找資料、讀證據、再推理出答案。\u003C\u002Fp>\u003Cp>這件事很重要。因為「個人 AI」真正有用的前提，不是會講話，而是能處理雜亂、跨格式、而且高度個人化的上下文。HippoCamp 想測的，就是這種能力。從論文摘要看起來，現有模型一旦檔案數量變多、證據分散到不同檔案類型，表現就會明顯掉下來。\u003C\u002Fp>\u003Ch2>這篇論文想補哪個洞\u003C\u002Fh2>\u003Cp>作者要修補的，是現有 a\u003Ca href=\"\u002Fnews\u002Fwhy-crypto-is-fixated-on-ai-agents-zh\">gent\u003C\u002Fa> benchmark 跟真實需求之間的落差。模型可以在網頁瀏覽或工具調用上看起來不錯，但當任務變成在成千上萬個檔案裡找線索、把不同格式的資訊串起來，還要對特定使用者的脈絡做判斷，很多系統就開始失真。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775115018736-v5vd.png\" alt=\"HippoCamp：測試代理讀懂你的檔案\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>HippoCamp 的出發點，就是把這種「上下文感知」的能力拆出來單獨測。它不是在問代理能不能回答一個抽象問題，而是在問：代理能不能在一台真實感更高的個人電腦環境裡，像助理一樣工作。\u003C\u002Fp>\u003Cp>論文把這件事定位成一個 multimodal file management 問題。這個定義很關鍵，因為個人資料本來就很少是單一格式。文字、圖片、各種附件都可能混在一起，而真正有用的答案，往往不是從單一檔案讀出來，而是要跨檔案、跨模態拼出來。\u003C\u002Fp>\u003Ch2>HippoCamp 怎麼設計\u003C\u002Fh2>\u003Cp>這個 benchmark 不是拿幾份簡單文件來測，而是建立 device-scale 的檔案系統，模擬真實世界的使用者檔案環境。根據摘要，資料規模達到 42.4 GB，包含超過 2K 份真實世界檔案。這樣的規模很重要，因為它會讓搜尋、定位、與證據對齊變得不再輕鬆。\u003C\u002Fp>\u003Cp>作者接著從這些原始檔案中整理出 581 組 QA pairs，用來測三件核心能力：搜尋、證據感知、以及多步推理。這種拆法很實用。因為真實任務裡，代理常常不是卡在同一個地方。有時是找不到檔案，有時是找到了卻讀錯重點，有時則是證據都對了，最後卻沒辦法把它們組成正確答案。\u003C\u002Fp>\u003Cp>HippoCamp 另外還提供 46.1K 筆密集標註的 structured trajectories，用來做 step-wise failure diagnosis。這是這篇 benchmark 的一個重點。很多測試只給你最終對錯，卻不告訴你中間哪一步壞掉。這裡的 trajectories 則是要讓研究者看見代理在哪一段掉鏈子，方便把問題拆開來修。\u003C\u002Fp>\u003Cp>換句話說，HippoCamp 不只是排行榜。它也像一個診斷工具。當模型失敗時，研究者可以更細地看出是搜尋、感知、grounding，還是多步推理出了問題。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>作者評估了多種 state-of-the-art 的 multimodal large language models 與 a\u003Ca href=\"\u002Fnews\u002Fgoogle-agent-smith-ai-coding-employees-zh\">gent\u003C\u002Fa>ic methods。摘要裡最醒目的結果是：即使是最強的商用模型，在 user profiling 任務上也只有 48.3% accuracy。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775115035565-xavs.png\" alt=\"HippoCamp：測試代理讀懂你的檔案\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個數字很直接地說明一件事：現階段的系統，離穩定處理密集個人檔案系統還有明顯距離。尤其是 long-horizon retrieval 和 cross-modal reasoning 這兩項能力，HippoCamp 特別把它們的弱點暴露出來，而這恰好是個人助理最需要的技能。\u003C\u002Fp>\u003Cp>step-wise failure analysis 也指出兩個主要瓶頸：multimodal perception 和 evidence grounding。白話說，就是不只「會不會找」，還包括「找到之後會不會看對」，以及「回答時能不能把結論牢牢對回證據」。這代表問題不是單純的搜尋能力不足，而是整條從搜尋、理解到推理的鏈路都有可能斷掉。\u003C\u002Fp>\u003Cp>這篇論文沒有走產品宣傳那種路線，也沒有給出一堆面向消費者的亮眼說法。它是 benchmark 論文，重點在評測設計與失敗分析。摘要裡也沒有公開更多完整 benchmark 細節，所以目前最明確、最值得記住的數字，就是 48.3% 這個 accuracy。\u003C\u002Fp>\u003Cul>\u003Cli>42.4 GB 資料，超過 2K 份真實世界檔案\u003C\u002Fli>\u003Cli>581 組 QA pairs，涵蓋搜尋、證據感知、推理\u003C\u002Fli>\u003Cli>46.1K 筆 structured trajectories，用來做逐步失敗診斷\u003C\u002Fli>\u003Cli>最強商用模型在 user profiling 上只有 48.3% accuracy\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>對開發者代表什麼\u003C\u002Fh2>\u003Cp>如果你在做 a\u003Ca href=\"\u002Fnews\u002Famd-gaia-017-local-agent-ui-zh\">gent\u003C\u002Fa>，這篇論文是在提醒一件很現實的事：會用工具，不等於懂使用者的世界。很多模型在一般 benchmark 看起來表現不錯，但一旦進到個人檔案系統這種雜亂、密集、跨模態的環境，能力就會快速下滑。\u003C\u002Fp>\u003Cp>對產品設計來說，這會直接影響架構思路。retrieval 不能只做 top-k 文件搜尋，還得面對長距離、多步驟的找資料過程。reasoning 層也不能只產生看起來合理的文字，而是要把答案確實綁回檔案裡的證據。至於 multimodal perception，則要能從文字、圖片等不同資料型態中抓出可用訊息。\u003C\u002Fp>\u003Cp>HippoCamp 也有研究上的價值。因為它提供 structured trajectories，所以不只是看一個分數而已，還能幫團隊定位是哪種失敗模式最嚴重。對想優化特定環節的人來說，這比單一 accuracy 更有用。\u003C\u002Fp>\u003Cp>但這篇論文的範圍也很明確。它測的是 contextual agents on personal computers，不是所有 agent 能力的總表。它也沒有宣稱某種方法已經解決這個問題。它真正做的，是把落差量化出來，讓大家知道這條路還很長。\u003C\u002Fp>\u003Cp>如果你的產品依賴個人上下文，這篇研究的訊號很清楚：你不能只在合成任務上測代理，還得在真實的個人資料情境裡測。因為使用者真正要的，不是「看起來會做事」的 bot，而是能在自己的檔案裡找到對的東西、讀懂對的內容，最後做出對的判斷。\u003C\u002Fp>\u003Cp>HippoCamp 提供的，就是這個標準的第一個可量化版本。它讓研究社群可以更直接地問：現有系統離真正的個人助理，到底還差多遠。\u003C\u002Fp>\u003Ch2>為什麼這類 benchmark 會越來越重要\u003C\u002Fh2>\u003Cp>隨著 agent 能力往個人化應用走，評測方式也得跟著升級。只看網頁問答或一般工具操作，已經不夠反映真實使用情境。個人電腦裡的資料通常是亂的、舊的、跨格式的，而且還有很強的個人脈絡。這些特性，正是傳統 benchmark 最容易忽略的地方。\u003C\u002Fp>\u003Cp>HippoCamp 的價值就在這裡。它不是在追求一個更漂亮的分數，而是把「代理在真實上下文裡到底能不能工作」這個問題，變成能被測、能被拆解、也能被診斷的研究題目。對開發者來說，這比任何空泛的能力宣稱都更接近實戰。\u003C\u002Fp>\u003Cp>從這篇摘要能看見的結論很一致：個人化 agent 不是不能做，而是現在還遠沒有成熟到可以放心處理密集個人檔案。要跨過這個門檻，搜尋、感知、grounding、推理都得一起進步。HippoCamp 只是把這個缺口，先清楚地量出來而已。\u003C\u002Fp>","HippoCamp 把代理丟進個人電腦的密集檔案環境，測它們能否搜尋、抓證據、做跨模態推理。結果顯示，現有模型在個人化情境仍明顯吃力。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.01221",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775115018736-v5vd.png","research","zh","be5dca83-11ca-4d7b-b1b8-ec3eb4005a8c",[17,18,19,20,21],"agent benchmark","multimodal reasoning","personal files","retrieval","grounding",8,"2026-04-02T06:03:26.551059+00:00","2026-04-02T06:03:26.522+00:00",{"tags":26,"relatedLang":27,"relatedPosts":31},[],{"id":15,"slug":28,"title":29,"language":30},"hippocamp-benchmarks-contextual-agents-personal-computers-en","HippoCamp tests agents on your personal files","en",[32,38,44,50,56,62],{"id":33,"slug":34,"title":35,"cover_image":36,"image_url":36,"created_at":37,"category":13},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","2026-06-29T16:32:28.457338+00:00",{"id":39,"slug":40,"title":41,"cover_image":42,"image_url":42,"created_at":43,"category":13},"29321237-6e9a-4271-b9fb-e43e798d5dff","glm-52-beats-claude-semgrep-idor-test-zh","GLM 5.2 在 IDOR 測試贏過 Claude","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782749882713-7i5n.png","2026-06-29T16:17:31.911487+00:00",{"id":45,"slug":46,"title":47,"cover_image":48,"image_url":48,"created_at":49,"category":13},"5172bfc7-34c8-4477-a177-ffa615497ecf","opd-distillation-skills-without-bruteforce-rl-zh","OPD 讓你把技能蒸餾進模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782730101413-5wjx.png","2026-06-29T10:47:57.457072+00:00",{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"c649adb7-c8ae-4ade-a092-2c0d53beeb71","measuring-llm-behavior-portability-zh","LLM 行為不一定可移植","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782717472977-na8g.png","2026-06-29T07:17:29.597679+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"637c3016-e364-4bfe-904e-5e60a18ed678","prompt-injection-ai-security-problem-zh","Prompt injection 已是 AI 資安問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782716580916-m1nm.png","2026-06-29T07:02:36.173749+00:00",[69,74,79,84,89,94,99,104,109,114],{"id":70,"slug":71,"title":72,"created_at":73},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":75,"slug":76,"title":77,"created_at":78},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":80,"slug":81,"title":82,"created_at":83},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]