[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-longmemeval-v2-agent-memory-web-workflows-zh":3,"article-related-longmemeval-v2-agent-memory-web-workflows-zh":30,"series-research-cec2d028-df49-4444-a0e2-e857109414bf":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"cec2d028-df49-4444-a0e2-e857109414bf","longmemeval-v2-agent-memory-web-workflows-zh","LongMemEval-V2：測 agent 長期記憶","\u003Cp data-speakable=\"summary\">LongMemEval-V2 用 451 題測試 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 能否記住 Web 環境經驗，而不只是使用者歷史。\u003C\u002Fp>\u003Cp>對很多 agent 來說，記憶一直是個卡點。問題不只在於要不要記住使用者說過\u003Ca href=\"\u002Fnews\u002Fwhy-anthropic-200b-google-cloud-pledge-changes-ai-race-zh\">什麼\u003C\u002Fa>，而是能不能記住某個 Web 環境的規則、介面變化、常見失誤，還有哪些工作流程真的有用。這篇 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.12493\">LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues\u003C\u002Fa>，就是要把這件事拿來直接測。\u003C\u002Fp>\u003Cp>它想回答的不是「agent 有沒有記憶功能」，而是更實際的問題：當 agent 在同一個環境裡反覆工作後，記憶系統能不能把那些經驗累積起來，讓它表現得像一個熟悉現場的同事，\u003Ca href=\"\u002Fnews\u002Fwhy-ai-coding-assistants-need-tighter-governance-zh\">而不是\u003C\u002Fa>每次都從零開始。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>現有很多 agent 記憶評測，重點都放在使用者歷史、短對話軌跡，或是任務有沒有做完。這種測法有它的價值，但它會漏掉一大塊真實場景裡很重要的東西：環境本身的經驗。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778653249376-2wo2.png\" alt=\"LongMemEval-V2：測 agent 長期記憶\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>在 Web 工作流程裡，很多成功與失敗不是來自單次對話，而是來自你有沒有記住某個系統的靜態狀態、它會怎麼變、哪種流程比較穩、哪些坑很容易重踩。若 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 沒有把這些納進來，就很容易高估記憶系統的實用性。\u003C\u002Fp>\u003Cp>LongMemEval-V2 的核心想法很直接：記憶不該只是存資料，而是要把反覆接觸環境後累積的經驗內化進去。也就是說，它評的不是背誦能力，而是經驗沉澱能力。\u003C\u002Fp>\u003Ch2>方法怎麼做\u003C\u002Fh2>\u003Cp>LongMemEval-V2 一共收了 451 題手工整理的問題。這些問題被整理成五種 Web agent 的記憶能力：static state recall、dynamic state tracking、workflow knowledge、environment gotc\u003Ca href=\"\u002Fnews\u002Falphagrpo-self-reflective-multimodal-generation-zh\">ha\u003C\u002Fa>s、premise awareness。這五類本身就很能反映作者想測的不是單純問答，而是 agent 對環境的整體理解。\u003C\u002Fp>\u003Cp>每一題都會配上歷史 trajectories，而且這些歷史可以多到 500 條 trajectories、總計 115M tokens。這代表它不是小型回憶題，而是很明顯的\u003Ca href=\"\u002Ftag\u002F長上下文\">長上下文\u003C\u002Fa>記憶測試。對記憶系統來說，重點不是能不能看懂一段歷史，而是能不能在一大堆歷史裡找出有用的那一段。\u003C\u002Fp>\u003Cp>作者把這個流程定義成 context gathering formulation。白話一點，就是記憶系統先讀歷史軌跡，再吐出可以用來回答問題的精簡證據。這樣的設計，測的不只是存不存得住，也測取回來的內容是不是對的、是不是剛好夠用。\u003C\u002Fp>\u003Cp>論文在這個框架下比較了兩種記憶方法：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>AgentRunbook-R\u003C\u002Fstrong>：一種效率導向的 RAG 記憶法，分成 raw state observations、events、strategy notes 這幾個知識池\u003C\u002Fli>\u003Cli>\u003Cstrong>AgentRunbook-C\u003C\u002Fstrong>：把 trajectories 存成檔案，再用 coding agent 在增強 sandbox 裡蒐集證據\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這個對比很有意思。它不是只在比兩個模型誰比較會答題，而是在比兩種完全不同的記憶工作流：一種偏向檢索，一種偏向主動蒐證。這對實作端很重要，因為很多團隊現在都在想，單靠 \u003Ca href=\"\u002Ftag\u002Frag\">RAG\u003C\u002Fa> 式記憶到底夠不夠，還是要讓 agent 自己去整理、推敲、抓證據。\u003C\u002Fp>\u003Ch2>結果證明了什麼\u003C\u002Fh2>\u003Cp>摘要裡最明確的數字，是 AgentRunbook-C 的平均準確率達到 72.5%。這個成績高於最強的 RAG baseline，後者是 48.5%，也高於 off-the-shelf coding agent baseline 的 69.3%。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778653264341-yzk7.png\" alt=\"LongMemEval-V2：測 agent 長期記憶\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這組結果透露出一個很清楚的訊號：單純把資訊檢索出來，和用 coding agent 去歷史軌跡裡蒐證，能力差距不小。換句話說，對長期 agent 記憶來說，「能找到資料」不等於「能把經驗用對」。\u003C\u002Fp>\u003Cp>論文也提到，AgentRunbook-C 在 accuracy-latency Pareto frontier 上有進步。這句話的意思很務實：它在準確率上更好，但不是沒有代價。作者同時明講，基於 coding agent 的方法有很高的延遲成本。也就是說，效果更好，不代表部署起來就一定輕鬆。\u003C\u002Fp>\u003Cp>摘要沒有公開更細的 benchmark breakdown，因此看不到五種記憶能力各自的表現差異。就目前公開資訊來看，我們只能確認整體平均準確率與方法間的落差，還不能進一步判斷哪一類記憶最難、哪一類最容易。\u003C\u002Fp>\u003Cp>不過，從作者的描述可以看出，LME-V2 被設計成一個有挑戰性的測試。就算最強方法拿到目前的最佳成績，也仍然留有不少改善空間。這代表長期 agent 記憶還不是一個已經被解完的題目。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做的是專門跑 Web 工作流程的 agent，這篇論文很值得放進你的評估清單。它提醒我們，記憶不是單純的資料庫問題，而是「經驗管理」問題。agent 要記的不只是事實，還包括環境狀態、流程習慣、常見陷阱，以及哪些前提在這個系統裡成立。\u003C\u002Fp>\u003Cp>這對很多架構都會有影響。像是依賴 retrieval 的 agent、用 runbook 管理操作步驟的系統，或是要長期維持操作知識的工作流，都會碰到同一個問題：如果只記住使用者，卻沒記住環境，錯誤還是會一再重演。\u003C\u002Fp>\u003Cp>LongMemEval-V2 提供了一個比較像真實世界的壓力測試。它逼你回答一個很工程化的問題：你的記憶堆疊，到底只是存檔，還是真的把環境經驗吸收進去。對台灣開發團隊來說，這種測法特別適合拿來檢查內部 agent 是否真的能在固定系統裡越做越順，而不是每次都像第一次上線。\u003C\u002Fp>\u003Cp>但這篇也有明顯限制。摘要沒有說這些方法能不能泛化到 benchmark 以外的環境，也沒有交代不同環境設定下的敏感度。它也沒有告訴我們，五種記憶能力裡哪一種最難，或是 coding-agent 式蒐證在 production 的嚴格延遲要求下是否仍然可行。\u003C\u002Fp>\u003Cp>所以，這篇論文更像是一個方向明確的壓力測試，而不是一個已經定案的最佳解。它把討論重心從「agent 會不會記得」往前推了一步，變成「agent 能不能真的學會這個環境，並把學到的東西用在下一次任務裡」。\u003C\u002Fp>\u003Cp>對現在正在做 agent 的團隊來說，這個問題幾乎就是實戰核心。因為真正有價值的記憶，不是把歷史堆起來，而是讓系統在下一次遇到同樣情境時，少犯一次同樣的錯。\u003C\u002Fp>","LongMemEval-V2 用 451 題測試 agent 能否記住 Web 環境經驗，而不只是使用者歷史；結果顯示以 coding agent 蒐證的記憶法準確率最高，但延遲也更高。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.12493",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778653249376-2wo2.png","research","zh","442f0ac0-6fd2-460b-83ab-694f0627d98f",[17,18,19,20,21],"agent memory","web workflows","RAG","coding agent","long-context evaluation",[23,24,25],"LongMemEval-V2 不是測使用者記憶，而是測 agent 能否記住 Web 環境經驗。","451 題、最高 500 條 trajectories、115M tokens，讓它成為明顯的長上下文記憶測試。","AgentRunbook-C 以 72.5% 平均準確率勝過 RAG baseline 的 48.5%，但延遲成本也更高。",5,"2026-05-13T06:20:29.320872+00:00","2026-05-13T06:20:29.298+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":19,"slug":33},"rag",{"name":17,"slug":35},"agent-memory",{"name":20,"slug":37},"coding-agent",{"name":18,"slug":39},"web-workflows",{"name":21,"slug":41},"long-context-evaluation",{"id":15,"slug":43,"title":44,"language":45},"longmemeval-v2-agent-memory-web-workflows-en","LongMemEval-V2 tests agent memory in web workflows","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"42510df4-4692-44c6-a45a-c82a4a86b646","tls-turns-insecure-links-into-encrypted-sessions-zh","TLS 把明文連線變成加密會話","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780596207456-9or4.png","2026-06-04T18:02:50.988357+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"4fa896da-9616-425a-92bc-c1d7d5861ff9","streamma-multi-agent-reasoning-latency-zh","StreamMA 讓多代理推理邊想邊傳","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780554786134-1w1d.png","2026-06-04T06:32:32.769423+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"f31f51ba-4445-4e43-9bda-31e70f53d42b","audio-language-models-arbitration-reversals-zh","音訊模型不是聽不懂","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780553877373-ux95.png","2026-06-04T06:17:27.890159+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"447ac6c9-477b-45c8-bec2-ff94dc4cf5d4","stride-training-data-attribution-sparse-recovery-zh","STRIDE 讓訓練資料歸因快 13 倍","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780552979370-897a.png","2026-06-04T06:02:29.149166+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]