[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-new-nlp-papers-agent-memory-tool-use-zh":3,"article-related-new-nlp-papers-agent-memory-tool-use-zh":33,"series-research-f9ec6d6f-80a9-4a8e-b3ea-1eb5231aa796":78},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":24,"views":29,"created_at":30,"published_at":31,"topic_cluster_id":32},"f9ec6d6f-80a9-4a8e-b3ea-1eb5231aa796","new-nlp-papers-agent-memory-tool-use-zh","新 NLP 論文盯上代理記憶與工具使用","\u003Cp data-speakable=\"summary\">這篇整理 6 月 24 日的 NLP 論文，重點是 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 記憶、工具使用評估，還有對話式搜尋。\u003C\u002Fp>\u003Cp>說真的，這批論文很像在提醒大家：demo 跑得動，不代表系統真的穩。這次整理來自 \u003Ca href=\"https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2053118269205360652\" target=\"_blank\" rel=\"noopener\">Zhihu\u003C\u002Fa> 的 arXiv roundup，裡面最吸睛的是 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002Fcs?query=Metis%3A+Bridging+Text+and+Code+Memory+for+Self-Evolving+Agents&searchtype=all\" target=\"_blank\" rel=\"noopener\">Metis\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002Fcs?query=When+Retrieval+Metrics+Mislead%3A+Measuring+Policy+Signal+in+Long-Horizon+Tool-Use+Agents&searchtype=all\" target=\"_blank\" rel=\"noopener\">When Retrieval Metrics Mislead\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002Fcs?query=Dialogue+to+Discovery%3A+Attribute-Aware+Preference+Elicitation+for+Conversational+Product+Search+Assistants&searchtype=all\" target=\"_blank\" rel=\"noopener\">Dialogue to Discovery\u003C\u002Fa>。這三篇都很實際，沒有在講空話。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Paper\u003C\u002Fth>\u003Cth>Focus\u003C\u002Fth>\u003Cth>Why it matters\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>Metis\u003C\u002Ftd>\u003Ctd>Text and code memory for self-evolving agents\u003C\u002Ftd>\u003Ctd>處理 agent 跨文字與程式碼的記憶\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>When Retrieval Metrics Mislead\u003C\u002Ftd>\u003Ctd>Policy signal in long-horizon tool use\u003C\u002Ftd>\u003Ctd>檢查 retrieval 分數是否真的反映行為\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Dialogue to Discovery\u003C\u002Ftd>\u003Ctd>Attribute-aware preference elicitation\u003C\u002Ftd>\u003Ctd>讓對話式產品搜尋更懂使用者偏好\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>Agent 記憶正在變成系統問題\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002Fcs?query=Metis%3A+Bridging+Text+and+Code+Memory+for+Self-Evolving+Agents&searchtype=all\" target=\"_blank\" rel=\"noopener\">Metis\u003C\u002Fa> 這篇的重點，不是單純把對話記錄存起來。它在碰一個更麻煩的問題：agent 會寫 code、會讀文件、會改自己的行為，那記憶就不能只分成「文字筆記」和「工具紀錄」兩包。這種切法太粗了。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782371888802-40t8.png\" alt=\"新 NLP 論文盯上代理記憶與工具使用\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>你如果做過 agent，就知道記憶最容易壞在交接。今天存的是 prompt，明天存的是 patch，後天又變成工具輸出。資料格式一亂，模型就開始胡扯。這不是模型不夠聰明，是系統根本沒把上下文管理好。\u003C\u002Fp>\u003Cp>講白了，agent 記憶現在已經不是 RAG 小技巧，而是架構題。它要能保留上下文，也要能更新版本。還要能讓模型在幾天後回來時，找得到正確\u003Ca href=\"\u002Fnews\u002Fcccl-runtime-makes-cuda-safer-by-making-state-explicit-zh\">狀態\u003C\u002Fa>。\u003C\u002Fp>\u003Cul>\u003Cli>文字記憶放計畫、指令、解釋。\u003C\u002Fli>\u003Cli>程式碼記憶放函式、修補、實作細節。\u003C\u002Fli>\u003Cli>自我演化 agent 兩種記憶都要。\u003C\u002Fli>\u003Cli>記憶壞掉，agent 很快就會變笨。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>retrieval 分數不一定代表 policy 好\u003C\u002Fh2>\u003Cp>第二篇 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002Fcs?query=When+Retrieval+Metrics+Mislead%3A+Measuring+Policy+Signal+in+Long-Horizon+Tool-Use+Agents&searchtype=all\" target=\"_blank\" rel=\"noopener\">When Retrieval Metrics Mislead\u003C\u002Fa> 很直接。它在打臉一個常見想法：retrieval 分數高，agent 就一定做得好。其實不然。你可以把文件找對，也可以把 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 呼叫對，但整體任務還是失敗。\u003C\u002Fp>\u003Cp>原因很簡單。工具型 agent 的問題不只在「找什麼」，還在「下一步做什麼」。如果 policy 弱，retrieval 再漂亮也沒用。這就像外送員找到了地址，卻不知道要不要上樓，最後還是送錯。\u003C\u002Fp>\u003Cp>這篇的價值，在於它提醒大家別只看 top-k。長鏈任務裡，模型要會 retry、要會停、要會問人。這些行為常常不會反映在單一 retrieval 指標上。\u003C\u002Fp>\u003Cblockquote>\u003Cp>“Evaluating retrieval in isolation is insufficient for understanding the behavior of tool-using agents.”\u003C\u002Fp>\u003C\u002Fblockquote>\u003Cp>這句話很硬，但很對。很多團隊在做 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 時，只追求命中率。結果把系統調到很會撈資料，卻不會做決策。這種東西上線後很容易翻車。\u003C\u002Fp>\u003Cul>\u003Cli>高 retrieval accuracy 不等於強 multi-step reasoning。\u003C\u002Fli>\u003Cli>長鏈任務會放大 policy 錯誤。\u003C\u002Fli>\u003Cli>評估要看 task completion，不只看命中率。\u003C\u002Fli>\u003Cli>要追蹤 retries、失敗恢復、停損行為。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>對話式搜尋開始變得更有結構\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002Fcs?query=Dialogue+to+Discovery%3A+Attribute-Aware+Preference+Elicitation+for+Conversational+Product+Search+Assistants&searchtype=all\" target=\"_blank\" rel=\"noopener\">Dialogue to Discovery\u003C\u002Fa> 把焦點拉回使用者。它不是把產品搜尋當聊天，而是把它當成偏好蒐集。這差很多。前者容易變成廢話機器，後者才真的能幫人縮小選項。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782371888118-p3h6.png\" alt=\"新 NLP 論文盯上代理記憶與工具使用\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>你應該也遇過這種搜尋。使用者只會說「輕薄、續航好、出差用、預算不要太高」。這些詞很人話，但對系統來說很模糊。attribute-aware 的做法，就是把這些描述拆成可操作的條件，像是重量、電池、材質、價格帶。\u003C\u002Fp>\u003Cp>對電商或站內搜尋團隊來說，這篇很有參考價值。搜尋助理如果只會回一段漂亮文案，沒什麼用。它要能問對問題，然後把對話轉成排序訊號。\u003C\u002Fp>\u003Cp>這也解釋了為什麼很多產品搜尋助理做不起來。不是模型不會講話，是它不知道怎麼把人類的模糊需求，變成可搜尋的結構化資料。\u003C\u002Fp>\u003Cul>\u003Cli>把搜尋當對話，不如把它當偏好蒐集。\u003C\u002Fli>\u003Cli>屬性化問題比泛泛問答更有效。\u003C\u002Fli>\u003Cli>產品搜尋需要結構化條件，不只自然語言。\u003C\u002Fli>\u003Cli>搜尋助理要會問問題，也要會排序。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>這批論文在比什麼\u003C\u002Fh2>\u003Cp>如果把這三篇放一起看，脈絡其實很清楚。\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002Fcs?query=Metis%3A+Bridging+Text+and+Code+Memory+for+Self-Evolving+Agents&searchtype=all\" target=\"_blank\" rel=\"noopener\">Metis\u003C\u002Fa> 在談記憶，\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002Fcs?query=When+Retrieval+Metrics+Mislead%3A+Measuring+Policy+Signal+in+Long-Horizon+Tool-Use+Agents&searchtype=all\" target=\"_blank\" rel=\"noopener\">When Retrieval Metrics Mislead\u003C\u002Fa> 在談評估，\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fsearch\u002Fcs?query=Dialogue+to+Discovery%3A+Attribute-Aware+Preference+Elicitation+for+Conversational+Product+Search+Assistants&searchtype=all\" target=\"_blank\" rel=\"noopener\">Dialogue to Discovery\u003C\u002Fa> 在談互動。三個方向不同，但都在處理同一件事：系統怎麼在真實場景裡繼續工作。\u003C\u002Fp>\u003Cp>這也是現在 NLP 很實際的地方。大家已經不太滿足於「模型會回答」。真正麻煩的是，它能不能記住前文，能不能選對工具，能不能在錯誤裡恢復，還能不能理解使用者到底想買什麼。\u003C\u002Fp>\u003Cp>如果你看 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fopenai-cookbook\" target=\"_blank\" rel=\"noopener\">OpenAI Cookbook\u003C\u002Fa> 這類實作資料，也會發現同樣的痛點。模型本身只是其中一塊。真正拉開差距的，常常是 memory format、evaluation design、和 interaction design。這些東西很無聊，但很要命。\u003C\u002Fp>\u003Cul>\u003Cli>記憶決定 agent 能不能持續學。\u003C\u002Fli>\u003Cli>評估決定團隊會不會做錯優化。\u003C\u002Fli>\u003Cli>互動設計決定使用者能不能講清楚需求。\u003C\u002Fli>\u003Cli>三者缺一，系統就容易卡在 demo 階段。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>這波研究也反映產業現況\u003C\u002Fh2>\u003Cp>這類論文之所以多，是因為業界真的碰到瓶頸了。\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 早就能生文字，但一碰到工具、資料庫、搜尋、長流程，就開始露餡。大家以前愛比 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa>、比參數、比跑分，現在更常比的是穩定度和任務完成率。\u003C\u002Fp>\u003Cp>這個轉向很合理。因為產品端不在乎\u003Ca href=\"\u002Fnews\u002Fself-distillation-shrinks-output-diversity-zh\">模型多\u003C\u002Fa>會講，而在乎它會不會把事情做完。客服助理、內部知識庫、商品搜尋、程式碼代理，這些場景都很吃狀態管理。只靠單輪回答，根本不夠。\u003C\u002Fp>\u003Cp>所以這次 roundup 的價值，不只是列出幾篇 paper。它其實在告訴你，NLP 的\u003Ca href=\"\u002Fnews\u002Fdeepmind-talent-shifts-to-anthropic-zh\">研究\u003C\u002Fa>重心已經往系統化移動。模型還是核心，但記憶、工具、評估，現在都要一起看。\u003C\u002Fp>\u003Cp>如果你在做 agent 或搜尋助理，我會直接建議你檢查三件事：你的記憶是不是跨格式、你的 benchmark 有沒有騙你、你的對話流程有沒有把使用者問題問清楚。這三個沒做好，再強的 LLM 也只是半成品。\u003C\u002Fp>\u003Ch2>接下來該盯什麼\u003C\u002Fh2>\u003Cp>我覺得接下來最值得看的，不是誰又發了更大的模型，而是誰把 agent 的記憶、工具、評估做得更像真實產品。那種研究比較不花俏，但比較接近上線後的世界。\u003C\u002Fp>\u003Cp>如果你正在做相關專案，下一步很明確：把 retrieval 指標和任務完成率拆開看，再把文字記憶和 code 記憶分層管理。這樣你才知道問題出在哪裡，而不是把鍋全丟給模型。\u003C\u002Fp>\u003Cp>說白了，這批論文提醒我們一件事：NLP 的下一段，不是比誰會講，而是比誰能穩穩做完。你如果也在做 agent，現在就該回頭看你的評估表，看看它是不是只是在安慰你。\u003C\u002Fp>","6 月 24 日的 arXiv 論文整理，聚焦 agent 記憶、工具使用評估與對話式搜尋，對做 AI 代理和搜尋助理的人很實用。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2053118269205360652",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782371888802-40t8.png","research","zh","cd6be4d9-484d-4fa6-8736-8a3b564c4477",[17,18,19,20,21,22,23],"NLP","agent memory","tool use","retrieval metrics","conversational search","arXiv","LLM",[25,26,27,28],"agent 記憶已經從聊天紀錄，變成跨文字與程式碼的系統設計問題。","retrieval 分數高，不代表工具型 agent 的 policy 真的好。","對話式產品搜尋要把模糊需求轉成屬性與結構化條件。","這批研究的共同點，是在處理模型上線後的可靠性。",0,"2026-06-25T07:17:39.070441+00:00","2026-06-25T07:17:39.038+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":34,"relatedLang":37,"relatedPosts":41},[35],{"name":19,"slug":36},"tool-use",{"id":15,"slug":38,"title":39,"language":40},"new-nlp-papers-agent-memory-tool-use-en","New NLP papers map agent memory and tool use","en",[42,48,54,60,66,72],{"id":43,"slug":44,"title":45,"cover_image":46,"image_url":46,"created_at":47,"category":13},"2cc1973d-a7a5-4031-8ed3-e05ca5d335fd","ai-papers-code-music-rare-disease-zh","3 篇 AI 論文：程式、音樂、罕病診斷","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782372792462-buxp.png","2026-06-25T07:32:27.274897+00:00",{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"a875d002-f6f0-4139-abc1-f1602bc42fee","self-distillation-shrinks-output-diversity-zh","自蒸餾會縮小模型多樣性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782369171288-egwp.png","2026-06-25T06:32:26.557584+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"80a6e921-dfde-4861-ba61-382e195ec94c","revengebench-reverse-engineering-game-policies-zh","RevengeBench：反推遊戲政策的測試框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782368284240-86sh.png","2026-06-25T06:17:29.011751+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"978e67d0-1acb-479e-af06-9ead35e4eb74","learning-action-priors-cross-embodiment-manipulation-zh","先學動作先驗，再對齊多模態","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782367376604-ffk9.png","2026-06-25T06:02:29.669069+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"4a0bbfe8-be40-4add-95c8-7ed1d38a641f","opsd-user-feedback-training-loop-zh","OPSD 讓你把點擊變訓練","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782335103935-0efp.png","2026-06-24T21:04:40.411616+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"a2242009-98d7-409c-9f22-d825a81fef2e","ultraquant-4bit-kv-caching-agents-zh","UltraQuant：4-bit KV 快取加速長代理","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782331375909-uhyy.png","2026-06-24T20:02:32.549463+00:00",[79,84,89,94,99,104,109,114,119,124],{"id":80,"slug":81,"title":82,"created_at":83},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]