標籤

tool use

工具使用指的是讓 LLM 或代理在需要時呼叫搜尋、程式執行、資料庫或外部 API，而不只是靠模型內部生成。重點不在多會用工具，而在何時該用、何時該停，牽涉推理正確率、延遲、成本與可觀測性，尤其在多模態代理與產品化工作流中更明顯。

6 篇文章

新 NLP 論文盯上代理記憶與工具使用

6 月 24 日的 arXiv 論文整理，聚焦 agent 記憶、工具使用評估與對話式搜尋，對做 AI 代理和搜尋助理的人很實用。

BenchLM 2026 用 26 個基準測 AI agent 模型，重點看工具呼叫、瀏覽器、終端機和電腦控制，GPT-5.5 Pro 目前拿下驗證榜首。

拆 Manus AI 的代理工作流模型，順手給你一份可直接複製的多步任務模板。

這篇綜述把程式碼定位成代理系統的運行層，串起推理、動作、記憶與驗證，重點在架構視角而非新模型。

HDPO 把「答對」和「少叫工具」分開訓練，想修正多模態代理的盲目工具使用。摘要稱它能大幅減少呼叫次數，同時提升推理正確率。

Hermes Agent 想把 agent 的工具呼叫、追蹤、評測和流程控制收進同一套框架。對要把 LLM 做進產品的團隊來說，這種 harness 比炫技 demo 更實用。