[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-hermes-agent-agent-harness-framework-zh":3,"article-related-hermes-agent-agent-harness-framework-zh":30,"series-ai-agent-2e3a7869-d773-4c82-a8ab-d992934e0e47":87},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":11},"2e3a7869-d773-4c82-a8ab-d992934e0e47","hermes-agent-agent-harness-framework-zh","Hermes Agent：代理測試框架怎麼看","\u003Cp>現在做 \u003Ca href=\"\u002Fnews\u002Fai-maps-navigation-mcp-baidu-autonavi-tencent-zh\">AI\u003C\u002Fa> agent，最常見的痛點很土。工具呼叫會炸，重試會卡死，log 還缺一半。講白了，你不是在做 AI，你是在跟流程打架。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002F\" target=\"_blank\" rel=\"noopener\">Hermes Agent\u003C\u002Fa> 想把這些碎片收進一套 \u003Ca href=\"https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2022015752258027715\" target=\"_blank\" rel=\"noopener\">agent harness\u003C\u002Fa>。它的目標很直接。不是只讓模型會說話，而是讓你能測、能追、能比。\u003C\u002Fp>\u003Cp>這件事很重要。因為 agent 失敗，常常不是失敗在「不會答」。而是失敗在第 3 次工具呼叫、第 2 次重試，或第 9 步狀態跑掉。這種 bug 最煩，也最貴。\u003C\u002Fp>\u003Ch2>Hermes Agent 想解什麼問題\u003C\u002Fh2>\u003Cp>先講白一點。很多 agent 框架都很愛秀 demo。畫面很漂亮，流程很順，結果一進 production 就開始亂跑。你會發現，同一個 prompt，今天成功，明天失手。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775207571413-ex0h.png\" alt=\"Hermes Agent：代理測試框架怎麼看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002F\" target=\"_blank\" rel=\"noopener\">Hermes Agent\u003C\u002Fa> 的思路比較務實。它把 agent 當成軟體。輸入、輸出、trace、測試案例，都要能管。這種想法很像把 LLM 拉回工程世界，而不是一直泡在簡報裡。\u003C\u002Fp>\u003Cp>對台灣團隊來說，這很有感。很多公司已經把 GPT、\u003Ca href=\"\u002Fnews\u002Fclaude-opus-45-gpt-parameters-estimate-zh\">Clau\u003C\u002Fa>de、LLM 接進客服、內部知識庫、報表流程。問題是，接上去不代表能穩定跑。只要 API 回傳格式變一下，整條流程就可能歪掉。\u003C\u002Fp>\u003Cul>\u003Cli>工具邊界最容易出事。\u003C\u002Fli>\u003Cli>同一任務常有不同結果。\u003C\u002Fli>\u003Cli>trace 不完整，debug 會超痛。\u003C\u002Fli>\u003Cli>評測如果綁任務成功率，才有意義。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>Hermes Agent 的價值，就在這裡。它不是要再做一個更會聊天的模型層。它比較像一個控制台，讓你知道 agent 到底怎麼跑。\u003C\u002Fp>\u003Cp>如果你做的是內部 copilot、code assistant，或資料處理 agent，這種框架就很實際。因為你要看的不是「它有沒有靈感」。你要看的是「它有沒有把事情做完」。\u003C\u002Fp>\u003Ch2>為什麼 harness 比 demo 更重要\u003C\u002Fh2>\u003Cp>很多人第一次碰 agent，都會先玩 \u003Ca href=\"https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fguides\u002Ffunction-calling\" target=\"_blank\" rel=\"noopener\">OpenAI function calling\u003C\u002Fa>。也有人直接接 \u003Ca href=\"https:\u002F\u002Fdocs.anthropic.com\u002Fen\u002Fdocs\u002Fagents-and-tools\u002Ftool-use\" target=\"_blank\" rel=\"noopener\">Anthropic tool use\u003C\u002Fa>。再進一步，就會碰到 \u003Ca href=\"https:\u002F\u002Fdocs.langchain.com\u002F\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa>。這些工具都能用，但它們解的層次不一樣。\u003C\u002Fp>\u003Cp>問題是，demo 很容易騙人。你在 notebook 跑一次，感覺很順。可是一旦把流程放進正式服務，狀況就變了。工具 timeout、資料格式髒掉、狀態沒保存，這些才是日常。\u003C\u002Fp>\u003Cp>所以 harness 很重要。它像是 agent 的測試台。你可以固定條件，重跑 50 次，看哪一步最常失敗。這比單看一次輸出有用太多。真的，工程師最怕的不是錯，是不知道錯在哪。\u003C\u002Fp>\u003Cblockquote>“What gets measured gets managed.” — Peter Drucker\u003C\u002Fblockquote>\u003Cp>這句話老掉牙，但放在 agent 工程超貼切。你不量 tool success rate，不量 retry 次數，不量 task completion，就只能靠感覺調參。那不是工程，那是賭運氣。\u003C\u002Fp>\u003Cp>Hermes Agent 的方向，就是把這些東西拉進同一個跑道。讓你能觀察、能比較、能回放。這種能力不花俏，但很值錢。\u003C\u002Fp>\u003Ch2>它跟其他框架差在哪\u003C\u002Fh2>\u003Cp>現在 agent 框架很多。每個都說自己能做 workflow、tool use、memory、multi-agent。問題是，大家解的層次真的不同。你不能只看名字，就以為功能都一樣。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775207581542-ldo8.png\" alt=\"Hermes Agent：代理測試框架怎麼看\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fstanfordnlp\u002Fdspy\" target=\"_blank\" rel=\"noopener\">DSPy\u003C\u002Fa> 比較偏 prompt optimization 和結構化 LLM 程式設計。\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa> 是大雜燴型工具箱，整合很多。\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FcrewAIInc\u002FcrewAI\" target=\"_blank\" rel=\"noopener\">CrewAI\u003C\u002Fa> 則偏多 agent 協作。\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fswarm\" target=\"_blank\" rel=\"noopener\">Swarm\u003C\u002Fa> 是 OpenAI 早期的輕量協作思路。\u003C\u002Fp>\u003Cp>Hermes Agent 比較像在 execution layer 下功夫。也就是說，它關心的是 agent 怎麼跑、怎麼記、怎麼重播。這點很像做伺服器監控。你不只要知道服務有沒有起來，還要知道是哪個 request 掛掉。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa>：整合廣，適合快速拼流程。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fstanfordnlp\u002Fdspy\" target=\"_blank\" rel=\"noopener\">DSPy\u003C\u002Fa>：適合做結構化優化。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FcrewAIInc\u002FcrewAI\" target=\"_blank\" rel=\"noopener\">CrewAI\u003C\u002Fa>：偏角色分工和多 agent。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fswarm\" target=\"_blank\" rel=\"noopener\">Swarm\u003C\u002Fa>：輕量協作，概念簡單。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002F\" target=\"_blank\" rel=\"noopener\">Hermes Agent\u003C\u002Fa>：重點放在 harness、trace、評測。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得這個差異很關鍵。因為很多團隊真正缺的，不是更多抽象層。缺的是一個能重跑、能比對、能找 bug 的框架。少一點炫技，多一點可觀測性，反而比較能上線。\u003C\u002Fp>\u003Ch2>數據、競品與實務判斷\u003C\u002Fh2>\u003Cp>做 agent 產品時，最怕的就是「看起來有用」。你需要的是數字。像是任務成功率、平均 latency、工具成功率、重試次數、人工介入比例。這些東西一拉出來，很多幻覺就會破掉。\u003C\u002Fp>\u003Cp>如果一個框架能讓你把 100 次跑法記錄下來，並且比較每次的差異，那它就不只是開發工具。它變成一個測試基礎設施。這種東西在初期很無聊，但到了上線階段就很香。\u003C\u002Fp>\u003Cp>拿常見競品來看，差距也很明顯。\u003Ca href=\"https:\u002F\u002Fdocs.langchain.com\u002Foss\u002Fpython\u002Flangchain\u002Foverview\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa> 常常是「先把東西串起來再說」。\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fstanfordnlp\u002Fdspy\" target=\"_blank\" rel=\"noopener\">DSPy\u003C\u002Fa> 常常是「先把 prompt 系統化」。Hermes Agent 如果真的是 harness 導向，那它更像「先把行為測清楚」。\u003C\u002Fp>\u003Cul>\u003Cli>LangChain：整合面廣，適合快速原型。\u003C\u002Fli>\u003Cli>DSPy：適合優化 prompt 與 pipeline。\u003C\u002Fli>\u003Cli>CrewAI：適合多 agent 任務分工。\u003C\u002Fli>\u003Cli>Hermes Agent：適合追蹤、回放、評測。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡可以再補一個現實面。很多企業現在不是缺模型，而是缺治理。當 agent 會碰資料庫、內部 API、甚至 code execution，出錯成本就會放大。少一次錯誤呼叫，可能就少一次資料污染。\u003C\u002Fp>\u003Cp>所以，若 Hermes Agent 真的能把觀測、回放、評測做順，對產品團隊會很有吸引力。因為它解的是「怎麼穩定交付」，不是「怎麼做出一次驚豔 demo」。\u003C\u002Fp>\u003Ch2>這波其實是在補 AI 工程底座\u003C\u002Fh2>\u003Cp>過去一年，大家很愛聊模型能力。誰的推理更強，誰的 context 更長，誰的 to\u003Ca href=\"\u002Fnews\u002Ftrivy-docker-images-fresh-supply-chain-attack-zh\">ke\u003C\u002Fa>n 更便宜。這些都重要。但一旦進入應用層，問題就變成工程問題。你要處理流程、狀態、例外、觀測，還有回滾。\u003C\u002Fp>\u003Cp>這也是為什麼 agent harness 會慢慢變重要。因為它補的是底座，不是表面。就像做網站，不會只看前端漂亮不漂亮。你也會看伺服器、資料庫、監控、CI\u002FCD。agent 也一樣。\u003C\u002Fp>\u003Cp>台灣很多團隊已經開始把 LLM 接進客服、內部搜尋、報價、文件整理。下一步不是再多接一個模型。下一步是把流程跑穩，把失敗模式抓出來。這才是能不能真的省人力的分水嶺。\u003C\u002Fp>\u003Cp>我自己的判斷很簡單。未來幾年，agent 框架會分成兩派。一派拚功能多，一派拚可控、可測、可回放。Hermes Agent 如果站得住，會比較像後者。這種工具通常不會最吵，但常常最實用。\u003C\u002Fp>\u003Ch2>接下來該怎麼看 Hermes Agent\u003C\u002Fh2>\u003Cp>如果你現在正在做 agent，我會建議先問三個問題。第一，失敗時能不能重播。第二，能不能量化每一步。第三，能不能知道是模型錯，還是工具錯。答不出來，就代表你還缺 harness。\u003C\u002Fp>\u003Cp>Hermes Agent 值不值得追，關鍵不在名字，而在它能不能把這三件事做紮實。若它真的能把 tool use、evals、workflow control 放在同一套流程裡，那它會很適合工程團隊試用。\u003C\u002Fp>\u003Cp>我會留意的指標很簡單。看它能不能讓同一個任務跑 50 次。看它能不能清楚標出失敗點。看它能不能跟現有 LLM 堆疊接得順。這些比任何宣傳詞都重要。\u003C\u002Fp>\u003Cp>講到底，agent 不是比誰比較會講。是比誰比較不會亂。Hermes Agent 如果能幫你把亂流壓下來，那它就值得放進工具清單。你下次做 agent，不妨先問自己：你要的是一個會回答的模型，還是一套能交付的系統？\u003C\u002Fp>","Hermes Agent 想把 agent 的工具呼叫、追蹤、評測和流程控制收進同一套框架。對要把 LLM 做進產品的團隊來說，這種 harness 比炫技 demo 更實用。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2022015752258027715",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775207571413-ex0h.png","ai-agent","zh","574953d9-dafe-4fd3-b4da-133f2ed9f2c9",[17,18,19,20,21,22,23,24,25,26],"Hermes Agent","agent harness","AI agent","LLM","LangChain","DSPy","CrewAI","tool use","evals","workflow control",4,"2026-04-03T09:12:32.90367+00:00","2026-04-03T09:12:32.818+00:00",{"tags":31,"relatedLang":46,"relatedPosts":50},[32,34,36,38,40,41,43,45],{"name":17,"slug":33},"hermes-agent",{"name":21,"slug":35},"langchain",{"name":18,"slug":37},"agent-harness",{"name":20,"slug":39},"llm",{"name":25,"slug":25},{"name":23,"slug":42},"crewai",{"name":24,"slug":44},"tool-use",{"name":19,"slug":13},{"id":15,"slug":47,"title":48,"language":49},"hermes-agent-agent-harness-framework-en","Hermes Agent: The Agent Harness Framework to Watch","en",[51,57,63,69,75,81],{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"83c2f8f6-3710-466e-b52c-473b811f0535","how-to-set-up-openclaw-safely-zh","如何安全架設 OpenClaw","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780549368665-1t2l.png","2026-06-04T05:02:21.26625+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"0ba5b1a8-82c5-464a-bea5-9a2c8730da74","aws-devops-agent-turns-incident-chaos-into-triage-zh","AWS DevOps Agent 把事故排查變成三步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780466689960-g1sv.png","2026-06-03T06:03:14.154923+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"841eac88-b0f0-4a4c-9e1e-efc3b5c16281","kimi-k26-live-300-agent-workflows-zh","Kimi K2.6 上線：300 代理工作流","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780430574285-hqpn.png","2026-06-02T20:02:24.972179+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"f0411957-bcdb-42d9-a267-3e90ae7d9cb1","how-to-take-a-sabbatical-at-openai-zh","怎麼申請 OpenAI sabbatical","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780398216422-8fi7.png","2026-06-02T11:02:25.74372+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"37a5e429-4235-439c-9b05-bb377085462c","8-steps-build-production-rag-with-langchain-zh","8 步驟打造可上線的 LangChain RAG","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780178597493-4hz7.png","2026-05-30T22:02:48.14022+00:00",{"id":82,"slug":83,"title":84,"cover_image":85,"image_url":85,"created_at":86,"category":13},"e73c041b-852b-44c3-85aa-0f1e2e5848e3","ai-agents-hit-chaos-mode-claude-code-openclaw-zh","Claude Code＋OpenClaw 讓 AI 代理失控升溫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780160576178-yqcs.png","2026-05-30T17:02:25.725767+00:00",[88,93,98,103,108,113,118,123,128,133],{"id":89,"slug":90,"title":91,"created_at":92},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","2026-03-28T03:17:42.090548+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00",{"id":134,"slug":135,"title":136,"created_at":137},"f2ca7720-b471-4ce5-9336-2a9ac2a876fd","amazon-bedrock-agents-multi-agent-workflows-zh","Amazon Bedrock Agents 進入多代理工作流","2026-04-01T09:30:29.945429+00:00"]