[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-agent-harness-ai-engineering-2026-zh":3,"article-related-agent-harness-ai-engineering-2026-zh":28,"series-industry-bc3cc36d-ee23-4731-8583-3517df995e09":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":25,"created_at":26,"published_at":27,"topic_cluster_id":11},"bc3cc36d-ee23-4731-8583-3517df995e09","agent-harness-ai-engineering-2026-zh","Agent Harness 正在定義 AI 工程","\u003Cp>2026 年 2 月，Martin Fowler 給了一個名字：\u003Ca href=\"https:\u002F\u002Fmartinfowler.com\u002F\" target=\"_blank\" rel=\"noopener\">Harness Engineering\u003C\u002Fa>。這不是新玩具。這是很多團隊早就在做的事，只是現在終於有共同語言。\u003C\u002Fp>\u003Cp>同一時間，\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 公布 long-running agent 的 harness 指南。\u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 也提到，Codex 團隊已經產出超過 100 萬行 production code，而且沒有人工逐行輸入。講白了，模型很重要，但外層系統更決定結果能不能落地。\u003C\u002Fp>\u003Cp>如果你在做 agent，這件事很值得盯。像 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fanthropics\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa> 這種工作流，或你自己做的 agent stack，都可能讓同一個模型表現差很多。包得好，像樣。包得爛，像昂貴的重試機器。\u003C\u002Fp>\u003Ch2>Agent harness 到底是什麼\u003C\u002Fh2>\u003Cp>\u003Ca href=\"\u002Fnews\u002Fagent-infra-rewrites-ai-infrastructure-zh\">Agen\u003C\u002Fa>t harness，就是包在 LLM 外面的控制層。它決定 agent 看得到什麼、能做什麼、什麼時候停、出錯後怎麼回來。你可以把模型當成推理引擎，把 harness 當成外面的操作系統。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775057899717-8ljm.png\" alt=\"Agent Harness 正在定義 AI 工程\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個分工很重要。因為原始輸出通常不能直接上 production。模型可以寫 code、摘要文件、規劃任務，但真正能跑的流程，需要一層層控制。沒有這層，agent 很容易飄掉。\u003C\u002Fp>\u003Cp>實作上，harness 通常會包這些東西：\u003C\u002Fp>\u003Cul>\u003Cli>工具呼叫，像檔案、搜尋、API、執行環境\u003C\u002Fli>\u003Cli>狀態管理，讓 agent 記得任務進度\u003C\u002Fli>\u003Cli>驗證點，先檢查再往下走\u003C\u002Fli>\u003Cli>重試邏輯，處理 timeout 和工具失敗\u003C\u002Fli>\u003Cli>權限控制，避免亂動 production 資料\u003C\u002Fli>\u003Cli>log 和 trace，方便事後追查\u003C\u002Fli>\u003C\u002Ful>\u003Cp>很多 demo 很會演。你看到的是 agent 一路順順跑。你沒看到的是工具壞掉、上下文遺失、還有它差點把錯誤操作送進正式環境。真正難的地方，通常都藏在 harness 裡。\u003C\u002Fp>\u003Cp>Martin Fowler 會提這個詞，不是沒原因。他長期在講軟體系統怎麼在真實世界壞掉。這種人一出手，通常代表產業已經從玩票，走到工程化。\u003C\u002Fp>\u003Ch2>為什麼模型只算一半\u003C\u002Fh2>\u003Cp>現在很多人還在用「模型更強，所以產品更好」這種線性思維。說真的，這只對一半。模型分數變高，不代表長任務就會穩。只要工具鏈不行，整個 agent 一樣會翻車。\u003C\u002Fp>\u003Cp>Anthropic 對 long-running agents 的討論，把這點講得很清楚。任務一拉長，漂移、忘記、誤操作的機會就會增加。harness 的工作，就是把 agent 拉回來，讓它不要一直偏題。\u003C\u002Fp>\u003Cp>Open\u003Ca href=\"\u002Fnews\u002Ffeishu-open-source-cli-ai-agent-office-zh\">AI\u003C\u002Fa> 提到 Codex 團隊產出超過 100 萬行 production code，這個數字很有意思。這不是玩具 demo。這代表一套周邊流程，已經能吞下大量真實工程工作。重點不是模型自己多神，而是整個執行層夠不夠穩。\u003C\u002Fp>\u003Cblockquote>“The most important thing is to be able to understand what the model is doing.” — Dario Amodei\u003C\u002Fblockquote>\u003Cp>這句話很直白。你如果看不懂 agent 在做什麼，就談不上工程。那只是把一個機率黑盒，包成很會聊天的介面。\u003C\u002Fp>\u003Cp>現在做得認真的團隊，都在往同一個方向走。可觀測性、工具紀律、失敗回復，這些才是可靠性的核心。不是祈禱模型今天心情好一點。\u003C\u002Fp>\u003Ch2>好的 harness 現在長什麼樣\u003C\u002Fh2>\u003Cp>目前還沒有單一標準答案。可是真的看幾個做得好的系統，結構都很像。它們不是靠一句 prompt，而是靠一堆小控制點，把 agent 限制在可預期範圍內。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775057917120-wf0q.png\" alt=\"Agent Harness 正在定義 AI 工程\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>你可以把常見層級分成這樣：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>基本 chat wrapper：\u003C\u002Fstrong> 一個 prompt 接一個回應，狀態很少，變動很大\u003C\u002Fli>\u003Cli>\u003Cstrong>Task agent：\u003C\u002Fstrong> 有工具、短期記憶、基本重試，適合範圍明確的工作\u003C\u002Fli>\u003Cli>\u003Cstrong>Production harness：\u003C\u002Fstrong> 有驗證、audit log、policy check、sandbox、rollback\u003C\u002Fli>\u003Cli>\u003Cstrong>Long-running agent system：\u003C\u002Fstrong> 有持久狀態、評估迴圈、人工審核、失敗復原\u003C\u002Fli>\u003C\u002Ful>\u003Cp>從第一層跳到第四層，差很多。chat wrapper 一個下午就能做。production harness 不是。因為每一次 tool call，都可能新增一種失敗模式。\u003C\u002Fp>\u003Cp>這也是為什麼現在團隊開始看營運指標，而不是只看模型指標。像 task completion rate、tool error rate、time to recovery、unsafe action blocked 次數，這些都比單純 bench\u003Ca href=\"\u002Fnews\u002Famazon-ads-mcp-server-open-beta-zh\">ma\u003C\u002Fa>rk 更接近真實世界。\u003C\u002Fp>\u003Cp>如果 agent 會碰 codebase、客服系統、或客戶資料，這些數字比模型分數更有用。分數高，不代表能少出事。出事少，才是真的。\u003C\u002Fp>\u003Cp>我覺得這裡還有一個文化轉變。早期 AI 產品是「模型本身就是產品」。現在更像是「工作流才是產品」。agent 能做什麼、不能做什麼、出錯怎麼救，這些才是核心。\u003C\u002Fp>\u003Ch2>競品怎麼比，差距在哪\u003C\u002Fh2>\u003Cp>如果只看表面，大家都在做 agent。可是底下的 harness 差很多。有人只做一層 prompt，有人把 sandbox、verifier、policy、trace 全包進去。這差距會直接反映在穩定性上。\u003C\u002Fp>\u003Cp>先看最簡單的比較：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>單純聊天介面：\u003C\u002Fstrong> 成本最低，但狀態弱，容易失控\u003C\u002Fli>\u003Cli>\u003Cstrong>內建工具的 IDE agent：\u003C\u002Fstrong> 適合 coding，能做檔案操作和測試\u003C\u002Fli>\u003Cli>\u003Cstrong>企業級 agent 平台：\u003C\u002Fstrong> 強調權限、稽核、資料隔離、流程控管\u003C\u002Fli>\u003Cli>\u003Cstrong>自建 harness：\u003C\u002Fstrong> 彈性最高，但工程成本也最高\u003C\u002Fli>\u003C\u002Ful>\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.cursor.com\u002F\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa> 這類產品，讓很多開發者第一次感受到 agent 工作流的效率。但你一旦進到企業環境，就會碰到權限、稽核、資料界線。這時候，單靠好 prompt 根本不夠。\u003C\u002Fp>\u003Cp>另一個現實是，模型越強，不代表你可以少做控制。反而常常是模型越強，越要管住它。因為它能做的事更多，出錯的代價也更高。\u003C\u002Fp>\u003Cp>如果拿 coding agent 來比，差異通常在這幾點：\u003C\u002Fp>\u003Cul>\u003Cli>是否有測試先行，而不是直接改檔\u003C\u002Fli>\u003Cli>是否能回滾，而不是一改到底\u003C\u002Fli>\u003Cli>是否有權限邊界，而不是全開\u003C\u002Fli>\u003Cli>是否有 trace，而不是只看最後答案\u003C\u002Fli>\u003C\u002Ful>\u003Cp>OpenAI、Anthropic、還有一堆新創，現在其實都在往同一個方向走。差別只在包裝。核心都一樣：把不穩定的模型，放進能管理失誤的系統裡。\u003C\u002Fp>\u003Ch2>這背後其實是軟體工程回歸\u003C\u002Fh2>\u003Cp>這波 agent 熱潮，看起來像 AI 新玩意。其實很像軟體工程老問題回來了。只是以前我們管的是服務、queue、job、worker。現在要管的是會推理的工作者。\u003C\u002Fp>\u003Cp>這件事讓很多 AI 團隊開始補以前沒補好的基本功。像 permissioning、observability、testing、rollback、audit trail。這些名詞聽起來很老派，但它們才是 production 的底線。\u003C\u002Fp>\u003Cp>台灣很多團隊很愛先問模型選哪個。這題不是不能問，但順序常常錯了。你應該先問，這個任務能不能切成可驗證步驟。再問，哪一段要人工審核。最後才是模型選型。\u003C\u002Fp>\u003Cp>如果你把 agent 當成一個會犯錯的 junior engineer，很多設計就合理了。你不會讓新人直接改 production database。你也不該讓 agent 這樣做。這不是保守。這是正常。\u003C\u002Fp>\u003Cp>我覺得 2026 年開始，真正成熟的 AI 團隊會長得很像傳統平台團隊。只是他們多了一層 model orchestration。表面在做 AI，骨子裡還是在做工程紀律。\u003C\u002Fp>\u003Ch2>接下來該怎麼看\u003C\u002Fh2>\u003Cp>如果你現在在做 agent，我的建議很直接：先做 harness，再談聰明。先把工具邊界、驗證流程、失敗回復、權限控管弄好，再去追更大的模型。順序錯了，後面會很痛。\u003C\u002Fp>\u003Cp>我也押一個判斷。接下來 12 個月，harness 會變成架構審查裡的固定項目，像 auth、logging、testing 一樣。不是因為它潮，而是因為沒有它，agent 很難進正式環境。\u003C\u002Fp>\u003Cp>所以問題不是「哪個模型最強」。問題是「你的 harness 能不能讓它穩定做完 100 次任務」。如果答案還不行，那就先補系統。別急著怪模型。\u003C\u002Fp>","Martin Fowler、Anthropic、OpenAI 都指向同一件事：LLM 能不能上線，不只看模型，還看外層的 harness。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2022027288405976801",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775057899717-8ljm.png","industry","zh","a9b22aa6-768c-44b1-967a-1b4ea3c28ce9",[17,18,19,20,21,22,23,24],"agent harness","AI engineering","LLM agent","Anthropic","OpenAI","Martin Fowler","Claude Code","harness engineering",6,"2026-04-01T10:15:34.775599+00:00","2026-04-01T10:15:34.713+00:00",{"tags":29,"relatedLang":41,"relatedPosts":45},[30,32,35,37,39],{"name":21,"slug":31},"openai",{"name":33,"slug":34},"Harness Engineering","harness-engineering",{"name":23,"slug":36},"claude-code",{"name":17,"slug":38},"agent-harness",{"name":20,"slug":40},"anthropic",{"id":15,"slug":42,"title":43,"language":44},"agent-harness-ai-engineering-2026-en","Agent Harness Is Quietly Defining AI Engineering","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"600a41d7-99a2-48cf-b80e-b28061c65767","andes-technology-20b-risc-v-soc-shipments-zh","Andes RISC-V SoC 出貨破 200 億","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782734588433-8mkx.png","2026-06-29T12:02:32.954092+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"383d45a7-2778-436c-902c-fb0d064bfe56","onchain-insurance-proof-institutional-tokenization-test-zh","鏈上保險證明才是機構代幣化的真正考題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782729171879-ih4l.png","2026-06-29T10:32:25.181256+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"e4d40a87-9823-4a96-a9a1-0da241daee68","dtcc-tokenization-link-stellar-zh","DTCC 接上 Stellar，XLM 站上新舞台","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782728271600-sddm.png","2026-06-29T10:17:27.929404+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"10f14e61-67c3-4c5e-b561-371efdffb18f","framework-tokenization-ai-financing-fund-zh","Framework 把代幣化變融資","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782727404282-u4vv.png","2026-06-29T10:02:58.99285+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"b19bc35b-9d90-4c63-94ab-c46bd759da81","microsoft-investor-relations-page-map-zh","Microsoft 投資人關係頁面地圖","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782726471089-sl2s.png","2026-06-29T09:47:23.941243+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"e6695966-a6f4-4b71-ab89-cd61bc205d43","microsoft-190b-ai-capex-plan-msft-452-zh","Microsoft 1900億美元 AI 支出壓力測試 MSFT 452","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782724684761-zzp0.png","2026-06-29T09:17:26.886615+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"ee073da7-28b3-4752-a319-5a501459fb87","ai-in-2026-what-actually-matters-now-zh","2026 AI 真正重要的事","2026-03-26T07:09:12.008134+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"83bd1795-8548-44c9-9a7e-de50a0923f71","trump-ai-framework-power-speech-state-preemption-zh","川普 AI 框架瞄準電力、言論與州權","2026-03-26T07:12:18.695466+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","2026-03-26T07:14:26.62638+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"4bcec76f-4c36-4daa-909f-54cd702f7c93","claude-users-spreading-out-and-getting-better-zh","Claude 用戶更分散，也更會用","2026-03-26T07:22:52.325888+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"bd903b15-2473-4178-9789-b7557816e535","openclaw-raises-hard-question-for-ai-models-zh","OpenClaw 逼問 AI 模型價值","2026-03-26T07:24:54.707486+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"eeac6b9e-ad9d-4831-8eec-8bba3f9bca6a","gap-google-gemini-checkout-fashion-search-zh","Gap 把結帳搬進 Gemini","2026-03-26T07:28:23.937768+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"0740e53f-605d-4d57-8601-c10beb126f3c","google-pushes-gemini-transition-to-march-2026-zh","Google 把 Gemini 轉換延到 2026 年 3…","2026-03-26T07:30:12.825269+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"e660d801-2421-4529-8fa9-86b82b066990","metas-llama-4-benchmark-scandal-gets-worse-zh","Meta Llama 4 分數風波又擴大","2026-03-26T07:34:21.156421+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"183f9e7c-e143-40bb-a6d5-67ba84a3a8bc","accenture-mistral-ai-sovereign-enterprise-deal-zh","Accenture 攜手 Mistral AI 賣主權 AI","2026-03-26T07:38:14.818906+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"191d9b1b-768a-478c-978c-dd7431a38149","mistral-ai-faces-its-hardest-year-yet-zh","Mistral AI 迎來最硬的一年","2026-03-26T07:40:23.716374+00:00"]