[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-prompt-to-harness-ai-engineering-shift-zh":3,"article-related-prompt-to-harness-ai-engineering-shift-zh":28,"series-industry-fcc8d167-dc0f-4514-8d6b-4f4230547616":86},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":25,"created_at":26,"published_at":27,"topic_cluster_id":11},"fcc8d167-dc0f-4514-8d6b-4f4230547616","prompt-to-harness-ai-engineering-shift-zh","從 Prompt 到 Harness 工程","\u003Cp>\u003Ca href=\"\u002Fnews\u002Fopenai-altman-trust-and-power-zh\">Open\u003C\u002Fa>AI 說，一個團隊用 3 位工程師，花 5 個月，做出超過 100 萬行程式碼的產品。期間他們合併了約 1,500 個 pull request。平均下來，每位工程師每天大約處理 3.5 個 PR。這數字很硬，也很有意思。它在講一件事：真正稀缺的能力，正在從「會不會寫」變成「會不會設計 AI 工作環境」。\u003C\u002Fp>\u003Cp>這個環境，OpenAI 叫它 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fharness-engineering\u002F\" target=\"_blank\" rel=\"noopener\">harness engineering\u003C\u002Fa>。講白了，就是讓 agent 能在真實 codebase 裡安全工作的一整套工具、檢查、回饋和限制。你可以把它想成 AI 的作業系統外殼。沒有這層東西，LLM 再強，也只是會亂跑的聊天框。\u003C\u002Fp>\u003Cp>所以今天的重點，不是「怎麼問模型」。而是「怎麼讓模型在 repo、CI、review 流程裡，真的能做事」。這件事比 prompt 難多了。也更像真正的軟體工程。\u003C\u002Fp>\u003Ch2>OpenAI 這個案例到底猛在哪\u003C\u002Fh2>\u003Cp>OpenAI 的 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-codex\u002F\" target=\"_blank\" rel=\"noopener\">Codex\u003C\u002Fa> 案例之所以值得看，不是因為它又在講 AI 多聰明。剛好相反，它講的是工程細節。團隊沒有把 Codex 當聊天介面用，而是把它當成一個需要訓練、需要監控、需要規則的 contributor。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775630042932-7zhw.png\" alt=\"從 Prompt 到 Harness 工程\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這裡的關鍵字是「可合併」。很多團隊都能讓模型吐出一段 code。問題是，那段 code 能不能過 test。能不能過 review。能不能進主線。能不能在 1 個月後還看得懂。這些才是產品團隊在意的事。\u003C\u002Fp>\u003Cp>你如果只看產出數字，很容易誤會成「AI 直接取代工程師」。我覺得這是讀錯重點。真正發生的是，工程師把大量時間從手寫 code，轉移到設計流程、限制邊界、定義任務、修正失敗模式。這才是 harness 工程的價值。\u003C\u002Fp>\u003Cul>\u003Cli>團隊人數：3 位工程師\u003C\u002Fli>\u003Cli>時間：5 個月\u003C\u002Fli>\u003Cli>合併 PR：約 1,500 個\u003C\u002Fli>\u003Cli>程式碼規模：超過 100 萬行\u003C\u002Fli>\u003Cli>平均量：每人每天約 3.5 個 PR\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這些數字不是拿來炫技的。它們是在提醒你，AI 產能的瓶頸已經換位置了。以前卡在「寫得夠不夠快」。現在更常卡在「改得夠不夠穩」。\u003C\u002Fp>\u003Ch2>為什麼 harness 比 prompt 更重要\u003C\u002Fh2>\u003Cp>Prompt 很像你跟模型說話的方式。\u003Ca href=\"\u002Fnews\u002Fharness-engineering-long-running-multi-agent-systems-zh\">Harn\u003C\u002Fa>ess 則是你把模型關進一個能工作的環境。前者靠文字。後者靠工程。前者可以讓你拿到一段答案。後者可以讓你拿到一個能 merge 的變更。\u003C\u002Fp>\u003Cp>這差很多。因為 prompt 沒辦法直接保證 test coverage，也沒辦法管 code style，更沒辦法替你守住部署安全。Harness 可以。它把模型放進既有的開發流程裡，讓它照規則跑。跑錯了就回饋。回饋後再修。這種迴圈，比單次對話實用太多。\u003C\u002Fp>\u003Cp>說真的，很多人現在還把 AI adoption 想成「叫工程師多跟聊天機器人互動」。那太小看這件事了。真正有效的做法，是把 agent 變成流程的一部分。你要給它檔案、權限、測試、邊界、失敗訊號。少一個都不行。\u003C\u002Fp>\u003Cblockquote>“The future of software development is not about replacing developers, but about augmenting them with AI.” — Satya Nadella\u003C\u002Fblockquote>\u003Cp>這句話在 keynote 裡聽起來很像標語。可是一旦放進 \u003Ca href=\"\u002Fnews\u002Fclaude-code-compaction-context-management-zh\">Code\u003C\u002Fa>x 這種案例，就變得很具體。人負責設計系統。agent 負責執行。這不是空話，是分工。\u003C\u002Fp>\u003Cp>如果你做過大型專案，你大概就懂。真正花時間的，常常不是寫那幾行 code。是補測試、修 CI、改命名、處理 edge case、對齊 repo 規則。Harness 做的，就是把這些雜事變成可重複的流程。\u003C\u002Fp>\u003Ch2>跟舊式 AI coding 工具有什麼差別\u003C\u002Fh2>\u003Cp>前兩年大家談 AI coding，主流還是 Copilot、autocomplete、chat-based code generation。那些工具有用，但它們大多是「幫你寫快一點」。人還是主要負責整合、驗證、修 bug。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775630051418-f8iy.png\" alt=\"從 Prompt 到 Harness 工程\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>Agent 加上 harness 之後，分工就變了。你不再只是問模型要一段 function。你是把一個 task 丟給它，讓它去改檔案、跑測試、修失敗、整理成可 review 的變更。這種工作流，和純聊天差很多。\u003C\u002Fp>\u003Cp>這裡可以直接比一下。差別不是抽象名詞，而是工作型態：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffeatures\u002Fcopilot\" target=\"_blank\" rel=\"noopener\">GitHub Copilot\u003C\u002Fa> 偏向即時補全與片段建議\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-codex\u002F\" target=\"_blank\" rel=\"noopener\">Codex\u003C\u002Fa> 在 agent 流程裡可處理多步驟 repo 任務\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa> 走 terminal-first，適合命令列工作流\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Faider.chat\u002F\" target=\"_blank\" rel=\"noopener\">Aider\u003C\u002Fa> 也示範了 repo-aware 的迭代方式\u003C\u002Fli>\u003C\u002Ful>\u003Cp>你可以把它理解成三個層次。第一層是幫你打字。第二層是幫你改檔。第三層是幫你在流程裡完成任務。Harness engineering 就是在第三層發力。這也是為什麼它比 prompt engineering 更接近真實軟體開發。\u003C\u002Fp>\u003Cp>我自己的判斷很直接：只會用 prompt 的團隊，頂多拿到局部效率。會做 harness 的團隊，才有機會把 AI 變成日常產線的一部分。\u003C\u002Fp>\u003Ch2>工程師現在要補哪幾塊\u003C\u002Fh2>\u003Cp>如果 harness engineering 真的變成常態，工程師的工作內容會再洗一次。你還是要懂架構、除錯、效能、資料流。可是你也要懂怎麼讓 agent 好好做事。這代表你得會切 task，會設計測試，會安排回饋迴圈。\u003C\u002Fp>\u003Cp>還有一個很現實的問題：agent 很快，但也很會錯。錯得還可能很像真的。這時候就不能只靠人肉 review。你要靠更快的 CI、更清楚的 log、更嚴的權限、更明確的 repo 邊界。目標不是讓它永遠不犯錯。目標是讓錯誤便宜、好抓、好修。\u003C\u002Fp>\u003Cp>如果你想把這套東西落地，我會先看這幾件事：\u003C\u002Fp>\u003Cul>\u003Cli>把工作切成 agent 能一次做完的 task\u003C\u002Fli>\u003Cli>讓 test 跑得夠快，別拖死迴圈\u003C\u002Fli>\u003Cli>讓 log 和 error 對人也對機器都好讀\u003C\u002Fli>\u003Cli>限制 write access，別讓 agent 到處亂改\u003C\u002Fli>\u003Cli>看 merged output，不要只看 generated output\u003C\u002Fli>\u003C\u002Ful>\u003Cp>最後這點最重要。生成很多 code 不代表有價值。能 merge 的 code 才算數。這也是 harness 的核心：把一堆模型輸出，變成真的能進產品的變更。\u003C\u002Fp>\u003Cp>再講白一點，AI 不缺會講話的工具。缺的是能收斂產出的系統。這就是工程師的新戰場。\u003C\u002Fp>\u003Ch2>這波其實在改變團隊結構\u003C\u002Fh2>\u003Cp>OpenAI 這個案例最有意思的地方，不是模型會寫 code。那件事大家早就知道了。真正有意思的是，小團隊可以靠一套設計好的流程，讓模型長時間穩定產出可用變更。這代表團隊的規模、節奏、分工，都可能重排。\u003C\u002Fp>\u003Cp>我覺得接下來會出現一個很明顯的分岔。第一種團隊，把 AI 當聊天助手。第二種團隊，把 AI 當可控的工作單元，然後把 harness 做到很細。兩者的差距，短期看不一定很誇張。半年到一年後，差距就會很現實。\u003C\u002Fp>\u003Cp>這也會影響招募。以前大家愛問 prompt engineer。老實說，這個詞現在有點老派了。接下來更值錢的，會是懂 agent workflow、懂 CI\u002FCD、懂 repo 結構、懂怎麼把失敗訊號變成回饋的人。這種人比較像 AI 時代的軟體系統設計師。\u003C\u002Fp>\u003Cp>產業脈絡也很清楚。大型模型成本雖然下降，但真正貴的還是可靠性。你把模型丟進產品流程，最後還是得面對權限、測試、稽核、資安、版本控管。這些老問題沒有消失，只是換了主角。\u003C\u002Fp>\u003Cp>所以，現在不是在比誰會下 prompt。是在比誰能把 AI 變成可維護的工程系統。這差很多。\u003C\u002Fp>\u003Ch2>接下來該看什麼\u003C\u002Fh2>\u003Cp>我會預測，接下來 12 個月，真正有用的 AI coding 團隊，會把重點放在 harness，而不是 prompt。你會看到更多 repo-aware agent、更多自動測試回饋、更多限制式工作流。也會看到更多團隊開始量化「merged PR」而不是「生成 token 數」。\u003C\u002Fp>\u003Cp>如果你是工程師，現在最值得做的事不是狂練 prompt。是回頭檢查你的 repo。測試夠不夠快。錯誤訊息夠不夠清楚。CI 夠不夠穩。任務切得夠不夠小。這些東西一旦整理好，agent 才真的有機會上場。\u003C\u002Fp>\u003Cp>講到底，問題很簡單：當你的 AI 開始寫 code，你有沒有一個夠好的 harness，讓它寫出來的東西真的能進產品？\u003C\u002Fp>","OpenAI 透露，一個 3 人團隊用 Codex、5 個月，合併約 1,500 個 PR，做出超過 100 萬行程式碼的產品。重點不在寫 prompt，而是怎麼設計讓 AI 能穩定工作的 harness。","zhuanlan.zhihu.com","https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F2024239882059399752",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775630042932-7zhw.png","industry","zh","f4f874da-d4bb-4c33-b808-2115085e35e9",[17,18,19,20,21,22,23,24],"harness engineering","Codex","AI coding","prompt engineering","agent workflow","OpenAI","軟體工程","人工智慧",4,"2026-04-08T06:33:43.724227+00:00","2026-04-08T06:33:43.615+00:00",{"tags":29,"relatedLang":45,"relatedPosts":49},[30,32,34,35,38,39,41,43],{"name":20,"slug":31},"prompt-engineering",{"name":22,"slug":33},"openai",{"name":24,"slug":24},{"name":36,"slug":37},"Harness Engineering","harness-engineering",{"name":23,"slug":23},{"name":21,"slug":40},"agent-workflow",{"name":19,"slug":42},"ai-coding",{"name":18,"slug":44},"codex",{"id":15,"slug":46,"title":47,"language":48},"prompt-to-harness-ai-engineering-shift-en","From Prompting to Harness Engineering","en",[50,56,62,68,74,80],{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"39e4c1b2-4a8d-4baf-86eb-f65d4f6c3624","why-chipotle-53000-burrito-stunt-smart-brand-marketing-zh","為什麼 Chipotle 的 53,000 捲餅活動是聰明的品牌行銷","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780538579630-nkln.png","2026-06-04T02:02:28.454411+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"53955aa8-9120-41c1-b342-6ca40e24b6ee","apples-gemini-deal-turns-cloud-ai-into-local-ai-zh","Apple 把雲端 AI 拆成本機 AI","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780535908899-g9ua.png","2026-06-04T01:18:03.319604+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"a1119341-06e2-47ed-95f0-192f89c277a7","sec-draft-plan-puts-crypto-rules-first-zh","SEC草案把加密規則排第一","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780534108464-yi2d.png","2026-06-04T00:48:00.749142+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"87a8a5d1-7284-4c58-aa53-9f353d5a2800","why-jensen-huang-keynote-bigger-than-nvidia-zh","為什麼 Jensen Huang 的 keynote 比 Nvidia 更重要","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780530468418-zi6e.png","2026-06-03T23:47:22.014083+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":13},"b5d4728c-ee2a-4df6-93c2-42e814d51ea1","why-smci-rally-is-about-supply-not-just-ai-zh","為什麼 SMCI 的漲勢主要是供給故事，不只是 Agentic AI","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780529579886-q16r.png","2026-06-03T23:32:28.626882+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":13},"6321e31d-d862-4666-b105-cd24c26d6f5a","nvidia-huang-ai-boom-agent-demand-zh","黃仁勳：AI 代理需求撐起晶片行情","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780528669292-jtux.png","2026-06-03T23:17:26.844843+00:00",[87,92,97,102,107,112,117,122,127,132],{"id":88,"slug":89,"title":90,"created_at":91},"ee073da7-28b3-4752-a319-5a501459fb87","ai-in-2026-what-actually-matters-now-zh","2026 AI 真正重要的事","2026-03-26T07:09:12.008134+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"83bd1795-8548-44c9-9a7e-de50a0923f71","trump-ai-framework-power-speech-state-preemption-zh","川普 AI 框架瞄準電力、言論與州權","2026-03-26T07:12:18.695466+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"ea6be18b-c903-4e54-97b7-5f7447a612e0","nvidia-gtc-2026-big-ai-announcements-zh","NVIDIA GTC 2026 重點拆解","2026-03-26T07:14:26.62638+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"4bcec76f-4c36-4daa-909f-54cd702f7c93","claude-users-spreading-out-and-getting-better-zh","Claude 用戶更分散，也更會用","2026-03-26T07:22:52.325888+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"bd903b15-2473-4178-9789-b7557816e535","openclaw-raises-hard-question-for-ai-models-zh","OpenClaw 逼問 AI 模型價值","2026-03-26T07:24:54.707486+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"eeac6b9e-ad9d-4831-8eec-8bba3f9bca6a","gap-google-gemini-checkout-fashion-search-zh","Gap 把結帳搬進 Gemini","2026-03-26T07:28:23.937768+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"0740e53f-605d-4d57-8601-c10beb126f3c","google-pushes-gemini-transition-to-march-2026-zh","Google 把 Gemini 轉換延到 2026 年 3…","2026-03-26T07:30:12.825269+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"e660d801-2421-4529-8fa9-86b82b066990","metas-llama-4-benchmark-scandal-gets-worse-zh","Meta Llama 4 分數風波又擴大","2026-03-26T07:34:21.156421+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"183f9e7c-e143-40bb-a6d5-67ba84a3a8bc","accenture-mistral-ai-sovereign-enterprise-deal-zh","Accenture 攜手 Mistral AI 賣主權 AI","2026-03-26T07:38:14.818906+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"191d9b1b-768a-478c-978c-dd7431a38149","mistral-ai-faces-its-hardest-year-yet-zh","Mistral AI 迎來最硬的一年","2026-03-26T07:40:23.716374+00:00"]