[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-code-becomes-the-agent-harness-zh":3,"article-related-code-becomes-the-agent-harness-zh":31,"series-research-adfa9b15-68b6-44cc-b34d-ebcb02c31210":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"adfa9b15-68b6-44cc-b34d-ebcb02c31210","code-becomes-the-agent-harness-zh","程式碼成了代理引擎","\u003Cp data-speakable=\"summary\">這篇綜述把程式碼定位成代理系統的運行層，串起推理、動作、記憶與驗證。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：把程式碼當代理底座\u003C\u002Fli>\u003C\u002Ful>\u003Cp>大型語言模型會寫程式，這件事大家已經不陌生。但這篇綜述要講的，不是模型又多會寫幾題，而是程式碼在 agentic 系統裡，開始變成「運行層」本身。它不只是輸出結果，而是把推理、行動、環境建模、執行驗證接起來的那層骨架。\u003C\u002Fp>\u003Cp>這個角度很實際。因為一個代理系統好不好，不再只是看模型下一個 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 準不準。真正影響體驗的，還有外面那圈 harness：怎麼規劃步驟、怎麼存狀態、怎麼呼叫工具、怎麼檢查結果、怎麼跨步驟或跨代理協作。\u003C\u002Fp>\u003Ch2>這篇論文想解什麼痛點\u003C\u002Fh2>\u003Cp>作者先從一個很簡單的觀察出發：現代 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 已經能在很多程式任務上表現不錯，從競賽程式到 repository-level 軟體工程都涵蓋在內。但當這些模型被拿來做 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 時，程式碼就不再只是被產出的物件，而是讓系統真的能運作的底層材料。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779173040130-zcyg.png\" alt=\"程式碼成了代理引擎\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題來了。當程式碼同時扮演「產物」和「基礎設施」兩種角色時，工程師很容易在概念上切得太散。規劃是規劃，記憶是記憶，工具是工具，驗證是驗證，看起來彼此獨立，但實作上其實都被同一層 code infrastructure 綁在一起。\u003C\u002Fp>\u003Cp>這篇綜述就是要補這個空缺。它提出一個「agent harness」的框架，幫大家用更清楚的方式看待以程式碼為核心的 agent 系統。白話講，就是不要再把 agent 的周邊能力當零碎外掛，而是把它們看成同一個運行框架裡的不同模組。\u003C\u002Fp>\u003Ch2>它的方法到底怎麼運作\u003C\u002Fh2>\u003Cp>這不是新模型，也不是\u003Ca href=\"\u002Fnews\u002Frrfp-readiness-driven-pipeline-training-zh\">訓練\u003C\u002Fa> recipe，所以沒有傳統論文那種 architecture 圖和 loss function。它的貢獻是整理領域，提出一個結構化的思考方式，把 code-as-harness 系統拆成三層。\u003C\u002Fp>\u003Cp>第一層是 harness interface。這一層處理程式碼怎麼連到 agent 的推理、動作與環境建模。實作上，這會影響 agent 怎麼表達步驟、怎麼呼叫操作、怎麼表示它正在互動的世界狀態。\u003C\u002Fp>\u003Cp>第二層是 harness mechanisms。作者把重點放在長程執行所需的規劃、記憶、工具使用，以及回饋驅動的控制與最佳化。這層的目標不是把 agent 做得花俏，而是讓它在多步驟任務裡維持穩定，不要一遇到偏差就整個崩掉。\u003C\u002Fp>\u003Cp>\u003Ca href=\"\u002Fnews\u002Fwhy-wembanyama-game-3-should-change-spurs-expectations-zh\">第三\u003C\u002Fa>層是從單代理擴展到多代理系統。到了這個層級，共享的程式碼物件可以拿來做協調、審查和驗證。這對需要多個 worker 一起合作的系統很重要，因為大家不只要各自會做事，還要能對齊狀態、檢查彼此輸出、分工處理不同責任。\u003C\u002Fp>\u003Cp>合在一起看，這三層其實在講同一件事：程式碼不是 agent 行為的副產品，而是讓行為能被執行、被檢查、被回復的操作面。這也是這篇綜述最核心的觀點。\u003C\u002Fp>\u003Ch2>這篇實際證明了什麼\u003C\u002Fh2>\u003Cp>先講清楚，這是綜述，不是實驗論文。摘要沒有公開新的 benchmark、沒有模型釋出、也沒有對照實驗數字可引用。若你想找的是某個指標提升多少，這篇摘要沒有提供完整 benchmark 細節。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779173034419-dsfs.png\" alt=\"程式碼成了代理引擎\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但它不是空談。作者整理了一批代表性方法與應用，範圍涵蓋 coding assistant、GUI 與作業系統自動化、embodied agents、科學發現、個人化與推薦、DevOps，以及企業工作流程。這個範圍很廣，表示「程式碼作為 harness」不是只適用於單一 coding benchmark，而是能延伸到多種 agent 場景。\u003C\u002Fp>\u003Cp>更重要的是，作者也把目前還卡住的地方講得很直接。像是：評估不能只看最後任務有沒有成功；如果回饋不完整，驗證就會變難；harness 的改進要避免引入回歸；多代理共享狀態要一致；安全敏感操作需要人類監督；多模態環境也還需要支援。\u003C\u002Fp>\u003Cp>這些限制其實很有價值，因為它們指出現在 agent 系統真正脆弱的地方。模型也許能吐出看起來合理的步驟，但外面的 code layer 還要處理狀態、錯誤回復、安全性，這些都不是單一終點指標能完整描述的。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你正在做 agentic software，這篇的價值在於它逼你換一種工程師視角看問題。不要只想 prompt 怎麼寫，也要想 harness 怎麼設計。因為真正讓 agent 能跑、能重試、能驗證的，通常就是這層程式碼。\u003C\u002Fp>\u003Cp>對 production 來說，這個框架很有用。code-centric harness 可以更容易承載長流程工作、保留跨步驟狀態，還能插入明確的驗證節點。當 agent 出錯時，也比較容易 debug，因為它的行動是透過程式碼介面被中介，不是完全藏在自由輸出的文字流裡。\u003C\u002Fp>\u003Cp>但這篇也沒有把問題講得太樂觀。多代理共享狀態依然難搞。安全敏感操作還是需要人類監督。只看最終任務成功與否，也不足以判斷 harness 是否真的穩健。這些都意味著，agent 系統的品質不只在模型本身，而在模型外面那一整圈可執行、可檢查、可恢復的設計。\u003C\u002Fp>\u003Ch2>實作上該怎麼理解這個框架\u003C\u002Fh2>\u003Cp>最實際的 takeaway 是：把程式碼當成 agent 的基礎設施，而不是模型剛好會說的一種語言。這會改變你設計 agent stack 的方式。你可能會更重視明確的介面、更細的 state management、更多驗證鉤子，以及多代理之間如何共享 artifact。\u003C\u002Fp>\u003Cp>這篇綜述沒有宣稱這套方法能直接解決可靠性問題。它比較像是在幫下一波 agent 工程建立共同語言。當大家都在做 coding assistant、自動化系統或多代理 workflow 時，有一個「harness」視角，會比把所有東西拆成孤立模組更好討論，也更好落地。\u003C\u002Fp>\u003Cp>如果要用一句話總結，這篇不是在推一個新模型，而是在推一個設計模式：在 agent 時代，程式碼本身就是運行代理的框架。模型負責想，harness 負責讓它真的做得出來、查得到、接得\u003Ca href=\"\u002Fnews\u002Fdashattention-differentiable-adaptive-sparse-attention-zh\">上下\u003C\u002Fa>一步。\u003C\u002Fp>\u003Cul>\u003Cli>程式碼被定義成代理的運行層，而不只是輸出結果。\u003C\u002Fli>\u003Cli>綜述把系統拆成介面、機制、以及多代理擴展三層。\u003C\u002Fli>\u003Cli>它的重點是提供一個可執行、可驗證的 agent 設計視角。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>對\u003Ca href=\"\u002Ftag\u002F台灣開發者\">台灣開發者\u003C\u002Fa>來說，這種框架特別像在提醒一件事：做 agent 不只是接 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa>、拼 prompt，而是要把狀態、工具、驗證、協作一起設計進同一個程式骨架裡。這篇論文講的，就是那個骨架。\u003C\u002Fp>","這篇綜述把程式碼定位成代理系統的運行層，串起推理、動作、記憶與驗證，重點在架構視角而非新模型。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.18747",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779173040130-zcyg.png","research","zh","576ffe2e-a54b-4030-84ea-8cc6eeb4f76f",[17,18,19,20,21,22],"agent harness","code-as-infrastructure","planning","memory","tool use","multi-agent systems",[24,25,26],"程式碼在 agent 系統裡不再只是輸出，而是運行底座。","這篇綜述的價值在整理介面、機制與多代理擴展三層框架。","摘要沒有 benchmark 數字，重點是概念整理與工程視角。",5,"2026-05-19T06:43:29.625994+00:00","2026-05-19T06:43:29.523+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":40,"relatedPosts":44},[33,34,36,37,39],{"name":18,"slug":18},{"name":17,"slug":35},"agent-harness",{"name":20,"slug":20},{"name":21,"slug":38},"tool-use",{"name":19,"slug":19},{"id":15,"slug":41,"title":42,"language":43},"code-becomes-the-agent-harness-en","Code Becomes the Agent Harness","en",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"33c9a55c-a8c0-4367-b742-f4567d1e98e3","mathematicians-warn-ai-could-distort-math-zh","數學界警告 AI 會扭曲證明標準","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780504386035-080l.png","2026-06-03T16:32:29.415063+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","2026-06-03T06:47:34.463464+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"e3a4b0f7-03b3-43c6-ae51-906b337c5c2f","ipt-vlms-hidden-space-reasoning-zh","IPT 讓 VLM 更會想像隱藏空間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780468394735-1k40.png","2026-06-03T06:32:46.560029+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"5fca9fe5-af66-47ce-85f0-0ffe1bee30b9","neuron-selectivity-changes-with-scale-zh","神經元選擇性會隨規模改變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780467514422-7oss.png","2026-06-03T06:17:44.126547+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"9f9c2a61-d058-4c62-bb88-106e683657f0","nasa-landsat-wild-disturbances-rising-zh","NASA Landsat：野火與風暴變多","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780448581102-owp0.png","2026-06-03T01:02:37.513233+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"3479bdee-21fb-4fda-9572-9394caba01b0","adacodec-predictive-visual-code-video-mllms-zh","AdaCodec 用預測碼壓縮影片 token","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780381988591-z2sp.png","2026-06-02T06:32:28.249023+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]