[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-tested-devin-10-tasks-finished-3-zh":3,"article-related-tested-devin-10-tasks-finished-3-zh":28,"series-ai-agent-21805270-d3b7-4155-8e3f-2c650cef3315":86},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":25,"created_at":26,"published_at":27,"topic_cluster_id":11},"21805270-d3b7-4155-8e3f-2c650cef3315","tested-devin-10-tasks-finished-3-zh","我測了 Devin 10 個任務，只做完 3 個","\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.cognition.ai\u002Fblog\u002Fdevin-2\" target=\"_blank\" rel=\"noopener\">Devin\u003C\u002Fa> 被包裝成 AI 軟體工程師。\u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener\">SWE-bench\u003C\u002Fa> 只給它 13.86%。這次實測更直接，10 個真實任務，只做完 3 個。說真的，這數字很刺眼。\u003C\u002Fp>\u003Cp>但這種結果很有價值。因為它不是玩具題目。它碰到的是 bug fix、migration、feature、test、refactor，還有架構題。這些才是開發者每天會遇到的東西。\u003C\u002Fp>\u003Cp>你可能會想問。那 Dev\u003Ca href=\"\u002Fnews\u002Fchainalysis-ai-agents-crypto-investigations-zh\">in\u003C\u002Fa> 到底是能用，還是只是行銷很會講？答案比較尷尬。它能處理一部分小任務。可是一碰到資料安全、系統約束、或多步驟決策，就常常開始飄。\u003C\u002Fp>\u003Ch2>這 10 個任務到底怎麼測\u003C\u002Fh2>\u003Cp>這次測試不是空想。它拿的是活著的 codebase 裡的 backlog 項目。每個任務都有清楚說明。也有驗收條件。這很重要。因為很多 AI 工具在短 p\u003Ca href=\"\u002Fnews\u002Fkiro-aws-healthomics-bioinformatics-workflow-zh\">ro\u003C\u002Fa>mpt 看起來很猛。真的進到專案，就開始撞牆。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775167981590-g2tr.png\" alt=\"我測了 Devin 10 個任務，只做完 3 個\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>任務分布也刻意拉開。不是只測改一行字。它包含 2 個 bug fix、2 個 migration、2 個新功能、2 組測試、1 個 refactor，還有 1 個架構題。這樣才看得出來，它是會做事，還是只會套模板。\u003C\u002Fp>\u003Cp>這種拆法很合理。因為軟體工作本來就分層。低風險任務，像修字串或補測試，AI 很容易上手。高風險任務，像 schema 變更、併發處理、資料回填，就完全是另一回事。\u003C\u002Fp>\u003Cp>以下是這次的工作類型：\u003C\u002Fp>\u003Cul>\u003Cli>2 個 bug fix：日期解析錯誤、API 回應破版\u003C\u002Fli>\u003Cli>2 個 migration：資料表結構調整、套件升級\u003C\u002Fli>\u003Cli>2 個新功能：webhook 處理器、使用者設定頁\u003C\u002Fli>\u003Cli>2 組測試：auth 單元測試、payments 整合測試\u003C\u002Fli>\u003Cli>1 個 refactor：抽出共用工具模組\u003C\u002Fli>\u003Cli>1 個架構題：多租戶 API 的快取層\u003C\u002Fli>\u003C\u002Ful>\u003Cp>結果很直接。Devin 完成了 2 個 bug fix 和 1 組測試。其他任務，多半是偏掉，或產出要大修的程式碼。30% 看起來比 13.86% 好。可是在真實團隊裡，7 個失敗就會變成 7 個要收拾的坑。\u003C\u002Fp>\u003Ch2>它做對了什麼\u003C\u002Fh2>\u003Cp>最漂亮的是日期解析那題。Devin 找到根因。它抓到了時區邊界問題。也把夏令時間的情境一起處理掉。這種任務很適合 AI。範圍小。線索明確。錯誤也常常是局部的。\u003C\u002Fp>\u003Cp>API 回應破版那題也不差。它追到序列化流程。找到 response schema 少了一個欄位。然後直接補上。沒有多餘抽象。沒有亂加一堆 hel\u003Ca href=\"\u002Fnews\u002Fcuda-cp-async-ampere-hbm-latency-zh\">per\u003C\u002Fa>。這種修補型工作，它確實有機會省時間。\u003C\u002Fp>\u003Cp>測試生成也有幫助。它幫 auth 模組寫出一組像樣的 unit test。核心路徑都有覆蓋。當然，它還是漏了一些 token 過期的邊界情境。可是在 boilerplate 這一段，已經能省下不少手工時間。\u003C\u002Fp>\u003Cp>這也很像現在很多團隊的經驗。AI coding agent 最好用的時候，是任務已經長得很清楚。成功條件也很明確。只要開始牽涉判斷，它的穩定度就掉得很快。\u003C\u002Fp>\u003Cblockquote>“We are still in the very early days of AI agents,” said \u003Ca href=\"https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fpeople\u002Fandrejk\u002F\" target=\"_blank\" rel=\"noopener\">Andrej Karpathy\u003C\u002Fa> in his February 2023 talk on software 2.0 and large language models. “The LLM is a new kind of operating system.”\u003C\u002Fblockquote>\u003Cp>Karpathy 這句話很準。講白了，這些工具不是來取代開發流程。它們是插進流程裡的一層。當這層只做一件事，它就有用。當它要自己決定產品方向，它就常常開始亂猜。\u003C\u002Fp>\u003Cp>所以問題不是它會不會寫 code。它會。問題是，它能不能在有限範圍內，穩穩寫對。這才是團隊真正關心的事。\u003C\u002Fp>\u003Ch2>它在哪裡翻車\u003C\u002Fh2>\u003Cp>migration 那題最危險。Devin 產出了一個會截斷欄位值的方案。它還先把資料複製過去，再刪掉舊欄位。這種錯在 production 不是小事。這是會出事的資料風險。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775167981040-bgc2.png\" alt=\"我測了 Devin 10 個任務，只做完 3 個\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>webhook 功能也很妙。它卡到架構選擇時，沒有選邊站。結果同步流程和 queue 流程都寫進去。還放在同一個檔案裡。看起來像做完了。其實是兩套邏輯互相打架。\u003C\u002Fp>\u003Cp>快取層那題更明顯。題目要的是多租戶 API cache。它回了一個單租戶的 in-memory cache。這不是小失誤。這是直接忽略限制條件。等於只看到「cache」，沒看到「multi-tenant」。\u003C\u002Fp>\u003Cp>這種錯很麻煩。因為它不是單純寫錯語法。它是沒抓到系統邊界。對工程來說，最貴的常常不是寫程式。是判斷哪些地方不能動。\u003C\u002Fp>\u003Cul>\u003Cli>migration 有資料截斷風險\u003C\u002Fli>\u003Cli>webhook 出現兩條互相衝突的流程\u003C\u002Fli>\u003Cli>快取設計忽略多租戶限制\u003C\u002Fli>\u003Cli>feature 任務缺少產品判斷\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這也解釋了，為什麼它在小修補表現比較好。因為小任務的約束少。大任務的約束多。越多約束，就越容易讓模型選錯路。\u003C\u002Fp>\u003Ch2>數字怎麼看才不會被話術騙\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener\">SWE-bench\u003C\u002Fa> 的 13.86% 很低。這個 benchmark 不像一般玩具題。它要求模型讀 issue、看 codebase、再做正確修改。也就是說，它測的是實戰感，不是背答案。\u003C\u002Fp>\u003Cp>這次實測的 3\u002F10，換算是 30%。表面上看，比 benchmark 好很多。可是真實開發不是只有完成率。還要算 review、修正、重跑、和 cleanup。這些成本加上去，效率常常會縮水。\u003C\u002Fp>\u003Cp>價格也值得看。Devin 一開始月費是 500 美元，後來降到 20 美元。這已經跟 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fcursor.com\u002F\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa> 的定位開始重疊。價格壓低，通常代表它還在找自己的實用場景。\u003C\u002Fp>\u003Cp>幾個工具的差別，可以這樣看：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.cognition.ai\u002Fblog\u002Fdevin-2\" target=\"_blank\" rel=\"noopener\">Devin\u003C\u002Fa>：偏自動化，但容易走歪\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa>：互動式，保留人類決策\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fcursor.com\u002F\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa>：適合編輯與 review\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffeatures\u002Fcopilot\" target=\"_blank\" rel=\"noopener\">GitHub Copilot\u003C\u002Fa>：擅長補全和 boilerplate\u003C\u002Fli>\u003C\u002Ful>\u003Cp>重點在控制權。Devin 想自己做完。Claude Code 和 Cursor 讓人類一直在迴路裡。這次測試裡，後者反而更實際。因為錯了也比較早發現，不會一路錯到底。\u003C\u002Fp>\u003Cp>講白了，便宜不等於划算。工具如果會自己亂跑 40 分鐘，再吐一坨壞 code，20 美元也可能很貴。反過來，一個能讓你少走冤枉路的工具，才真的有價值。\u003C\u002Fp>\u003Ch2>這對團隊代表什麼\u003C\u002Fh2>\u003Cp>如果你的 backlog 裡，大多是小型 bug fix、測試補強、套件升級，那 Devin 可能真的能幫上忙。這些任務範圍窄。驗收條件也清楚。AI 比較容易交出可用草稿。\u003C\u002Fp>\u003Cp>但如果是 schema 設計、多步驟功能、或任何不能出錯的資料操作，就要小心。這時候它還是需要人盯著。不是看一眼就好。是要真的 review，真的驗證。\u003C\u002Fp>\u003Cp>對 solo developer 來說，它有時候像一個會自己跑去寫草稿的實習生。你可以先丟一個小任務給它。自己去處理別的事情。等回來再修。這種用法比較務實。\u003C\u002Fp>\u003Cp>對團隊來說，ROI 就沒那麼直覺。因為 review 和修正都要算進去。只要任務稍微複雜，省下的時間很容易被吃回去。這也是很多 AI coding agent 現在卡住的地方。\u003C\u002Fp>\u003Cp>我自己的判斷很簡單。Devin 比較像「AI 初階助理」。它能處理結構清楚的 ticket。它不是可以放手的資深工程師。更不是可以自己扛一整個 sprint 的人。\u003C\u002Fp>\u003Cp>如果你現在要評估它，我會建議你只拿 20% 的重複工作去試。像是補測試、改小 bug、整理 boilerplate。不要拿架構題、資料安全題、或產品判斷題去硬碰。那樣只會浪費時間。\u003C\u002Fp>\u003Ch2>接下來該怎麼看 AI coding agent\u003C\u002Fh2>\u003Cp>這波工具熱潮，已經把一件事講得很清楚。AI 會寫 code。這件事早就不是新聞。真正的問題，是它能不能在有約束的情境下，少犯錯。\u003C\u002Fp>\u003Cp>我覺得接下來 12 個月，大家會更重視「可控性」而不是「自動化」這個詞。因為在真實專案裡，能被人類快速接手的工具，通常比全自動但不穩的工具更有用。\u003C\u002Fp>\u003Cp>所以問題不是要不要用 Devin。問題是你要拿它做什麼。你如果把它當成草稿機，它還行。你如果把它當成主力工程師，那就太早了。真的，太早了。\u003C\u002Fp>\u003Cp>下一步最實際的做法，是先挑 5 個低風險任務測它。看它能不能穩定完成。再看 review 成本。只要 cleanup 時間比產出還多，答案就很明顯了。\u003C\u002Fp>","Devin 在 SWE-bench 只拿 13.86%，實測 10 個真實任務也只完成 3 個。這篇拆解它在哪些工作能用、哪些地方會亂掉。","dev.to","https:\u002F\u002Fdev.to\u002Falanwest\u002Fi-gave-devin-10-real-tasks-it-completed-3-3063",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775167981590-g2tr.png","ai-agent","zh","1a496462-2097-4efc-9a2b-17e192da4c86",[17,18,19,20,21,22,23,24],"Devin","AI coding agent","SWE-bench","Claude Code","Cursor","GitHub Copilot","人工智慧","軟體工程",7,"2026-04-02T22:12:37.165364+00:00","2026-04-02T22:12:37.14+00:00",{"tags":29,"relatedLang":45,"relatedPosts":49},[30,32,33,35,37,39,41,44],{"name":21,"slug":31},"cursor",{"name":23,"slug":23},{"name":18,"slug":34},"ai-coding-agent",{"name":22,"slug":36},"github-copilot",{"name":17,"slug":38},"devin",{"name":20,"slug":40},"claude-code",{"name":42,"slug":43},"SWE-Bench","swe-bench",{"name":24,"slug":24},{"id":15,"slug":46,"title":47,"language":48},"tested-devin-10-tasks-finished-3-en","I Tested Devin on 10 Tasks. It Finished 3.","en",[50,56,62,68,74,80],{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"0ba5b1a8-82c5-464a-bea5-9a2c8730da74","aws-devops-agent-turns-incident-chaos-into-triage-zh","AWS DevOps Agent 把事故排查變成三步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780466689960-g1sv.png","2026-06-03T06:03:14.154923+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"841eac88-b0f0-4a4c-9e1e-efc3b5c16281","kimi-k26-live-300-agent-workflows-zh","Kimi K2.6 上線：300 代理工作流","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780430574285-hqpn.png","2026-06-02T20:02:24.972179+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"f0411957-bcdb-42d9-a267-3e90ae7d9cb1","how-to-take-a-sabbatical-at-openai-zh","怎麼申請 OpenAI sabbatical","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780398216422-8fi7.png","2026-06-02T11:02:25.74372+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"37a5e429-4235-439c-9b05-bb377085462c","8-steps-build-production-rag-with-langchain-zh","8 步驟打造可上線的 LangChain RAG","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780178597493-4hz7.png","2026-05-30T22:02:48.14022+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":13},"e73c041b-852b-44c3-85aa-0f1e2e5848e3","ai-agents-hit-chaos-mode-claude-code-openclaw-zh","Claude Code＋OpenClaw 讓 AI 代理失控升溫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780160576178-yqcs.png","2026-05-30T17:02:25.725767+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":13},"a708dcdf-cae4-4483-a256-5df230e66543","how-to-use-claude-4-8-models-in-python-zh","怎麼用 Python 呼叫 Claude 4.8","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780009366539-s0pd.png","2026-05-28T23:02:20.794444+00:00",[87,92,97,102,107,112,117,122,127,132],{"id":88,"slug":89,"title":90,"created_at":91},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","2026-03-28T03:17:42.090548+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"f2ca7720-b471-4ce5-9336-2a9ac2a876fd","amazon-bedrock-agents-multi-agent-workflows-zh","Amazon Bedrock Agents 進入多代理工作流","2026-04-01T09:30:29.945429+00:00"]