返回首頁

標籤

agentic coding

Agentic coding 指的是讓模型不只回答程式問題,而是能規劃、修改、測試並反覆修正整個開發流程。這類工作流常牽涉工具呼叫、多代理協作、長上下文與高額 token 成本,也直接影響 SWE-bench、Claude Code 與開源模型部署策略。

18 篇文章

Claude Code 讓代理設定變終端工作
工具應用/6月29日

Claude Code 讓代理設定變終端工作

我把 Claude Code 和 OpenHands 拆成團隊可直接套用的選型模板,重點放在安裝成本、沙箱、模型政策與採用門檻。

GPT-5.6 傳聞:2M 上下文與寫碼升級
模型發布/6月24日

GPT-5.6 傳聞:2M 上下文與寫碼升級

傳聞指 OpenAI 可能在 6 月 25 日推出 GPT-5.6,主打 200 萬 token 上下文、agentic coding 與更低定價,直接對上 Anthropic。

Windsurf 正在變成模型路由器,而不只是 IDE
工具應用/6月19日

Windsurf 正在變成模型路由器,而不只是 IDE

Windsurf 在 2026 年 6 月的更新顯示,它正在從程式編輯器轉向模型路由平台,真正的產品重心已經變成模型選擇、任務編排與驗證。

5 個 Grok 更新,把我寫 code 的方式改掉
AI Agent/6月11日

5 個 Grok 更新,把我寫 code 的方式改掉

我拆 Grok 這波更新:大模型、worktrees、API beta、語音與影片工具,哪些真能改寫開發流程。

Microsoft 首個推理模型怎麼看
產業動態/6月5日

Microsoft 首個推理模型怎麼看

我把 ZDNET 的模型 tracker 拆成一套可抄的評估框架,讓你不用吞完 PR 也能判斷新 AI 模型值不值得碰。

為什麼 Devin AI 被高估:它不是軟體工程師
AI Agent/5月27日

為什麼 Devin AI 被高估:它不是軟體工程師

Devin AI 很強,但它離真正的自主軟體工程師還差得很遠。

Sonar 收購 Gitar 強化 AI Code Review
工具應用/5月26日

Sonar 收購 Gitar 強化 AI Code Review

Sonar 於 2026 年 5 月 21 日收購 Gitar,把 AI code review 納入 SonarQube。這筆交易把生成、審查與驗證串成同一條流程,直指代理寫碼時的品質與風險控管。

Zero 把編譯錯誤變成 JSON
AI Agent/5月26日

Zero 把編譯錯誤變成 JSON

我拆 Vercel Zero 的 agent-first 編譯器設計,順手給你一份可直接抄走的結構化診斷模板。

為什麼 Claude Code 和 Qoder 打敗只會聊天的 AI 寫碼工具
工具應用/5月24日

為什麼 Claude Code 和 Qoder 打敗只會聊天的 AI 寫碼工具

Claude Code 和 Qoder 之所以更強,不是因為聊天更順,而是因為它們更能完成跨檔案、可驗證的真實開發任務。

為什麼 Amazon Q Developer 看錯了寫程式的未來
產業動態/5月19日

為什麼 Amazon Q Developer 看錯了寫程式的未來

Amazon Q Developer 是強大的 AWS 助手,但它不該被當成軟體開發未來的通用模板。

為什麼 Claude Opus 4.7 現在就是 Copilot 的正確選擇
工具應用/5月6日

為什麼 Claude Opus 4.7 現在就是 Copilot 的正確選擇

Claude Opus 4.7 應該成為 Copilot 的新預設,因為它更適合長流程、工具密集的寫碼任務,也更能降低反覆修正的成本。

Kimi K2.6 與 Qwen 3.6 拉近差距
模型發布/5月4日

Kimi K2.6 與 Qwen 3.6 拉近差距

Kimi K2.6 和 Qwen 3.6 這兩個 open-weight 模型,已經在 coding 和 agent 任務上逼近閉源模型。

AI 代理寫程式:token 比 chat 多燒 1000 倍
技術研究/4月27日

AI 代理寫程式:token 比 chat 多燒 1000 倍

這篇研究看 SWE-bench Verified 上的代理式寫程式,發現 token 花費可比一般 code chat 高出 1000 倍,且多半是 input 在燒錢,成本還很難預測。

Qwen3.6-27B:更小卻更準的寫碼路線
模型發布/4月27日

Qwen3.6-27B:更小卻更準的寫碼路線

Qwen3.6-27B 是 27B dense multimodal 模型,在 SWE-bench Verified 拿到 77.2,還贏過更大的 Qwen3.5-397B-A17B。對開發團隊來說,這代表更好部署,也更適合 agentic coding。

多代理寫程式像分散式系統
AI Agent/4月20日

多代理寫程式像分散式系統

Hacker News 一篇討論把多代理寫程式比作分散式系統。重點不是模型多聰明,而是怎麼用階段、檢查點、共享狀態,把不穩定的 LLM 變成可控流程。

Qwen3.6-35B-A3B 打開開源寫碼新路線
模型發布/4月20日

Qwen3.6-35B-A3B 打開開源寫碼新路線

Qwen3.6-35B-A3B 以 35B 總參數、3B 啟用參數和 Anthropic API 相容性,直接瞄準 Claude Code 工作流。這款開源 MoE 模型想把效能、成本和工具整合一次做到位。

Cursor Composer 2 走向代理式寫碼
模型發布/3月28日

Cursor Composer 2 走向代理式寫碼

Cursor 推出 Composer 2,CursorBench 61.3、Terminal-Bench 2.0 61.7,主打代理式寫碼與高量產團隊的成本效率。

小米 MiMo-V2-Pro 登場:1T MoE 模型
模型發布/3月28日

小米 MiMo-V2-Pro 登場:1T MoE 模型

小米推出 MiMo-V2-Pro,總參數超過 1T、每 token 啟用 42B,還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6,價格卻低很多。