[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-grok-build-turns-xai-into-coding-agent-zh":3,"article-related-grok-build-turns-xai-into-coding-agent-zh":30,"series-ai-agent-3ee7a75a-d5c8-4b02-98aa-c37375a97efc":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"3ee7a75a-d5c8-4b02-98aa-c37375a97efc","grok-build-turns-xai-into-coding-agent-zh","Grok Build 把 xAI 變成寫碼代理","\u003Cp data-speakable=\"summary\">Grok Build 是 \u003Ca href=\"\u002Ftag\u002Fxai\">xAI\u003C\u002Fa> 的第一個 coding \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>，我把它拆成可直接拿去測工具的評估方法。\u003C\u002Fp>\u003Cp>我這陣子看 AI 寫碼工具，真的越看越煩。大部分產品都很像在跟你裝熟：你丟一個問題，它先稱讚你；你說要改架構，它也說好；你問它能不能幫忙處理整個 repo，它就開始講一堆漂亮話，最後還是只會吐一段看起來像樣的\u003Ca href=\"\u002Fnews\u002F8-ai-coding-assistants-for-enterprise-teams-zh\">程式\u003C\u002Fa>碼。問題不是它會不會寫，而是它到底懂不懂「在真實專案裡做事」這件事。\u003C\u002Fp>\u003Cp>所以我看到 xAI 的 \u003Ca href=\"https:\u002F\u002Fwww.pcmag.com\u002Fnews\u002Felon-musks-xai-launches-grok-build-its-first-ai-coding-agent\">Grok Build\u003C\u002Fa> 時，第一個反應不是哇好猛，而是：終於有人願意把 Grok 從聊天框往工作流裡推了。這種東西我看過太多半成品，差別就在於它是 demo 還是能進 repo。Grok Build 這次被講成 xAI 的第一個 coding agent，意思很直接，就是它不想只當會講話的模型了。\u003C\u002Fp>\u003Cp>我下面不想跟你講\u003Ca href=\"\u002Fnews\u002Fwhy-wembanyama-game-3-should-change-spurs-expectations-zh\">什麼\u003C\u002Fa>空泛的 agent 未來，我只想拆一件事：這種「coding agent」的說法，實際上在測什麼、常常死在哪、你要怎麼把它拿來評估自己的工具選型。順便，我也會給你一份能直接複製的模板，省得你每次都從零開始想怎麼測。\u003C\u002Fp>\u003Ch2>xAI 這次不是在賣聊天，是在賣做事\u003C\u002Fh2>\u003Cblockquote>“AI coding agents are on the rise, and xAI is the latest to join the race with Grok Build.”\u003C\u002Fblockquote>\u003Cp>翻譯一下就是：xAI 不再只想讓 Grok 當回答機，它想讓 Grok 進到開發流程裡幫你幹活。這聽起來很像行銷話術，但我覺得差別其實很硬。聊天模型的任務是回答；coding agent 的任務是處理。前者你問它「怎麼做」，後者你要它「先看、再判斷、再改、最後留下可 review 的結果」。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779174862341-tgpr.png\" alt=\"Grok Build 把 xAI 變成寫碼代理\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>我以前最受不了這類產品的一點，就是它們很愛把「能產生 code」偷換成「能完成工作」。這兩件事差很多。會寫一段 function，不代表會理解依賴關係；能改一個檔案，不代表知道這個改動會不會炸測試；能講出一個 plan，不代表真的能把 plan 變成乾淨的 diff。這些才是 agent 真正要扛的。\u003C\u002Fp>\u003Cp>實操上，我會把這類消息先翻成三個問題：它能不能跨檔案？它能不能保留 context？它能不能在你不盯著它的時候，還維持基本的工程判斷？如果這三題答不清楚，那不管它叫 agent、\u003Ca href=\"\u002Ftag\u002Fcopilot\">copilot\u003C\u002Fa> 還是 assistant，本質上都還是比較會聊天的 autocomplete。\u003C\u002Fp>\u003Cul>\u003Cli>看產品時先問：它是在回答，還是在執行。\u003C\u002Fli>\u003Cli>能不能跨檔案、保留 context、產出可 review 的 diff，這三個比 demo 重要。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>真正有用的 agent，不是永遠說好\u003C\u002Fh2>\u003Cp>我很討厭一種 AI 風格：你提什麼它都說好。你說要大改，它說好；你說要保守，它也說好。這種東西拿來陪你腦暴還行，拿來寫碼就很危險。因為工程裡最值錢的不是附和，而是能不能看出你哪裡想歪了。\u003C\u002Fp>\u003Cp>這也是我會拿 Grok Build 來觀察的地方。它如果只是把 prompt 包裝得更像「工作流」，那沒什麼了不起。真正的 coding agent 應該能做兩件事：第一，先問清楚範圍；第二，對你的方案提出反駁或縮小。尤其是後者，很多人嘴上說想要 agent，其實只是想要一個不會頂嘴的實習生。但實習生至少還會問你「這樣真的可以嗎」。\u003C\u002Fp>\u003Cp>我之前拿過一個 AI 工具去整理 legacy service，結果它很熱心地把一個檔案拆成五個，名字改得像隨機產生器，測試也\u003Ca href=\"\u002Fnews\u002Frrfp-readiness-driven-pipeline-training-zh\">跟著\u003C\u002Fa>漂移。從語法上看它沒錯，從維運角度看它很糟。這就是 agent 跟 code generator 的分水嶺：前者要懂風險，後者只負責生成。\u003C\u002Fp>\u003Cp>實操寫法很簡單。你不要拿最容易的題目測它，因為那只會驗證它會不會抄模板。你要故意給它一個有陷阱的任務，例如：改 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 但不能動 public contract、修 bug 但要維持 test pattern、重構 helper 但不能改 import 路徑。看它會不會先提醒你 blast radius，而不是直接衝進去亂改。\u003C\u002Fp>\u003Cul>\u003Cli>好 agent 會先縮小問題，不會急著擴張問題。\u003C\u002Fli>\u003Cli>壞 agent 會把一個小修補寫成你不想 review 的大工程。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>「第一個 coding agent」這句話，重點其實是試水溫\u003C\u002Fh2>\u003Cp>PCMag 把 Grok Build 寫成 xAI 的第一個 \u003Ca href=\"\u002Ftag\u002Fai-coding\">AI coding\u003C\u002Fa> agent，這個「第一個」我覺得很重要。因為第一版通常不是答案，而是公司在摸索自己到底要站哪一邊：是做展示用的酷東西，還是做每天都能碰的工具。兩者差超多。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779174860018-s63p.png\" alt=\"Grok Build 把 xAI 變成寫碼代理\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>第一個版本最容易暴露公司對開發者痛點的理解程度。它如果只會秀單點能力，通常代表產品思維還停在模型層；如果它開始處理 review、diff、scope control、失敗回復這些麻煩事，才比較像真的想進工作流。你可以把這種產品想成進廚房，不是進舞台。台上漂亮沒用，能不能洗菜、切菜、收尾，才是重點。\u003C\u002Fp>\u003Cp>我看這類產品時，會順手拿它去比 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffeatures\u002Fcopilot\">GitHub Copilot\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-code\">Claude Code\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-codex\u002F\">OpenAI Codex\u003C\u002Fa> 這些已經被很多人拿來試的工具。不是因為品牌很香，而是因為工作流才是比較基準。你最後不是在選誰的 demo 比較會講話，而是在選誰比較不會把你的 repo 弄髒。\u003C\u002Fp>\u003Cp>實操上，我會把「第一個」解讀成試用版，不是定論。你要看的是它有沒有把最麻煩的工程細節先處理掉，而不是只把介面做得很像 agent。這種差別，通常要真的丟進 repo 才看得出來。\u003C\u002Fp>\u003Ch2>repo 不吃這套，模型再強也沒用\u003C\u002Fh2>\u003Cp>每次看到 coding agent 宣傳，我腦中都會浮現同一個畫面：一個乾淨得要命的 toy repo，幾個漂亮檔案，幾個簡單測試，然後 agent 在那邊大顯神威。問題是，真實專案根本不是這樣。真實 repo 充滿歷史包袱、半完成 migration、怪命名、過期測試、以及只有某個離職工程師才知道的詭異路徑。\u003C\u002Fp>\u003Cp>所以 Grok Build 真正要證明的，不是它會不會寫 code，而是它會不會在你的 repo 裡維持形狀。它知道該讀哪些檔案嗎？它會不會尊重現有 pattern？它會不會因為想表現而順手重寫一堆你根本沒叫它碰的東西？如果答案不漂亮，那它就是在增加 cleanup work，不是在幫忙。\u003C\u002Fp>\u003Cp>我踩過最典型的坑，就是 AI 幫我產出一段「看起來很合理」的 patch，結果 import 錯、config 假設錯、測試也被它修成沒意義。這種東西在展示時完全看不出來，只有 merge 的時候你才會想罵人。這也是為什麼我現在看 agent，只看它能不能在 repo 裡活下來，不看它會不會寫一段漂亮的 code。\u003C\u002Fp>\u003Cul>\u003Cli>repo-aware agent：會讀現有結構、尊重團隊慣例、保留測試模式。\u003C\u002Fli>\u003Cli>repo-blind agent：把每個專案都當成全新教學範例。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>實操寫法：拿你最醜、但最真實的 repo 來測，不要拿新專案。最好是有既有 conventions、又有一個你平常不想碰的 edge case。看它是幫你維持形狀，還是直接 bulldoze 掉。\u003C\u002Fp>\u003Ch2>我會先問這幾題，再決定要不要信它\u003C\u002Fh2>\u003Cp>如果 Grok Build 要真的進工作流，我會先問幾個很無聊、但很致命的問題。它到底用了哪些 context？每一步能不能看？我能不能中途停掉？它產出的 diff 是不是乾淨？失敗了會不會自己修正，還是只會重試到你受不了？這些都不性感，但這些就是成敗。\u003C\u002Fp>\u003Cp>很多 AI coding 產品最愛偷懶的地方，就是只展示 happy path。看起來像有魔法，實際上是把風險丟給使用者。你一開始可能覺得很爽，直到第一個壞 patch 進了 shared branch，整個團隊開始不信它。信任一掉，工具就會變成擺設。\u003C\u002Fp>\u003Cp>我會把評估標準縮成四個字：可追、可控。可追是你知道它為什麼改；可控是你知道它改到哪裡停。只要這兩件事做不到，再聰明的 agent 都只是高級玩具。開發者不是不想要自動化，我們是不想要不可預測的自動化。\u003C\u002Fp>\u003Cp>實操上，你可以先寫好自己的底線清單。像我自己會看四件事：diff 要不能太髒、範圍要能控制、理由要能看懂、壞掉時要能快速拒絕。這些如果做不到，我就不管它多會講故事。\u003C\u002Fp>\u003Ch2>我會怎麼測 Grok Build，不浪費一整週\u003C\u002Fh2>\u003Cp>如果明天要我評估 Grok Build，我絕對不會從 greenfield app 開始。那種測法太假了。我要的是一個一小時內能看出差異的流程，而且要在真實 codebase 裡做。像是更新 API contract、修一個 flaky test、或是搬一個 helper 但不能搞爛 import path。這種題目才會逼出它的真面目。\u003C\u002Fp>\u003Cp>我也會把它跟你平常可能已經在用的工具放一起看，像 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Ffeatures\u002Fcopilot\">GitHub Copilot\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-codex\u002F\">OpenAI Codex\u003C\u002Fa>、甚至 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-code\">Claude Code\u003C\u002Fa>。不是因為名字比較大，而是因為 workflow 才是核心。你要看它能不能連續幾輪都還有用，能不能在走歪後拉回來，能不能講 tradeoff 而不是只會講漂亮話。\u003C\u002Fp>\u003Cp>我最在意的是它像不像 collaborator，而不是 vending machine。vending machine 你丟錢它吐 code；collaborator 會提醒你這樣做會不會把後面搞爛。這個標準很土，但它真的比「看起來很 AI」重要太多。\u003C\u002Fp>\u003Cp>實操寫法：直接做一個一小時 eval。挑三個任務，各自代表不同痛點：一個 refactor、一個 bug fix、一個 test change。每個任務都記錄 accuracy、diff quality、還有你最後要補多少 cleanup。cleanup 比 help 還大，就不用再自欺欺人了。\u003C\u002Fp>\u003Ch2>可抄的模板\u003C\u002Fh2>\u003Cpre>\u003Ccode># AI coding agent eval template\n\n## Goal\nDescribe the exact task you want the agent to complete.\n\n## Repo context\n- Language\u002Fframework:\n- Package manager:\n- Test command:\n- Files likely involved:\n\n## Task\nWrite the change request in one paragraph.\n\n## Constraints\n- Do not change public APIs unless required.\n- Keep diffs small.\n- Preserve existing style and naming.\n- Update tests if behavior changes.\n- Explain any tradeoffs before editing.\n\n## Questions the agent should answer first\n1. What files do you think are relevant?\n2. What risks do you see?\n3. What is the smallest safe change?\n\n## What good output looks like\n- Clear plan before edits\n- Small, reviewable diff\n- Tests updated or added\n- Notes on edge cases and follow-up work\n\n## Red flags\n- Rewrites unrelated files\n- Ignores existing conventions\n- Makes broad changes without asking\n- Produces code that looks right but is hard to review\n\n## Scorecard\n- Repo understanding: 1-5\n- Diff quality: 1-5\n- Scope control: 1-5\n- Test awareness: 1-5\n- Cleanup required: 1-5\n\n## Decision\n- Adopt\n- Pilot\n- Reject\n\n## Notes\nCapture the agent’s best and worst behaviors here.\n\u003C\u002Fcode>\u003C\u002Fpre>\u003Cp>這份模板我就是拿來逼工具露出本性。不是看它能不能寫出一段漂亮答案，而是看它會不會在真實 repo 裡做出可 review 的改動。你直接複製去用就行，不用再自己發明評分表。\u003C\u002Fp>\u003Cp>原始來源是 PCMag 這篇 \u003Ca href=\"https:\u002F\u002Fwww.pcmag.com\u002Fnews\u002Felon-musks-xai-launches-grok-build-its-first-ai-coding-agent\">https:\u002F\u002Fwww.pcmag.com\u002Fnews\u002Felon-musks-xai-launches-grok-build-its-first-ai-coding-agent\u003C\u002Fa>，我拆的是它的產品訊號；上面這套評估方法、判斷框架和模板，主要是我自己整理出來的。\u003C\u002Fp>","我拆 xAI 的 Grok Build 怎麼從聊天模型變成 coding agent，順手給你一份可直接拿去評估工具的模板。","www.pcmag.com","https:\u002F\u002Fwww.pcmag.com\u002Fnews\u002Felon-musks-xai-launches-grok-build-its-first-ai-coding-agent",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779174862341-tgpr.png","ai-agent","zh","7776d8ed-2de2-4421-bcaa-d5b731a77a4c",[17,18,19,20,21],"Grok Build","coding agent","AI coding","repo-aware","workflow",[23,24,25],"把 AI coding agent 當成 workflow 工具，不是聊天模型。","先測 repo-aware、scope control、diff quality，再談聰不聰明。","可直接複製評估模板，快速判斷工具能不能進真實專案。",7,"2026-05-19T07:13:53.361224+00:00","2026-05-19T07:13:53.349+00:00","e3b68196-9e64-4c18-a3b6-a73e73bfb367",{"tags":31,"relatedLang":40,"relatedPosts":44},[32,33,35,37,38],{"name":20,"slug":20},{"name":18,"slug":34},"coding-agent",{"name":17,"slug":36},"grok-build",{"name":21,"slug":21},{"name":19,"slug":39},"ai-coding",{"id":15,"slug":41,"title":42,"language":43},"grok-build-turns-xai-into-coding-agent-en","Grok Build turns xAI into a coding agent","en",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"0ba5b1a8-82c5-464a-bea5-9a2c8730da74","aws-devops-agent-turns-incident-chaos-into-triage-zh","AWS DevOps Agent 把事故排查變成三步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780466689960-g1sv.png","2026-06-03T06:03:14.154923+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"841eac88-b0f0-4a4c-9e1e-efc3b5c16281","kimi-k26-live-300-agent-workflows-zh","Kimi K2.6 上線：300 代理工作流","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780430574285-hqpn.png","2026-06-02T20:02:24.972179+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"f0411957-bcdb-42d9-a267-3e90ae7d9cb1","how-to-take-a-sabbatical-at-openai-zh","怎麼申請 OpenAI sabbatical","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780398216422-8fi7.png","2026-06-02T11:02:25.74372+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"37a5e429-4235-439c-9b05-bb377085462c","8-steps-build-production-rag-with-langchain-zh","8 步驟打造可上線的 LangChain RAG","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780178597493-4hz7.png","2026-05-30T22:02:48.14022+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"e73c041b-852b-44c3-85aa-0f1e2e5848e3","ai-agents-hit-chaos-mode-claude-code-openclaw-zh","Claude Code＋OpenClaw 讓 AI 代理失控升溫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780160576178-yqcs.png","2026-05-30T17:02:25.725767+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"a708dcdf-cae4-4483-a256-5df230e66543","how-to-use-claude-4-8-models-in-python-zh","怎麼用 Python 呼叫 Claude 4.8","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780009366539-s0pd.png","2026-05-28T23:02:20.794444+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","2026-03-28T03:17:42.090548+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"f2ca7720-b471-4ce5-9336-2a9ac2a876fd","amazon-bedrock-agents-multi-agent-workflows-zh","Amazon Bedrock Agents 進入多代理工作流","2026-04-01T09:30:29.945429+00:00"]