[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-grok-build-goal-autonomous-coding-zh":3,"article-related-grok-build-goal-autonomous-coding-zh":34,"series-ai-agent-08c3c919-2446-4dda-85fb-c18b6ffc3b8d":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":30,"created_at":31,"published_at":32,"topic_cluster_id":33},"08c3c919-2446-4dda-85fb-c18b6ffc3b8d","grok-build-goal-autonomous-coding-zh","Grok Build 加上 \u002Fgoal，自動寫碼更像樣了","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fxai\">xAI\u003C\u002Fa> 的 Grok Build 新增 \u002Fgoal，讓\u003Ca href=\"\u002Fnews\u002Fnew-nlp-papers-agent-memory-tool-use-zh\">代理\u003C\u002Fa>能在本機上自己規劃、執行、驗證\u003Ca href=\"\u002Fnews\u002Fai-papers-code-music-rare-disease-zh\">程式\u003C\u002Fa>任務。\u003C\u002Fp>\u003Cp>xAI 在 \u003Ca href=\"https:\u002F\u002Fx.ai\" target=\"_blank\" rel=\"noopener\">Grok Build\u003C\u002Fa> 加上 \u003Cstrong>\u002Fgoal\u003C\u002Fstrong>。日期是 \u003Cstrong>2026 年 6 月 22 日\u003C\u002Fstrong>。講白了，就是你丟一個目標，代理自己跑到有結果為止。\u003C\u002Fp>\u003Cp>這招很直接，也很兇。它把 Grok Build 拉進 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fcodex\" target=\"_blank\" rel=\"noopener\">OpenAI Codex CLI\u003C\u002Fa> 的戰場。差別在於，xAI 想把「自動完成」講得更滿。\u003C\u002Fp>\u003Cp>真正有意思的，不是它會寫碼。很多工具都會。重點是它會不會自己驗證，然後修到能交差。這才是開發者最在意的地方。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標\u003C\u002Fth>\u003Cth>數值\u003C\u002Fth>\u003Cth>意思\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>\u002Fgoal 上線日\u003C\u002Ftd>\u003Ctd>2026-06-22\u003C\u002Ftd>\u003Ctd>自動執行模式已可用\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>SuperGrok\u003C\u002Ftd>\u003Ctd>$30\u002F月\u003C\u002Ftd>\u003Ctd>最低入門方案\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>X Premium Plus\u003C\u002Ftd>\u003Ctd>$40\u002F月\u003C\u002Ftd>\u003Ctd>另一個 CLI 入口\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>SuperGrok Heavy\u003C\u002Ftd>\u003Ctd>$300\u002F月\u003C\u002Ftd>\u003Ctd>高用量方案\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Grok Build 0.1 context window\u003C\u002Ftd>\u003Ctd>256,000 tokens\u003C\u002Ftd>\u003Ctd>可跑長任務\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>早期 SWE-Bench Verified\u003C\u002Ftd>\u003Ctd>70.8%\u003C\u002Ftd>\u003Ctd>xAI 既有成績\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Claude Code Opus 4.7\u003C\u002Ftd>\u003Ctd>87.6%\u003C\u002Ftd>\u003Ctd>主要競品基準\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>\u002Fgoal 到底改了什麼\u003C\u002Fh2>\u003Cp>一般 coding \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> 很像聊天機器人。你下需求，它吐程式碼。你看完，再丟下一輪指令。整個\u003Ca href=\"\u002Fnews\u002Fmythos-security-scare-cyber-audit-playbook-zh\">流程\u003C\u002Fa>，人的手還是卡很深。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782374588023-auvp.png\" alt=\"Grok Build 加上 \u002Fgoal，自動寫碼更像樣了\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>\u002Fgoal 不一樣。它把一句話變成一個有邊界的任務。裡面有進度面板，也有完成檢查。代理會自己往下做，不用你每一步都點頭。\u003C\u002Fp>\u003Cp>這件事很實際。因為開發時間常常浪費在「生成」和「驗證」之間。程式能編譯，不代表功能真的對。xAI 想把驗證塞進代理內部，讓它自己先抓錯。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>\u002Fgoal status\u003C\u002Fstrong> 看即時進度\u003C\u002Fli>\u003Cli>\u003Cstrong>\u002Fgoal pause\u003C\u002Fstrong> 暫停執行\u003C\u002Fli>\u003Cli>\u003Cstrong>\u002Fgoal resume\u003C\u002Fstrong> 繼續任務\u003C\u002Fli>\u003Cli>\u003Cstrong>\u002Fgoal clear\u003C\u002Fstrong> 取消工作\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這種設計也不是完全放生。開發者還能插手。你可以看狀態、停掉、續跑，或中途加新指令。只是不用每一步都人工審核，這點差很多。\u003C\u002Fp>\u003Cp>說真的，這就是代理工具的分水嶺。會改檔案不稀奇。會把任務做完，還能自己收尾，才比較像可用工具。\u003C\u002Fp>\u003Ch2>驗證才是重點\u003C\u002Fh2>\u003Cp>xAI 的說法是，\u002Fgoal 會用三種方式驗證。第一種是看自己產生的程式碼。第二種是打開網頁確認執行結果。第三種是直接跑腳本。\u003C\u002Fp>\u003Cp>這設計比單純回一句「done」合理多了。因為它至少有一個檢查步驟。代理不只是寫，還得證明自己沒亂來。\u003C\u002Fp>\u003Cp>很多第一代 coding agent 的問題都一樣。看起來很勤快，實際上很會自信爆棚。它們常常把「有改」誤當成「有對」。\u002Fgoal 想縮小這個落差。\u003C\u002Fp>\u003Cblockquote>“Coding agents are becoming the procurement front where AI labs compete to own the developer workflow.” — Mitch Ashley, VP and practice lead for software lifecycle engineering at The Futurum Group\u003C\u002Fblockquote>\u003Cp>這句話很準。現在不是比誰會吐一段漂亮 code。是比誰能吃下規劃、測試、修正這整條流程。\u003C\u002Fp>\u003Cp>但我也得潑點冷水。模型自己生成，又自己驗證，會不會只是自己幫自己蓋章？如果 generator 跟 verifier 太像，檢查可能只是在重述同一個錯誤。\u003C\u002Fp>\u003Ch2>兩個模型分工，聽起來合理\u003C\u002Fh2>\u003Cp>\u002Fgoal 用的是 \u003Ca href=\"https:\u002F\u002Fx.ai\u002Fgrok\" target=\"_blank\" rel=\"noopener\">Grok Build\u003C\u002Fa> 0.1 和 \u003Ca href=\"https:\u002F\u002Fx.ai\" target=\"_blank\" rel=\"noopener\">Composer 2.5\u003C\u002Fa>。xAI 的說法是，一個負責規劃和理解指令，另一個負責產碼和執行。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782374581875-majy.png\" alt=\"Grok Build 加上 \u002Fgoal，自動寫碼更像樣了\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這個切法很像工程上常見的分工。規劃歸規劃，執行歸執行。理論上這樣比較穩，也比較好控流程。\u003C\u002Fp>\u003Cp>問題還是在獨立性。兩個模型如果訓練訊號很像，失敗模式也可能很像。那驗證就會變成形式流程，不是真的抓 bug。\u003C\u002Fp>\u003Cp>更實際的一點是，Grok Build 的程式在開發者本機跑。這代表程式碼不會在 session 裡送去 xAI 伺服器。對金融、醫療、政府團隊，這點很有感。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fdocs.x.ai\u002F\" target=\"_blank\" rel=\"noopener\">xAI docs\u003C\u002Fa> 有 CLI 和方案說明\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopenai\u002Fcodex\" target=\"_blank\" rel=\"noopener\">Codex CLI\u003C\u002Fa> 是主要對手之一\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa> 目前聲量很高\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fai.google.dev\u002Fgemini-api\u002Fdocs\u002Fcode-assist\" target=\"_blank\" rel=\"noopener\">Gemini Code Assist\u003C\u002Fa> 也是企業選項\u003C\u002Fli>\u003C\u002Ful>\u003Cp>本機執行還有另一個好處。你不用把整個開發環境交出去。這對有法遵壓力的團隊，通常比模型分數更重要。\u003C\u002Fp>\u003Ch2>跟競品比，xAI 還沒追平\u003C\u002Fh2>\u003Cp>數字很直接。早期的 \u003Cstrong>grok-code-fast-1\u003C\u002Fstrong> 在 \u003Ca href=\"\u002Ftag\u002Fswe-bench-verified\">SWE-Bench Verified\u003C\u002Fa> 拿到 \u003Cstrong>70.8%\u003C\u002Fstrong>。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude-code\" target=\"_blank\" rel=\"noopener\">Claude Code\u003C\u002Fa> 在 \u003Ca href=\"\u002Ftag\u002Fopus-47\">Opus 4.7\u003C\u002Fa> 上是 \u003Cstrong>87.6%\u003C\u002Fstrong>。\u003C\u002Fp>\u003Cp>這個差距不小。講白了，xAI 還沒在純 coding 能力上追上第一梯隊。至少從公開數字看，還差一段。\u003C\u002Fp>\u003Cp>但 xAI 的論點也不是沒道理。它想強調的是長時間自主執行。代理如果能一直測、一直修、一直重跑，最後交出來的結果可能比單次 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 更重要。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>Grok Build\u003C\u002Fstrong>：早期成績 70.8%\u003C\u002Fli>\u003Cli>\u003Cstrong>Claude Code\u003C\u002Fstrong>：Opus 4.7 為 87.6%\u003C\u002Fli>\u003Cli>\u003Cstrong>Context window\u003C\u002Fstrong>：256,000 tokens\u003C\u002Fli>\u003Cli>\u003Cstrong>費用\u003C\u002Fstrong>：$30、$40、$300 三個級距\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這邏輯有道理，但還是要看真實專案。benchmark 會告訴你模型卡不卡、會不會亂補、會不會漏邊界條件。流程再好，也不能把底層弱點完全蓋掉。\u003C\u002Fp>\u003Cp>另一個變數是 xAI 之後想推的 \u003Ca href=\"https:\u002F\u002Fx.ai\" target=\"_blank\" rel=\"noopener\">Arena Mode\u003C\u002Fa>。如果真的上線，它會同時跑多個 agent，再挑最好的一個。這種做法有機會補單次表現不足。\u003C\u002Fp>\u003Ch2>開發者該看什麼\u003C\u002Fh2>\u003Cp>我覺得最值得觀察的，不是 demo 有多帥。是它會不會讓你少回去重開任務。代理如果常常提早宣告完成，那就只是把麻煩包裝得更漂亮。\u003C\u002Fp>\u003Cp>Grok Build 最近的節奏很快。先有 beta，再來有 Composer 2.5、外掛市場，現在又加上自動執行。這表示 xAI 想把它做成日常工具，不是一次性的展示品。\u003C\u002Fp>\u003Cp>如果你是團隊決策者，重點很簡單。別先問它多會講。先問它能不能在本機把任務做完，還能把驗證跑掉。能做到這件事，才算真的有用。\u003C\u002Fp>\u003Cp>我自己的判斷是，\u002Fgoal 是一個實際的產品進展，但還不是結論。接下來幾週的真實使用情況，會比任何宣傳文案更誠實。你要看的不是它會不會寫，而是它會不會收尾。\u003C\u002Fp>\u003Cp>如果 Grok Build 真的能穩定把本機修改、測試、修正這條線跑順，xAI 就算 benchmark 還沒追平，也會先拿到工作流程的優勢。這點對開發者很現實，也很殘酷。\u003C\u002Fp>\u003Cp>我的建議很簡單。拿一個你們團隊常見的小任務去測。看它能不能從規劃跑到驗證。那比看簡報準多了。\u003C\u002Fp>","xAI 在 Grok Build 加入 \u002Fgoal，讓代理能在本機上規劃、執行、驗證程式任務。這篇整理它的工作流程、驗證方式、價格與 SWE-Bench 對比。","www.techtimes.com","https:\u002F\u002Fwww.techtimes.com\u002Farticles\u002F318976\u002F20260624\u002Fgrok-build-ships-autonomous-execution-xai-agent-now-plans-runs-verifies.htm",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782374588023-auvp.png","ai-agent","zh","0003f204-e4d0-4015-8208-bbd23ecfb908",[17,18,19,20,21,22,23,24],"Grok Build","xAI","\u002Fgoal","autonomous coding","Claude Code","OpenAI Codex CLI","SWE-Bench Verified","本機執行",[26,27,28,29],"\u002Fgoal 把規劃、執行、驗證塞進同一個工作流。","Grok Build 強調本機執行，程式碼不送上雲端。","公開 benchmark 仍落後 Claude Code。","真正的看點是它能不能自己抓錯、自己修正。",0,"2026-06-25T08:02:38.465826+00:00","2026-06-25T08:02:38.447+00:00","e3b68196-9e64-4c18-a3b6-a73e73bfb367",{"tags":35,"relatedLang":40,"relatedPosts":44},[36,38],{"name":18,"slug":37},"xai",{"name":21,"slug":39},"claude-code",{"id":15,"slug":41,"title":42,"language":43},"grok-build-goal-autonomous-coding-en","Grok Build Adds \u002Fgoal for Autonomous Coding","en",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"096d7c02-566e-48e1-b7cd-d8218c2d87f4","manus-ai-agent-app-ready-for-real-work-zh","Manus AI 證明代理式 App 已能上線做事","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782379976402-dvi4.png","2026-06-25T09:32:20.496499+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"0e808308-2bd5-4fc0-a664-698df223abc4","anthropic-claude-tag-research-slack-search-zh","Claude 讓 Slack 變研究庫","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782285516725-yjy9.png","2026-06-24T07:18:02.774232+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"8fe481ef-010f-431b-a837-22ccafa68438","benchmark-harness-quality-beats-model-hype-coding-zh","這個 coding benchmark 證明：harness 品質勝過模型光環","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782253062596-f192.png","2026-06-23T22:17:21.208723+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"bd553163-18b3-46ba-b285-2a87d2ebbb71","glm-5-kill-vibe-coding-agent-engineering-zh","GLM-5 對了：該殺掉 vibe coding，改做 agent engin…","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782223378474-8fp8.png","2026-06-23T14:02:23.769355+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"c615cb9a-1006-4f70-ae81-c0bc61b85dee","loop-engineering-claude-code-workflow-zh","Loop Engineering：Claude Code 的新工作法","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782205389495-3rvj.png","2026-06-23T09:02:37.400033+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"b3231c66-e646-4d3c-8e7a-54e761e9b891","fable-5-ban-model-routing-race-zh","Fable 5 封鎖暴露模型路由賽局","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782145076193-i2y3.png","2026-06-22T16:17:25.211477+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","2026-03-28T03:17:42.090548+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"f2ca7720-b471-4ce5-9336-2a9ac2a876fd","amazon-bedrock-agents-multi-agent-workflows-zh","Amazon Bedrock Agents 進入多代理工作流","2026-04-01T09:30:29.945429+00:00"]