Grok Build 加上 /goal，自動寫碼更像樣了

OraCore Editors

返回首頁

[AGENT] 2026年6月25日6 分鐘閱讀OraCore 編輯部

Grok Build 加上 /goal，自動寫碼更像樣了

xAI 在 Grok Build 加入 /goal，讓代理能在本機上規劃、執行、驗證程式任務。這篇整理它的工作流程、驗證方式、價格與 SWE-Bench 對比。

xAI Claude Code

分享 LinkedIn

xAI 的 Grok Build 新增 /goal，讓代理能在本機上自己規劃、執行、驗證程式任務。

xAI 在 Grok Build 加上 /goal。日期是 2026 年 6 月 22 日。講白了，就是你丟一個目標，代理自己跑到有結果為止。

這招很直接，也很兇。它把 Grok Build 拉進 Claude Code 和 OpenAI Codex CLI 的戰場。差別在於，xAI 想把「自動完成」講得更滿。

真正有意思的，不是它會寫碼。很多工具都會。重點是它會不會自己驗證，然後修到能交差。這才是開發者最在意的地方。

指標	數值	意思
/goal 上線日	2026-06-22	自動執行模式已可用
SuperGrok	$30/月	最低入門方案
X Premium Plus	$40/月	另一個 CLI 入口
SuperGrok Heavy	$300/月	高用量方案
Grok Build 0.1 context window	256,000 tokens	可跑長任務
早期 SWE-Bench Verified	70.8%	xAI 既有成績
Claude Code Opus 4.7	87.6%	主要競品基準

/goal 到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

一般 coding agent 很像聊天機器人。你下需求，它吐程式碼。你看完，再丟下一輪指令。整個流程，人的手還是卡很深。

/goal 不一樣。它把一句話變成一個有邊界的任務。裡面有進度面板，也有完成檢查。代理會自己往下做，不用你每一步都點頭。

這件事很實際。因為開發時間常常浪費在「生成」和「驗證」之間。程式能編譯，不代表功能真的對。xAI 想把驗證塞進代理內部，讓它自己先抓錯。

/goal status 看即時進度
/goal pause 暫停執行
/goal resume 繼續任務
/goal clear 取消工作

這種設計也不是完全放生。開發者還能插手。你可以看狀態、停掉、續跑，或中途加新指令。只是不用每一步都人工審核，這點差很多。

說真的，這就是代理工具的分水嶺。會改檔案不稀奇。會把任務做完，還能自己收尾，才比較像可用工具。

驗證才是重點

xAI 的說法是，/goal 會用三種方式驗證。第一種是看自己產生的程式碼。第二種是打開網頁確認執行結果。第三種是直接跑腳本。

這設計比單純回一句「done」合理多了。因為它至少有一個檢查步驟。代理不只是寫，還得證明自己沒亂來。

很多第一代 coding agent 的問題都一樣。看起來很勤快，實際上很會自信爆棚。它們常常把「有改」誤當成「有對」。/goal 想縮小這個落差。

“Coding agents are becoming the procurement front where AI labs compete to own the developer workflow.” — Mitch Ashley, VP and practice lead for software lifecycle engineering at The Futurum Group

這句話很準。現在不是比誰會吐一段漂亮 code。是比誰能吃下規劃、測試、修正這整條流程。

但我也得潑點冷水。模型自己生成，又自己驗證，會不會只是自己幫自己蓋章？如果 generator 跟 verifier 太像，檢查可能只是在重述同一個錯誤。

兩個模型分工，聽起來合理

/goal 用的是 Grok Build 0.1 和 Composer 2.5。xAI 的說法是，一個負責規劃和理解指令，另一個負責產碼和執行。

這個切法很像工程上常見的分工。規劃歸規劃，執行歸執行。理論上這樣比較穩，也比較好控流程。

問題還是在獨立性。兩個模型如果訓練訊號很像，失敗模式也可能很像。那驗證就會變成形式流程，不是真的抓 bug。

更實際的一點是，Grok Build 的程式在開發者本機跑。這代表程式碼不會在 session 裡送去 xAI 伺服器。對金融、醫療、政府團隊，這點很有感。

xAI docs 有 CLI 和方案說明
Codex CLI 是主要對手之一
Claude Code 目前聲量很高
Gemini Code Assist 也是企業選項

本機執行還有另一個好處。你不用把整個開發環境交出去。這對有法遵壓力的團隊，通常比模型分數更重要。

跟競品比，xAI 還沒追平

數字很直接。早期的 grok-code-fast-1 在 SWE-Bench Verified 拿到 70.8%。Claude Code 在 Opus 4.7 上是 87.6%。

這個差距不小。講白了，xAI 還沒在純 coding 能力上追上第一梯隊。至少從公開數字看，還差一段。

但 xAI 的論點也不是沒道理。它想強調的是長時間自主執行。代理如果能一直測、一直修、一直重跑，最後交出來的結果可能比單次 benchmark 更重要。

Grok Build：早期成績 70.8%
Claude Code：Opus 4.7 為 87.6%
Context window：256,000 tokens
費用：$30、$40、$300 三個級距

這邏輯有道理，但還是要看真實專案。benchmark 會告訴你模型卡不卡、會不會亂補、會不會漏邊界條件。流程再好，也不能把底層弱點完全蓋掉。

另一個變數是 xAI 之後想推的 Arena Mode。如果真的上線，它會同時跑多個 agent，再挑最好的一個。這種做法有機會補單次表現不足。

開發者該看什麼

我覺得最值得觀察的，不是 demo 有多帥。是它會不會讓你少回去重開任務。代理如果常常提早宣告完成，那就只是把麻煩包裝得更漂亮。

Grok Build 最近的節奏很快。先有 beta，再來有 Composer 2.5、外掛市場，現在又加上自動執行。這表示 xAI 想把它做成日常工具，不是一次性的展示品。

如果你是團隊決策者，重點很簡單。別先問它多會講。先問它能不能在本機把任務做完，還能把驗證跑掉。能做到這件事，才算真的有用。

我自己的判斷是，/goal 是一個實際的產品進展，但還不是結論。接下來幾週的真實使用情況，會比任何宣傳文案更誠實。你要看的不是它會不會寫，而是它會不會收尾。

如果 Grok Build 真的能穩定把本機修改、測試、修正這條線跑順，xAI 就算 benchmark 還沒追平，也會先拿到工作流程的優勢。這點對開發者很現實，也很殘酷。

我的建議很簡單。拿一個你們團隊常見的小任務去測。看它能不能從規劃跑到驗證。那比看簡報準多了。

// 相關文章

Grok Build 加上 /goal，自動寫碼更像樣了

/goal 到底改了什麼

訂閱 AI 趨勢週報

驗證才是重點

兩個模型分工，聽起來合理

跟競品比，xAI 還沒追平

開發者該看什麼

Manus AI 證明代理式 App 已能上線做事

Claude 讓 Slack 變研究庫

這個 coding benchmark 證明：harness 品質勝過模型光環

GLM-5 對了：該殺掉 vibe coding，改做 agent engin…

Loop Engineering：Claude Code 的新工作法

Fable 5 封鎖暴露模型路由賽局