[AGENT] 6 分鐘閱讀OraCore 編輯部

Grok Build 加上 /goal,自動寫碼更像樣了

xAI 在 Grok Build 加入 /goal,讓代理能在本機上規劃、執行、驗證程式任務。這篇整理它的工作流程、驗證方式、價格與 SWE-Bench 對比。

分享 LinkedIn
Grok Build 加上 /goal,自動寫碼更像樣了

xAI 的 Grok Build 新增 /goal,讓代理能在本機上自己規劃、執行、驗證程式任務。

xAI 在 Grok Build 加上 /goal。日期是 2026 年 6 月 22 日。講白了,就是你丟一個目標,代理自己跑到有結果為止。

這招很直接,也很兇。它把 Grok Build 拉進 Claude CodeOpenAI Codex CLI 的戰場。差別在於,xAI 想把「自動完成」講得更滿。

真正有意思的,不是它會寫碼。很多工具都會。重點是它會不會自己驗證,然後修到能交差。這才是開發者最在意的地方。

指標數值意思
/goal 上線日2026-06-22自動執行模式已可用
SuperGrok$30/月最低入門方案
X Premium Plus$40/月另一個 CLI 入口
SuperGrok Heavy$300/月高用量方案
Grok Build 0.1 context window256,000 tokens可跑長任務
早期 SWE-Bench Verified70.8%xAI 既有成績
Claude Code Opus 4.787.6%主要競品基準

/goal 到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

一般 coding agent 很像聊天機器人。你下需求,它吐程式碼。你看完,再丟下一輪指令。整個流程,人的手還是卡很深。

Grok Build 加上 /goal,自動寫碼更像樣了

/goal 不一樣。它把一句話變成一個有邊界的任務。裡面有進度面板,也有完成檢查。代理會自己往下做,不用你每一步都點頭。

這件事很實際。因為開發時間常常浪費在「生成」和「驗證」之間。程式能編譯,不代表功能真的對。xAI 想把驗證塞進代理內部,讓它自己先抓錯。

  • /goal status 看即時進度
  • /goal pause 暫停執行
  • /goal resume 繼續任務
  • /goal clear 取消工作

這種設計也不是完全放生。開發者還能插手。你可以看狀態、停掉、續跑,或中途加新指令。只是不用每一步都人工審核,這點差很多。

說真的,這就是代理工具的分水嶺。會改檔案不稀奇。會把任務做完,還能自己收尾,才比較像可用工具。

驗證才是重點

xAI 的說法是,/goal 會用三種方式驗證。第一種是看自己產生的程式碼。第二種是打開網頁確認執行結果。第三種是直接跑腳本。

這設計比單純回一句「done」合理多了。因為它至少有一個檢查步驟。代理不只是寫,還得證明自己沒亂來。

很多第一代 coding agent 的問題都一樣。看起來很勤快,實際上很會自信爆棚。它們常常把「有改」誤當成「有對」。/goal 想縮小這個落差。

“Coding agents are becoming the procurement front where AI labs compete to own the developer workflow.” — Mitch Ashley, VP and practice lead for software lifecycle engineering at The Futurum Group

這句話很準。現在不是比誰會吐一段漂亮 code。是比誰能吃下規劃、測試、修正這整條流程。

但我也得潑點冷水。模型自己生成,又自己驗證,會不會只是自己幫自己蓋章?如果 generator 跟 verifier 太像,檢查可能只是在重述同一個錯誤。

兩個模型分工,聽起來合理

/goal 用的是 Grok Build 0.1 和 Composer 2.5。xAI 的說法是,一個負責規劃和理解指令,另一個負責產碼和執行。

Grok Build 加上 /goal,自動寫碼更像樣了

這個切法很像工程上常見的分工。規劃歸規劃,執行歸執行。理論上這樣比較穩,也比較好控流程。

問題還是在獨立性。兩個模型如果訓練訊號很像,失敗模式也可能很像。那驗證就會變成形式流程,不是真的抓 bug。

更實際的一點是,Grok Build 的程式在開發者本機跑。這代表程式碼不會在 session 裡送去 xAI 伺服器。對金融、醫療、政府團隊,這點很有感。

本機執行還有另一個好處。你不用把整個開發環境交出去。這對有法遵壓力的團隊,通常比模型分數更重要。

跟競品比,xAI 還沒追平

數字很直接。早期的 grok-code-fast-1SWE-Bench Verified 拿到 70.8%Claude CodeOpus 4.7 上是 87.6%

這個差距不小。講白了,xAI 還沒在純 coding 能力上追上第一梯隊。至少從公開數字看,還差一段。

但 xAI 的論點也不是沒道理。它想強調的是長時間自主執行。代理如果能一直測、一直修、一直重跑,最後交出來的結果可能比單次 benchmark 更重要。

  • Grok Build:早期成績 70.8%
  • Claude Code:Opus 4.7 為 87.6%
  • Context window:256,000 tokens
  • 費用:$30、$40、$300 三個級距

這邏輯有道理,但還是要看真實專案。benchmark 會告訴你模型卡不卡、會不會亂補、會不會漏邊界條件。流程再好,也不能把底層弱點完全蓋掉。

另一個變數是 xAI 之後想推的 Arena Mode。如果真的上線,它會同時跑多個 agent,再挑最好的一個。這種做法有機會補單次表現不足。

開發者該看什麼

我覺得最值得觀察的,不是 demo 有多帥。是它會不會讓你少回去重開任務。代理如果常常提早宣告完成,那就只是把麻煩包裝得更漂亮。

Grok Build 最近的節奏很快。先有 beta,再來有 Composer 2.5、外掛市場,現在又加上自動執行。這表示 xAI 想把它做成日常工具,不是一次性的展示品。

如果你是團隊決策者,重點很簡單。別先問它多會講。先問它能不能在本機把任務做完,還能把驗證跑掉。能做到這件事,才算真的有用。

我自己的判斷是,/goal 是一個實際的產品進展,但還不是結論。接下來幾週的真實使用情況,會比任何宣傳文案更誠實。你要看的不是它會不會寫,而是它會不會收尾。

如果 Grok Build 真的能穩定把本機修改、測試、修正這條線跑順,xAI 就算 benchmark 還沒追平,也會先拿到工作流程的優勢。這點對開發者很現實,也很殘酷。

我的建議很簡單。拿一個你們團隊常見的小任務去測。看它能不能從規劃跑到驗證。那比看簡報準多了。