5 個 Grok 更新，把我寫 code 的方式改掉

OraCore Editors

返回首頁

[AGENT] 2026年6月11日11 分鐘閱讀OraCore 編輯部

5 個 Grok 更新，把我寫 code 的方式改掉

我拆 Grok 這波更新：大模型、worktrees、API beta、語音與影片工具，哪些真能改寫開發流程。

agentic coding

分享 LinkedIn

我拆 Grok 這波更新：大模型、worktrees、API beta、語音與影片工具，哪些真能改寫開發流程。

我盯 Grok 一陣子了，老實說，它一直像那種 demo 很會講、真上線就開始掉漆的產品。回話很快，語氣很滿，像什麼都懂；但你一把它丟進真的開發流程，它就開始露餡。不是不能聊，是一進到 refactor、debug、長上下文、多人協作，整個就像每次都失憶，前十分鐘講過什麼完全不算數。我最煩的就是這種：看起來很聰明，實際上很會浪費人時間。

後來我看到 Basenor 的整理，〈5 Grok Updates You Should Know About Right Now〉，它把 2026/6/5 這波 xAI 更新一次收齊。這篇不是什麼硬核技術論文，但它把我在意的幾個點直接攤開：更大的模型、worktrees、coding API beta、voice、image-to-video。原文沒有提供觀看數或書籤數，所以我不亂掰。

我在意的不是聲量，是工作流會不會真的變順。哪些更新只是包裝，哪些是真的能讓開發少踩坑，這才是重點。

先別看行銷詞，我只看模型到底有沒有長腦

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

Elon Musk 提到的模型改進，指向 Grok V9-Medium 的持續訓練；它已在 1.5 兆參數完成訓練，規模是目前 v8-small 生產模型 5000 億參數的三倍。

翻譯一下就是：xAI 不是只在修外觀，它是真的在往更大一級的模型堆。參數變大不是魔法，但它通常代表上限會往上走。更重要的是，Basenor 這篇還提到 supervised fine-tuning 跟 reinforcement learning 也在跑，預計 2026 年 6 月中旬左右會公開。這點我比單純的「更大」還在意，因為大模型如果沒調好，照樣會講一堆似是而非的屁話。

我以前拿一些 assistant 模型做多步 refactor，最常見的問題不是完全答錯，而是答到一半開始漂。函式命名莫名其妙改掉、抽象層級亂升、明明要的是保守修補，卻硬要幫你「優化」成另一套架構。那種感覺很差，因為你最後不是在用 AI 幫你做事，是在幫 AI 收爛攤子。

如果 Grok V9-Medium 真如文章描述，重點不是它會不會講更漂亮，而是它在非玩具任務上會不會少犯低級錯。像是：看懂約束、維持一致、不要亂改介面、不要在長任務中失焦。這些才是開發者每天真的會碰到的地方。

別先看單輪回答，先看長任務穩不穩。
拿有約束的 code task 測，不要用玩具 prompt。
比對失敗模式，因為那通常比成功案例更誠實。

我會怎麼做：我會自己做一組固定測試，丟一個 refactor、一個 debug、一個架構判斷給 Grok，prompt 不變，然後拿現在用的模型一起比。你要看的是少改幾次、少補幾輪，而不是它文筆多順。這種東西沒有感覺派，只有實測派。你可以拿 OpenAI Codex、Claude 一起當對照組。

worktrees 這個功能，終於像是有開發者真的在裡面

第二則 tweet 確認 Grok 已支援 worktrees，也就是 Git 裡可以從同一個 repository 開出多個工作目錄的功能。

這個更新我反而最有感。worktrees 很無聊，但無聊得剛剛好。它不是炫技功能，是那種會直接降低混亂的東西。Basenor 的說法是，Grok 的 coding subagents 可以平行跑不同分支，而且不會踩到主程式碼庫。這句話很重要，因為它透露出來的是：做這功能的人，大概真的被 agent 互撞搞過。

我看過太多「agentic coding」最後變成災難。你叫一個 agent 修 bug，另一個補測試，第三個改文件，結果三個都在同一個 working tree 裡亂寫，像幾個小孩拿蠟筆在牆上塗。merge conflict 爆掉、半成品互相覆蓋、最後你不是在加速，是在收拾。

worktrees 的價值就在這裡：每個任務一個 checkout，但還是共用同一份 repo 歷史。白話就是，讓每個 agent 去自己的房間，不要在客廳互相踢腳。這種隔離對平行任務超重要，尤其你如果真的想讓 AI 同時做實作、測試、文件，沒有 worktree 幾乎一定亂。

我自己會把它當成「風險控管功能」，不是「效率加成功能」。因為它先解掉的是互相踩線的問題，效率才有可能往上。沒有這層隔離，agent 再聰明都只是更快地把事情搞亂。

每個 agent task 一個 worktree，不要共用。
留一個主線給人 review，另一個給實驗性修改。
任務結束就刪掉 worktree，別讓垃圾堆著。

實操上，我會把 implementation、tests、docs 拆成三個 worktree。先看它們能不能互不干擾，再看 merge 回主線有沒有少掉很多痛苦。若是有，這功能才算真有用；如果沒有，它就只是介面上多一個按鈕。

Grok Build 0.1 才是開發者該真的去碰的版本

xAI API 的 public beta 於 5 月 29 日開放，Grok Build 0.1 是專門做 coding 的模型，主打 agentic tasks。

這句話的意思很直接：xAI 現在有一個 coding 專用模型可以讓你接 API 了。這就把討論從「這 chatbot 很會講」拉到「我能不能把它接進自己的工具鏈」。Basenor 提到 Grok Build 0.1 有 256,000 token context window、always-on reasoning，而且支援文字與圖片輸入。價格也寫得很清楚：input 每百萬 token $1、output 每百萬 token $2。這不是花拳繡腿，這是可以開始算成本的規格。

我特別在意它被叫做 dedicated coding model。因為太多廠商喜歡把一般模型硬貼上 coding 標籤，結果一碰到 repo 結構就開始亂猜 import、亂補檔案、亂改接口。真正該看的是它能不能處理 project context、跨檔案一致性、長 prompt 的穩定度。只會寫 snippet 的模型，對真實開發幫助有限。

256,000 token 這個窗口比較像真的能幹活。你可以塞一大段 repo 內容、設計說明、bug log，不用一下就掉到上下文外。always-on reasoning 也很關鍵，至少從產品語意上看，它是朝著「一路把任務想完」去設計，不是半途切模式裝沒事。

我以前用過一些模型，處理單檔還行，一旦加上測試、再加上 patch plan，就開始崩。那種崩不是完全答錯，而是前後不一致，最後你得自己重新整理一次。這種模型如果不能扛住真實工作裡的髒東西，那再大也沒用。

我會怎麼測：第一，丟一個長 log 叫它找 bug 並提修法；第二，叫它同時改兩個相關檔案但不能破壞介面；第三，叫它自己總結改動的 tradeoff。三關都過，才值得接進流程。

voice 跟 video 不是附屬品，它們其實在擴大使用面

在這些 tweet 前一天，也就是 6 月 4 日，xAI 公開推出 Grok Voice，並把 Grok Imagine 1.5 Preview 開放到 API。

我通常對「語音＋影片」這種組合很保留。很多公司在模型推理還沒站穩時，就急著往 voice、video、multimodal 全塞，因為 demo 比正確性好賣。但 Basenor 這篇給的細節夠多，我會把它當成真的產品動作來看，而不是隨便加料。Grok Voice 已經公開，Imagine 1.5 Preview 也進 API 了。文章還提到它在 Artificial Analysis 的 Video Arena Image-to-Video 排行拿到第一，Elo 1404，還能產生同步音訊、片長拉到 15 秒。這些都是很具體的規格，不是空話。

白話一點說，xAI 想讓 Grok 不只待在文字框裡。你可以用嘴巴講、可以丟圖、可以做短影片。對開發者來說，這很重要，因為使用者本來就不是只活在 prompt box 裡。他們會切換模式、會上傳素材、會想要能直接拿去展示的輸出。

我以前做內容流程時，最煩的就是文字模型寫完腳本後，我還得搬去另一個工具做配音，再搬去別的工具做視覺，再搬去別的地方修整。每一次搬運都會掉 context，也會掉品質。如果一個模型能把 voice 跟 media generation 接在同一套 stack 裡，至少少掉幾次中間轉手。

但我不會因為 leaderboard 就過度解讀。榜單第一不等於 production 好用，這點我一直很保留。不過它至少說明一件事：xAI 不是只想做一個聊天介面，它在試著把使用面往外推。

voice 用來快速迭代，不要拿來當最終驗證。
video 用來先做概念草稿，再決定要不要精修。
來源 prompt 和輸出資產要一起存，後面才有辦法追。

實際操作上，如果你的工作裡有腳本、旁白、視覺 prototype，不妨把其中一段搬進 Grok 試試。目標不是把整套工具砍掉，而是看中間的 handoff friction 有沒有真的下降。

真正值得看的不是單點功能，是它的出貨節奏

這兩則 tweet 很容易滑過去，但它們其實在講同一件事：xAI 正在同時在模型、API、voice、video generation 幾條線上高頻出貨。

這段我覺得最容易被忽略。單一更新當然有趣，但更大的訊號是 xAI 在多條產品線一起往前推：更大模型、coding API、worktrees、voice、image-to-video。這不是慢慢打磨的節奏，這是想用速度把產品面鋪滿，讓開發者開始養成使用習慣。

我對這種策略一半喜歡、一半嫌棄。喜歡的是它有可能真的把工具變好用；嫌棄的是，快通常代表文件亂、品質不均、細節沒收乾淨。但如果你是要拿來做開發，節奏本身就是訊號：它是在變好，還是在原地換皮。

對 Tesla 車主來說，Grok 在車內或 X app 的變化可能已經開始進來。對開發者來說更直接：這不是拿來看熱鬧的，是拿來測的。Grok Build 0.1、worktrees、voice、video 這幾個點如果真的能在實務裡站住，才有資格進你的工作流。

我自己的做法會很土：不等什麼「v2 再說」，直接測現在的 API，記錄它在哪裡失敗，等大模型更新再回頭比一次。只有這樣，你才知道出貨節奏是在累積可用性，還是在堆噪音。

可抄的模板

# Grok 開發者測試模板（可直接貼進你的工作流）

## 1) 測試設定
- 模型：Grok Build 0.1 / 新版 Grok
- 測試日期：
- Repo：
- 任務類型：bug fix / refactor / feature / docs
- 提供的 context：短 / 中 / 長

## 2) Prompt 模板
你在一個 codebase 裡工作，請遵守以下限制：
- 不要修改無關檔案。
- 除非我明講，不要改 public interface。
- 如果你做了 tradeoff，先說明理由。
- 如果需要假設，先列出假設。

任務：
[在這裡描述任務]

Repo context：
[貼相關檔案、log、設計摘要]

輸出格式：
1. 簡短 plan
2. 逐檔修改內容
3. 風險
4. 驗證步驟
5. 最終摘要

## 3) worktrees 配置
- 一個 worktree 給 implementation
- 一個 worktree 給 tests
- 一個 worktree 給 docs / review notes
- 每個 agent 只能碰自己的 tree

## 4) 評分表
每項 1-5 分：
- 正確性
- context 保留度
- code quality
- conflict avoidance
- 解釋清楚程度
- 是否遵守限制

## 5) Pass / fail 問題
- 有沒有動到不相關檔案？
- 有沒有保留 repo 原本風格？
- 有沒有踩到平行工作？
- prompt 變長時有沒有失焦？
- 改動有沒有講到足夠讓人 review？

## 6) 決策規則
- correctness 和 conflict avoidance 都有 4 分以上，才繼續測。
- 如果在 merge safety 或長上下文一致性失敗，先不要導入。

上面這段是我根據 Basenor 提到的幾個痛點自己整理的。原始文章是 xAI 這波更新的整理與轉述，我這篇則是把它翻成開發者真的能拿去測的版本。原始來源：https://www.basenor.com/blogs/news/5-grok-updates-you-should-know-about-right-now。我有順手連到 xAI、git worktree、OpenAI Codex、Claude 和 Artificial Analysis，方便你自己往下查。

// 相關文章

5 個 Grok 更新，把我寫 code 的方式改掉

先別看行銷詞，我只看模型到底有沒有長腦

訂閱 AI 趨勢週報

worktrees 這個功能，終於像是有開發者真的在裡面

Grok Build 0.1 才是開發者該真的去碰的版本

voice 跟 video 不是附屬品，它們其實在擴大使用面

真正值得看的不是單點功能，是它的出貨節奏

可抄的模板

Kimi K3 編碼代理評測操作指南

AI 编程的勝負手不是最強模型，而是最強編排

Claude Code 把聊天變成終端工作

分散式 AI 合規必須寫進 agent rails，而不是事後補丁

開源 AI Agent 框架實作比較與追蹤

Codex Micro 讓控制面板變安全