Grok Imagine 1.5把提示詞變720p短片

OraCore Editors

返回首頁

[TOOLS] 2026年6月26日11 分鐘閱讀OraCore 編輯部

Grok Imagine 1.5把提示詞變720p短片

我拆 Grok Imagine Video 1.5 的方法論，順手給你一份可直接複製的 720p 短片提示詞模板。

分享 LinkedIn

我拆 Grok Imagine Video 1.5 的方法論，順手給你一份可直接複製的 720p 短片提示詞模板。

我盯 text-to-video 工具很久了，老實說，大部分都還是那種「看起來很猛、用起來很煩」的狀態。你丟一句話進去，等半天，回來的東西像是模型自己很感動，但完全沒照你的 brief 走。不是動作糊掉，就是節奏怪掉，不然就是成本高到我開始懷疑自己是不是在做展示，不是在做工作。

所以我看到 Grok Imagine Video 1.5 的時候，第一個反應不是「哇好強」，而是「欸，這次好像真的能塞進流程裡」。它主打 6 秒、720p、原生音訊，而且生成時間大概 25 秒。這種規格聽起來不像什麼科幻大作，比較像我真的能拿來做短版廣告、產品開場、社群測試的工具。

把我拉進來看的來源，是這篇 Zhihu 週報：「马斯克 600 亿美元拿下 Cursor，Claude Fable 5 解封在即，GLM-5.2 开源登顶！| AI Weekly 6.15-6.21」。它提到 Grok Imagine Video 1.5 的開放、6 秒 720p、25 秒左右出片，還有 API 與 Sora 2 的價格比較。這篇不是把整包週報當聖旨，我只拆這一段，因為它剛好踩到我在意的點：速度、成本、可不可以真的拿來做事。

這不是做電影，是把迭代速度拉回工作流

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

6 秒 720p 視頻，25 秒生成完畢。馬斯克 6 月 17 日宣布 Grok Imagine Video 1.5 全面開放，支持文本、圖片或兩者組合作為輸入，輸出帶原生音頻的 720p@24fps 視頻。API 定價 4.2 美元/分鐘，相當於 Sora 2（30 美元/分鐘）的七分之一，SuperGrok 訂閱用戶（30 美元/月）可獲得更高的生成額度。

翻譯一下就是，這個產品不是在賣你一部「生成電影」的幻想，它賣的是一個很快的創作回圈。6 秒很短，短到不像正經影片；但對我來說，短才有用。因為短片最適合拿來做 hook、廣告片頭、產品示意、社群素材、概念測試。你要的不是長篇敘事，你要的是能不能在午餐前試三個版本。

我以前做內部 demo 的時候，最煩的不是做不出來，是做出來之後大家開始加料。先說要十個變體，再來要不同語氣，再來要不同平台格式，再來要更像品牌。這時候只要生成一次要等很久，整個流程就會變成拖拉。模型如果 25 秒左右就能吐一版，它就不再像「一次性事件」，而像編輯流程的一部分。

實操上，我會把它當成 rapid storyboard engine。不要一開始就丟最終版概念，先做三個很粗的版本，先看動作有沒有對、節奏有沒有對、畫面是不是能讀懂。能快速丟掉錯的方向，比硬做一條自我感動的長片有價值多了。

先做 hook，不要先想完整敘事。
一次生成多個短版，先比 motion 再談風格。
人還是要進來修，6 秒輸出不等於 6 秒成品。

我也覺得 720p 這件事很誠實。它沒有假裝自己要取代高規格後製，它就是把可用性放前面。很多網頁、App、社群投放根本不需要 4K，真的不需要。你要的是載入快、壓縮後還看得懂、在手機上不會像糊掉的 GIF。

原生音訊不是加分項，是少掉一個很煩的接縫

原文裡有一點我覺得很多人會低估：它不是只出畫面，還帶原生音訊。聽起來像 checkbox，但你真的做過影音串接就知道，最麻煩的常常不是畫面本身，而是聲音怎麼對齊。畫面有了，音效還要另外找，節奏還要補，最後常常變成「勉強能 demo」的狀態。

我自己被這件事磨過好幾次。你可能先拿到一段還算可以的 clip，接著花一堆時間補 ambience、補 SFX、補節拍，最後整支片還是怪怪的。不是不能用，是你會一直知道它哪裡不對。原生音訊不會幫你解決 taste，但它至少少掉一個很脆弱的 handoff。

也就是說，prompt 寫法要更像 shot list，不要像 tweet。你不能只寫「一個人走在街上」，你得把環境、移動速度、聲音氛圍、情緒方向一起寫進去。因為現在不是只在問模型畫什麼，而是在問它整個場景應該怎麼呼吸。

實操寫法很簡單：把 prompt 拆成畫面、動作、聲音、情緒四格。你如果有 reference image，就先用圖把構圖釘住，再用文字講音訊和節奏。這樣模型比較不會自己亂演。

先寫場景，再寫動作，再寫聲音。
每支片只留一個主動作，不要塞三個高潮。
音訊描述要具體，像「soft UI clicks」或「busy street ambience」。

如果你是做產品行銷，這個差異很實際。你可以把生成片直接塞進 landing page 草稿、內部提案、社群測試，不用再等另一輪聲音處理。這不性感，但很省事，而省事通常就是工具值不值得留在工具箱裡的分水嶺。

價格不是細節，是會直接改變大家敢不敢亂試

來源把 Grok Imagine 的 API 價格寫成 4.2 美元/分鐘，對比 Sora 2 的 30 美元/分鐘。我不想把這個對比講成誰贏誰輸，因為那太偷懶了。真正重要的是，價格會比 benchmark 圖表更快改變人的行為。

翻譯一下就是，如果每分鐘成本夠低，大家就不會只把 video generation 當成「特殊場合才開的功能」。你會開始更早丟想法、更早做草稿、更早做廢片。這其實是好事，因為很多概念根本不是死在最後製作，而是死在前期沒人願意多試兩次。

我看過太多團隊卡在「這次生成很貴」的心理陰影裡。沒人想成為那個把預算燒在一支最後被刪掉的 clip 的人。結果整個流程就變得很保守，大家只敢做最安全的版本。價格一低，這種心理壓力會明顯下降，實驗就比較不會像在拜神。

實操寫法：先替自己訂一個 throwaway budget。真的，不要等工具便宜了就毫無節制。你要先定義這週可以燒幾支草稿、什麼時候才算進入「準備定稿」階段。便宜的工具如果沒有 review 機制，只會把垃圾產量放大。

我也會順手把官方產品頁拿來比對，不要只看週報。Sora 的產品頁在 https://openai.com/sora，xAI 的主站在 https://x.ai/，你真的要比，就比產品頁、價格頁、使用限制，不要只比社群轉述。Anthropic 這類產品頁也很值得一起看，因為你會更清楚各家怎麼包裝 quota 和 access。

文字、圖片、或兩個一起上，代表你要改變 brief 的寫法

原文說它支援 text、image，或兩者一起當輸入。這點很重要，因為一旦是多模態輸入，prompt 的角色就變了。純文字是在逼模型自己想構圖、風格、動作；加了圖片之後，你是在給它一個視覺錨點，通常會少很多歪掉的狀況。

我很喜歡這個方向，因為這比較像我平常跟設計師、motion artist 溝通的方式。我很少只丟一句「幫我做個酷的」，我通常會附參考圖、截圖、草圖，外加一句我真正要達成的事。工具如果不能這樣工作，我就得把所有細節都用文字硬講清楚，那很累，而且常常講不準。

也就是說，最好的結果大概會出現在「reference image + 單一 motion goal」這種組合。不是「做得很酷」，而是「把這張產品圖變成 6 秒 launch teaser，鏡頭慢慢推進，聲音是輕微的 synthetic pulse」。這種 brief 模型比較吃得下去。

我以前做短版廣告概念時就碰過這種差別。只有文字時，模型會自己發明一套看起來合理、但商用上很難用的風格。加了參考圖之後，輸出會比較靠近我要的方向，雖然還是得修，但至少不是從第一秒就在跟模型的品味打架。

實操寫法：先建一個 reference library。把你常用的產品角度、UI 截圖、情緒圖、場景圖都收起來。每張圖配一句 motion brief。這樣你每次不是從零開始，而是從可重用的素材開始。

先放 reference，再寫 motion brief。
一支片只解決一個視覺目標。
風格詞要具體：clean、handheld、glossy、muted、noisy、bright。

SuperGrok 更像配額制度，不只是訂閱方案

來源提到 SuperGrok 月費 30 美元，會拿到更高的生成額度。我會把這件事看成 quota 問題，不只是 subscription 問題。因為配額會直接決定誰有空間試、誰有空間改、誰只能省著用。

翻譯一下就是，這個產品大概是朝著長期使用設計的，不是只給你一次性好奇心。訂閱給更多生成次數，表示它想進到日常工作流裡。這很重要，因為很多工具不是死在功能不夠，而是死在你根本不敢持續用。

我看過很多 AI 產品都這樣：免費版先把你勾進來，付費版才決定它能不能真的進團隊流程。如果限制太緊，你很快就不信它；如果限制夠寬，你才會開始養成習慣。習慣才是關鍵。

實操寫法：你在評估這種訂閱型 video tool 時，不要只看功能列表，要直接算每週能產多少支、產到第幾支開始卡。這個數字比任何 marketing copy 都更接近真相。

我也會提醒自己一件事：額度變多，不代表 review 可以省。反而是額度變多之後，更需要有人管品質，不然只是把 near-miss clip 堆成更大的垃圾山。我寧可少一點配額、流程清楚，也不要無限生成、最後沒人敢拍板。

如果我這週真的要用，我會怎麼下手

如果是我，我不會先拿它做那種很炫但沒人會真的用的 demo。我會先挑已經很痛的工作：產品 teaser、App launch hook、內部說明片、社群變體。這些情境裡，6 秒就夠你證明一個概念值不值得繼續投。

也就是說，我會把它拿來壓縮創作流程裡最煩的中段。不是最終製作，也不是純藝術實驗，而是那個你需要快速知道「這個方向有沒有腿」的階段。有腿就繼續，沒腿就直接砍，越快越好。

我會這樣做：寫一個 motion brief，能附 reference image 就附，先生成 3 個版本，挑最不爛的那個，再丟給真人剪輯。就這樣。不要把第一版當神諭，也不要以為模型會自動懂你的品牌語氣。

我對 demo 也一直保持戒心。每個模型在 curated examples 裡都看起來很會，真正的考驗是：當 prompt 很普通、reference 很爛、deadline 很急，它還能不能交出可用東西。那才是工具值不值得留的地方。

可抄的模板

# Grok Imagine Video 1.5 提示詞模板（可直接貼用）

目標：
做一支 6 秒、720p 的短片，用在 [產品 / 活動 / 社群 / 廣告測試]。

輸入：
- 純文字 / 純圖片 / 文字 + 圖片
- 參考圖： [貼上或上傳]

場景：
[用一句話描述場景，越具體越好]

主動作：
[只寫一個主要動作，不要塞太多事件]

鏡頭：
[固定 / 慢推 / 微移 / 手持 / 特寫 / 廣角]

風格：
[乾淨 / 電影感 / 活潑 / 極簡 / 光澤 / 粗糙]

音訊：
[背景聲、環境音、音效、音樂感、或安靜]

情緒：
[平靜 / 緊張 / 有 انرژی / 高級 / 日常 / 未來感]

限制：
- 影片長度固定 6 秒
- 構圖要容易讀懂
- 不要多餘角色或干擾性背景動作
- 動作要一眼看得懂

輸出要求：
生成 3 個版本，分別在節奏或鏡頭上有些差異
優先挑最適合社群、landing page、或廣告測試的版本

範例：
目標：做一支新生產力 App 的 launch teaser。
輸入：文字 + 圖片。
場景：明亮工作室裡的乾淨桌面，有筆電和手機。
主動作：手機螢幕亮起，接著筆電 UI 漸漸進入焦點。
鏡頭：慢慢推近。
風格：極簡、高級、俐落。
音訊：輕微 UI click、淡淡環境音、不要旁白。
情緒：平靜但有把握。
限制：畫面簡單、可讀、方便重用。
輸出要求：生成 3 個版本，節奏和鏡頭稍微不同。

這份模板故意寫得很無聊，因為我真的不想用那種詩意 prompt 去賭模型心情。我要的是可重複、可交接、可複製的結構。你可以把它丟給同事，不用先上半小時 prompt 哲學課。

如果你是做產品行銷，就補品牌語氣；如果你是做 App demo，就補 UI 狀態；如果你是做社群內容，就補平台格式。骨架先固定，內容再換，這樣才不會每次都從 prompt 焦慮開始。

來源致謝：我主要拆的是這篇 Zhihu 週報 https://zhuanlan.zhihu.com/p/2051938801887589781，裡面有我上面引用的 Grok Imagine Video 1.5 具體資訊。上面的模板是我自己整理的實戰版，不是原文照搬。

我另外拿 x.ai、OpenAI Sora、Anthropic 的產品頁來對照，主要是幫你看清楚不同廠商怎麼包 access、quota 跟產品定位。這些連結都在，方便你自己回頭核對，不用只信我這篇拆解。

// 相關文章

Grok Imagine 1.5把提示詞變720p短片

這不是做電影，是把迭代速度拉回工作流

訂閱 AI 趨勢週報

原生音訊不是加分項，是少掉一個很煩的接縫

價格不是細節，是會直接改變大家敢不敢亂試

文字、圖片、或兩個一起上，代表你要改變 brief 的寫法

SuperGrok 更像配額制度，不只是訂閱方案

如果我這週真的要用，我會怎麼下手

可抄的模板

Litefuse 不是 Langfuse 的補丁，而是 Agent 可觀測的正…

20 個 AI 寫碼助手，拆成可用清單

Open Code Review 把 AI 審查變準

OCR 4 把 PDF 變成可引用 RAG 輸入

AI 程式碼審查正在壓過人類隊友

Schwab把幣圈變成主題清單