Grok Imagine 1.5把提示詞變720p短片
我拆 Grok Imagine Video 1.5 的方法論,順手給你一份可直接複製的 720p 短片提示詞模板。

我拆 Grok Imagine Video 1.5 的方法論,順手給你一份可直接複製的 720p 短片提示詞模板。
我盯 text-to-video 工具很久了,老實說,大部分都還是那種「看起來很猛、用起來很煩」的狀態。你丟一句話進去,等半天,回來的東西像是模型自己很感動,但完全沒照你的 brief 走。不是動作糊掉,就是節奏怪掉,不然就是成本高到我開始懷疑自己是不是在做展示,不是在做工作。
所以我看到 Grok Imagine Video 1.5 的時候,第一個反應不是「哇好強」,而是「欸,這次好像真的能塞進流程裡」。它主打 6 秒、720p、原生音訊,而且生成時間大概 25 秒。這種規格聽起來不像什麼科幻大作,比較像我真的能拿來做短版廣告、產品開場、社群測試的工具。
把我拉進來看的來源,是這篇 Zhihu 週報:「马斯克 600 亿美元拿下 Cursor,Claude Fable 5 解封在即,GLM-5.2 开源登顶!| AI Weekly 6.15-6.21」。它提到 Grok Imagine Video 1.5 的開放、6 秒 720p、25 秒左右出片,還有 API 與 Sora 2 的價格比較。這篇不是把整包週報當聖旨,我只拆這一段,因為它剛好踩到我在意的點:速度、成本、可不可以真的拿來做事。
這不是做電影,是把迭代速度拉回工作流
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
6 秒 720p 視頻,25 秒生成完畢。馬斯克 6 月 17 日宣布 Grok Imagine Video 1.5 全面開放,支持文本、圖片或兩者組合作為輸入,輸出帶原生音頻的 720p@24fps 視頻。API 定價 4.2 美元/分鐘,相當於 Sora 2(30 美元/分鐘)的七分之一,SuperGrok 訂閱用戶(30 美元/月)可獲得更高的生成額度。
翻譯一下就是,這個產品不是在賣你一部「生成電影」的幻想,它賣的是一個很快的創作回圈。6 秒很短,短到不像正經影片;但對我來說,短才有用。因為短片最適合拿來做 hook、廣告片頭、產品示意、社群素材、概念測試。你要的不是長篇敘事,你要的是能不能在午餐前試三個版本。

我以前做內部 demo 的時候,最煩的不是做不出來,是做出來之後大家開始加料。先說要十個變體,再來要不同語氣,再來要不同平台格式,再來要更像品牌。這時候只要生成一次要等很久,整個流程就會變成拖拉。模型如果 25 秒左右就能吐一版,它就不再像「一次性事件」,而像編輯流程的一部分。
實操上,我會把它當成 rapid storyboard engine。不要一開始就丟最終版概念,先做三個很粗的版本,先看動作有沒有對、節奏有沒有對、畫面是不是能讀懂。能快速丟掉錯的方向,比硬做一條自我感動的長片有價值多了。
- 先做 hook,不要先想完整敘事。
- 一次生成多個短版,先比 motion 再談風格。
- 人還是要進來修,6 秒輸出不等於 6 秒成品。
我也覺得 720p 這件事很誠實。它沒有假裝自己要取代高規格後製,它就是把可用性放前面。很多網頁、App、社群投放根本不需要 4K,真的不需要。你要的是載入快、壓縮後還看得懂、在手機上不會像糊掉的 GIF。
原生音訊不是加分項,是少掉一個很煩的接縫
原文裡有一點我覺得很多人會低估:它不是只出畫面,還帶原生音訊。聽起來像 checkbox,但你真的做過影音串接就知道,最麻煩的常常不是畫面本身,而是聲音怎麼對齊。畫面有了,音效還要另外找,節奏還要補,最後常常變成「勉強能 demo」的狀態。
我自己被這件事磨過好幾次。你可能先拿到一段還算可以的 clip,接著花一堆時間補 ambience、補 SFX、補節拍,最後整支片還是怪怪的。不是不能用,是你會一直知道它哪裡不對。原生音訊不會幫你解決 taste,但它至少少掉一個很脆弱的 handoff。
也就是說,prompt 寫法要更像 shot list,不要像 tweet。你不能只寫「一個人走在街上」,你得把環境、移動速度、聲音氛圍、情緒方向一起寫進去。因為現在不是只在問模型畫什麼,而是在問它整個場景應該怎麼呼吸。
實操寫法很簡單:把 prompt 拆成畫面、動作、聲音、情緒四格。你如果有 reference image,就先用圖把構圖釘住,再用文字講音訊和節奏。這樣模型比較不會自己亂演。
- 先寫場景,再寫動作,再寫聲音。
- 每支片只留一個主動作,不要塞三個高潮。
- 音訊描述要具體,像「soft UI clicks」或「busy street ambience」。
如果你是做產品行銷,這個差異很實際。你可以把生成片直接塞進 landing page 草稿、內部提案、社群測試,不用再等另一輪聲音處理。這不性感,但很省事,而省事通常就是工具值不值得留在工具箱裡的分水嶺。
價格不是細節,是會直接改變大家敢不敢亂試
來源把 Grok Imagine 的 API 價格寫成 4.2 美元/分鐘,對比 Sora 2 的 30 美元/分鐘。我不想把這個對比講成誰贏誰輸,因為那太偷懶了。真正重要的是,價格會比 benchmark 圖表更快改變人的行為。

翻譯一下就是,如果每分鐘成本夠低,大家就不會只把 video generation 當成「特殊場合才開的功能」。你會開始更早丟想法、更早做草稿、更早做廢片。這其實是好事,因為很多概念根本不是死在最後製作,而是死在前期沒人願意多試兩次。
我看過太多團隊卡在「這次生成很貴」的心理陰影裡。沒人想成為那個把預算燒在一支最後被刪掉的 clip 的人。結果整個流程就變得很保守,大家只敢做最安全的版本。價格一低,這種心理壓力會明顯下降,實驗就比較不會像在拜神。
實操寫法:先替自己訂一個 throwaway budget。真的,不要等工具便宜了就毫無節制。你要先定義這週可以燒幾支草稿、什麼時候才算進入「準備定稿」階段。便宜的工具如果沒有 review 機制,只會把垃圾產量放大。
我也會順手把官方產品頁拿來比對,不要只看週報。Sora 的產品頁在 https://openai.com/sora,xAI 的主站在 https://x.ai/,你真的要比,就比產品頁、價格頁、使用限制,不要只比社群轉述。Anthropic 這類產品頁也很值得一起看,因為你會更清楚各家怎麼包裝 quota 和 access。
文字、圖片、或兩個一起上,代表你要改變 brief 的寫法
原文說它支援 text、image,或兩者一起當輸入。這點很重要,因為一旦是多模態輸入,prompt 的角色就變了。純文字是在逼模型自己想構圖、風格、動作;加了圖片之後,你是在給它一個視覺錨點,通常會少很多歪掉的狀況。
我很喜歡這個方向,因為這比較像我平常跟設計師、motion artist 溝通的方式。我很少只丟一句「幫我做個酷的」,我通常會附參考圖、截圖、草圖,外加一句我真正要達成的事。工具如果不能這樣工作,我就得把所有細節都用文字硬講清楚,那很累,而且常常講不準。
也就是說,最好的結果大概會出現在「reference image + 單一 motion goal」這種組合。不是「做得很酷」,而是「把這張產品圖變成 6 秒 launch teaser,鏡頭慢慢推進,聲音是輕微的 synthetic pulse」。這種 brief 模型比較吃得下去。
我以前做短版廣告概念時就碰過這種差別。只有文字時,模型會自己發明一套看起來合理、但商用上很難用的風格。加了參考圖之後,輸出會比較靠近我要的方向,雖然還是得修,但至少不是從第一秒就在跟模型的品味打架。
實操寫法:先建一個 reference library。把你常用的產品角度、UI 截圖、情緒圖、場景圖都收起來。每張圖配一句 motion brief。這樣你每次不是從零開始,而是從可重用的素材開始。
- 先放 reference,再寫 motion brief。
- 一支片只解決一個視覺目標。
- 風格詞要具體:clean、handheld、glossy、muted、noisy、bright。
SuperGrok 更像配額制度,不只是訂閱方案
來源提到 SuperGrok 月費 30 美元,會拿到更高的生成額度。我會把這件事看成 quota 問題,不只是 subscription 問題。因為配額會直接決定誰有空間試、誰有空間改、誰只能省著用。
翻譯一下就是,這個產品大概是朝著長期使用設計的,不是只給你一次性好奇心。訂閱給更多生成次數,表示它想進到日常工作流裡。這很重要,因為很多工具不是死在功能不夠,而是死在你根本不敢持續用。
我看過很多 AI 產品都這樣:免費版先把你勾進來,付費版才決定它能不能真的進團隊流程。如果限制太緊,你很快就不信它;如果限制夠寬,你才會開始養成習慣。習慣才是關鍵。
實操寫法:你在評估這種訂閱型 video tool 時,不要只看功能列表,要直接算每週能產多少支、產到第幾支開始卡。這個數字比任何 marketing copy 都更接近真相。
我也會提醒自己一件事:額度變多,不代表 review 可以省。反而是額度變多之後,更需要有人管品質,不然只是把 near-miss clip 堆成更大的垃圾山。我寧可少一點配額、流程清楚,也不要無限生成、最後沒人敢拍板。
如果我這週真的要用,我會怎麼下手
如果是我,我不會先拿它做那種很炫但沒人會真的用的 demo。我會先挑已經很痛的工作:產品 teaser、App launch hook、內部說明片、社群變體。這些情境裡,6 秒就夠你證明一個概念值不值得繼續投。
也就是說,我會把它拿來壓縮創作流程裡最煩的中段。不是最終製作,也不是純藝術實驗,而是那個你需要快速知道「這個方向有沒有腿」的階段。有腿就繼續,沒腿就直接砍,越快越好。
我會這樣做:寫一個 motion brief,能附 reference image 就附,先生成 3 個版本,挑最不爛的那個,再丟給真人剪輯。就這樣。不要把第一版當神諭,也不要以為模型會自動懂你的品牌語氣。
我對 demo 也一直保持戒心。每個模型在 curated examples 裡都看起來很會,真正的考驗是:當 prompt 很普通、reference 很爛、deadline 很急,它還能不能交出可用東西。那才是工具值不值得留的地方。
可抄的模板
# Grok Imagine Video 1.5 提示詞模板(可直接貼用)
目標:
做一支 6 秒、720p 的短片,用在 [產品 / 活動 / 社群 / 廣告測試]。
輸入:
- 純文字 / 純圖片 / 文字 + 圖片
- 參考圖: [貼上或上傳]
場景:
[用一句話描述場景,越具體越好]
主動作:
[只寫一個主要動作,不要塞太多事件]
鏡頭:
[固定 / 慢推 / 微移 / 手持 / 特寫 / 廣角]
風格:
[乾淨 / 電影感 / 活潑 / 極簡 / 光澤 / 粗糙]
音訊:
[背景聲、環境音、音效、音樂感、或安靜]
情緒:
[平靜 / 緊張 / 有 انرژی / 高級 / 日常 / 未來感]
限制:
- 影片長度固定 6 秒
- 構圖要容易讀懂
- 不要多餘角色或干擾性背景動作
- 動作要一眼看得懂
輸出要求:
生成 3 個版本,分別在節奏或鏡頭上有些差異
優先挑最適合社群、landing page、或廣告測試的版本
範例:
目標:做一支新生產力 App 的 launch teaser。
輸入:文字 + 圖片。
場景:明亮工作室裡的乾淨桌面,有筆電和手機。
主動作:手機螢幕亮起,接著筆電 UI 漸漸進入焦點。
鏡頭:慢慢推近。
風格:極簡、高級、俐落。
音訊:輕微 UI click、淡淡環境音、不要旁白。
情緒:平靜但有把握。
限制:畫面簡單、可讀、方便重用。
輸出要求:生成 3 個版本,節奏和鏡頭稍微不同。這份模板故意寫得很無聊,因為我真的不想用那種詩意 prompt 去賭模型心情。我要的是可重複、可交接、可複製的結構。你可以把它丟給同事,不用先上半小時 prompt 哲學課。
如果你是做產品行銷,就補品牌語氣;如果你是做 App demo,就補 UI 狀態;如果你是做社群內容,就補平台格式。骨架先固定,內容再換,這樣才不會每次都從 prompt 焦慮開始。
來源致謝:我主要拆的是這篇 Zhihu 週報 https://zhuanlan.zhihu.com/p/2051938801887589781,裡面有我上面引用的 Grok Imagine Video 1.5 具體資訊。上面的模板是我自己整理的實戰版,不是原文照搬。
我另外拿 x.ai、OpenAI Sora、Anthropic 的產品頁來對照,主要是幫你看清楚不同廠商怎麼包 access、quota 跟產品定位。這些連結都在,方便你自己回頭核對,不用只信我這篇拆解。