Grok Video 是什么?
Grok Video 是 xAI 的文本生视频模型,现已在 Synclip 中上线。它支持 720p 输出、三种宽高比、自动生成缩略图,并支持上传一张参考图来锁定角色外貌或场景风格。
该模型专为短视频电影级输出设计:从 6 秒(一个有张力的循环或预告)到 15 秒(一个完整的叙事段落)。与固定价格模型不同,Grok Video 采用线性按秒计费,只为实际生成的内容付费。
- 720p 输出,自动生成缩略图
- 支持 3:2 横屏、2:3 竖屏、1:1 方图
- 可选一张参考图,保持角色或场景一致性
- 6 秒 / 10 秒 / 15 秒时长选项
- 线性定价:3 代币 / 秒(18 → 30 → 45 代币)
宽高比 — 为目标平台选择合适的画幅
Grok Video 提供三种宽高比,每种针对不同的发布渠道优化:
| Ratio | Format | Best for |
|---|---|---|
| 3:2 | 横屏 / 影视 | YouTube、影视片段、桌面端观众 |
| 2:3 | 竖屏 / 短视频 | Reels、抖音、Shorts、移动端信息流 |
| 1:1 | 方图 / 社媒 | Instagram 帖子、产品广告、跨平台转发 |
在写提示词之前先确定宽高比——竖屏画面需要描述垂直运动,横屏画面则用水平构图语言。
时长与定价 — 透明线性计费
Grok Video 精确按每秒 3 代币计费,无隐藏档位,无容量附加费:
| Duration | Grok Video | Veo 3.1 Fast | Sora 2 |
|---|---|---|---|
| 6 秒 | 18 代币 | 18 代币(Veo 3.1 Fast,任意时长) | 8 代币(Sora 2,10 秒) |
| 10 秒 | 30 代币 | 18 代币(Veo 3.1 Fast,任意时长) | 8 代币(Sora 2,10 秒) |
| 15 秒 | 45 代币 | 18 代币(Veo 3.1 Fast,任意时长) | 12 代币(Sora 2,15 秒) |
Veo 3.1 Fast 是固定费率模型——无论时长多少,每次生成消耗相同代币。如果需要以最低代币获得最长片段,Veo 3.1 Fast 在纯经济上更优。Grok Video 的优势在于短时长的电影质感和参考图工作流。
参考图 — 一张图,稳定结果
在提示词旁上传一张图片,Grok Video 将用它来锚定视频的视觉身份。这是该模型的主要一致性工具:角色面部/服装、场景位置、产品外观,乃至色彩风格,都可以通过一张参考图锁定。
- 在多个生成片段中保持角色一致性
- 继续同一背景或位置的场景
- 必须与现有品牌视觉相符的产品镜头
- 锁定特定调色或光线风格
Tip: 保持参考图简洁且有代表性。中性背景下清晰的单人脸部或产品能给模型最清晰的信号。避免主体不明的复杂构图。
四步工作流
无论是生成单个片段还是系列短视频,这个流程都稳定可复用。
第一步:在模型选择器中选择 Grok Video
在 Synclip 中打开视频创作工作区,从模型下拉菜单中选择 Grok Video。界面会显示三种宽高比选项和时长选择器。
第二步:写提示词
用五个要素来构建提示词:主体、场景、摄像机运动、动作节拍和风格限定。保持在 120 词以内,避免要求画面中出现可读文字。
- 主体:画面中是谁或什么
- 场景:环境和背景
- 摄像机:镜头类型(特写/中景/全景)和运动方式(推镜/横摇/环绕)
- 动作节拍:视频期间发生了什么变化
- 风格:写实 / 电影感 / 商业广告 / 等
第三步:设置宽高比、时长,以及可选参考图
根据目标平台选择宽高比。6 秒适合循环或预告,10 秒适合产品节拍,15 秒适合完整叙事时刻。如需视觉一致性,在生成前上传一张参考图。
第四步:生成并迭代
运行生成。模型会返回视频和自动生成的缩略图。如果镜头方向正确但细节需要调整,调整动作节拍或摄像机语言并重新运行——参考图在迭代间保持锁定。
提示词模板 — 复制、替换、生成
将方括号中的字段替换为你的项目内容。
A) 横屏影视(3:2)— 建立镜头
- YouTube 开场
- 影视风格 B-roll
- 旅行与目的地内容
B) 竖屏短视频(2:3)— 垂直角色故事
Tip: 配合角色参考图,在多个片段间保持面部一致性。
C) 方图社媒(1:1)— 产品展示
- Instagram 广告
- 电商产品视频
- 品牌内容
模型对比 — Grok Video vs Veo 3.1 Fast vs Sora 2
快速参考,帮助你按使用场景选择合适的模型:
| 功能 | Grok Video | Veo 3.1 Fast | Sora 2 |
|---|---|---|---|
| 输出分辨率 | 720p | 720p | 720p |
| 宽高比 | 3:2 / 2:3 / 1:1 | 16:9 / 9:16 | 16:9 / 9:16 / 1:1 |
| 最大时长 | 15 秒 | 25 秒 | 15 秒 |
| 参考图 | 1 张 | 多张(ingredients) | 无 |
| 首 / 尾帧 | 无 | 有(Veo 3.1) | 无 |
| 自动缩略图 | 有 | 无 | 无 |
| 定价(15 秒) | 45 代币 | 18 代币(固定) | 12 代币 |
常见问题
Grok Video 输出什么分辨率?
720p。模型还会在视频片段旁自动生成一张缩略图。
能上传多张参考图吗?
目前 Grok Video 每次生成仅支持一张参考图。如需多图参考(ingredients 风格工作流),请使用 Synclip 中的 Veo 3.1。
为什么 15 秒比 Veo 3.1 Fast 贵?
Grok Video 采用线性按秒计费(3 代币/秒),更长的片段成本更高。Veo 3.1 Fast 无论时长,每次生成费用固定。如果最看重代币效率,Veo 3.1 Fast 更划算。
Grok Video 支持竖屏(垂直)内容吗?
支持,2:3 宽高比专为 Reels、抖音、Shorts 等竖屏短视频平台设计。