VideoClaw 是什么?
VideoClaw 是 Synclip 内置的 AI 分镜与视频生成工作台。它提供一个基于节点的画布,制作中的每个元素——项目大纲、角色资产、场景资产、剧集脚本、分镜图和渲染视频片段——都以可互联的节点形式存在,随时可以查看和重新生成。
名称有意致敬 OpenClaw——那个让基于节点的影视前期制作流行起来的开源分镜流水线项目。VideoClaw 在此基础上引入了实时 AI 生成能力:无需手工绘制分镜或搜索素材图,每个节点都能在几秒内由底层模型完成填充。
底层采用多智能体架构处理创作流水线:Router 智能体分类你的对话输入,Planner 智能体规划剧集与镜头,Writer 智能体起草脚本和生成提示词,Director 智能体在内容到达画布前进行一致性审核。
- 基于节点的制作画布——每个资产都是可拖拽、可编辑的节点
- AI 剧本解析——自动提取角色、场景和剧集结构
- 通过 Nano Banana 生成分镜图(快速、电影感、成本低)
- 视频生成:Sora 2 / Veo 3.1 Fast / Grok Video——按镜头自由选择
- 多智能体流水线:Router → Planner → Writer → Director
- 用户级 AI Token 配额——能量条实时追踪消耗
VideoClaw 工作原理——从剧本到银幕
完整流水线在单个持久化画布中运行,每个阶段在上一阶段的基础上构建。
阶段一:项目创建与剧本导入
新建项目,将剧本粘贴或写入 Script Source 节点。VideoClaw 的解析引擎读取原始文本,提取结构化项目大纲:标题、故事简介、核心冲突、角色、场景和剧集列表。所有提取的资产会自动作为节点播种到画布上。
- 粘贴任意纯文本剧本、剧情大纲或故事简介
- AI 提取角色(姓名、身份、原型、外观标签)
- AI 提取地点和场景描述
- 根据幕式结构或场景标题自动生成剧集列表
阶段二:角色与场景资产生成
每个角色节点获得 AI 自动生成的视觉档案。Nano Banana 根据阶段一提取的外观标签渲染参考肖像。场景节点获得概念艺术图。这些视觉内容将成为所有后续分镜帧的基准——在整个制作过程中保持面部和地点的一致性。
阶段三:剧集脚本与分镜规划
选择剧集节点,让 AI 生成完整的逐场脚本。Writer 智能体起草对白、动作描述和摄像机方向。随后从脚本生成分镜列表——每个镜头变为一个 Shot Script 节点,包含地点、时间、动作摘要、对白节选和分镜图插槽。
阶段四:分镜图生成
Planner 智能体为每个镜头写一条 Nano Banana 优化提示词——采用项目全局视觉风格或剧集级别的覆盖设置。一键触发全集批量生图。你也可以单独重新生成某一帧,不影响其余分镜。
阶段五:视频渲染
每个分镜帧是视频生成的起点。将图像连接到 VideoGen 节点,选择模型(Sora 2 用于电影质感,Veo 3.1 Fast 用于速度和首尾帧控制,Grok Video 用于多宽高比影视输出),写入或导入镜头提示词,开始生成。所有视频片段存储在画布中,支持内联预览。
核心功能一览
运行完整 AI 前期制作与制作流水线所需的一切:
| Feature | Detail |
|---|---|
| 剧本解析 | 从原始文本自动提取角色、场景、故事简介和剧集结构 |
| 角色肖像生成 | Nano Banana 根据外观标签生成参考肖像 |
| 场景概念艺术 | AI 为每个场景节点生成地点参考图 |
| 镜头脚本 | AI 起草含对白和摄像机方向的逐场脚本 |
| 镜头提示词生成 | 每个镜头自动生成 Nano Banana 图像提示词和视频提示词 |
| 批量分镜生成 | 一次操作生成所有镜头图像 |
| 多模型视频生成 | Sora 2 / Veo 3.1 Fast / Grok Video——每个节点可独立选择 |
| 视觉风格继承 | 在大纲节点设置全局风格,可按剧集或镜头覆盖 |
| AI 对话界面 | 自然语言控制——描述你想要什么,智能体自动路由操作 |
| AI Token 能量条 | 实时用量展示,配额按订阅等级每月重置 |
分镜图——底层由 Nano Banana 驱动
VideoClaw 的所有分镜图生成均运行在 Nano Banana 上,即 Synclip 的快速图像模型。Writer 智能体自动将每个镜头的脚本描述转化为 Nano Banana 优化提示词——融入项目视觉风格、角色外观标签和场景地点参考。几秒钟内即可获得生产可用的分镜板,而不是花费数小时。
- 每个镜头自动生成电影构图提示词
- 全局应用项目视觉风格(如"赛博朋克霓虹"、"水墨画"、"黑色电影")
- 角色外观标签注入每一帧出现该角色的画面
- 一键批量生成剧集全部镜头
- 单帧重新生成,不影响相邻分镜
Tip: 在开始生成任何图像之前,先在项目大纲节点上设置"视觉风格"字段。这个字符串会被前置到项目中每一条 Nano Banana 提示词,确保整集 100 多帧的视觉一致性。
视频生成——三个模型,一个画布
VideoClaw 在画布中直接提供 Synclip 全部三个视频模型。每个 VideoGen 节点可选择最适合当前镜头的模型:
| Model | Resolution | Max Duration | Best For |
|---|---|---|---|
| Sora 2 | 720p | 15 秒 | 电影质感、角色特写、艺术序列 |
| Veo 3.1 Fast | 720p | 25 秒 | 快速迭代、首尾帧控制、多参考图镜头 |
| Grok Video | 720p | 15 秒 | 三宽高比输出(3:2 / 2:3 / 1:1)、自动缩略图、线性定价 |
每个模型各有优势——Veo 3.1 Fast 长片段最划算;Sora 2 提供最高电影质感;Grok Video 增加自动缩略图生成和灵活宽高比。同一剧集的不同镜头可以自由混搭模型。
短片推荐工作流
一部典型的 5 分钟短片(3 幕、9 场景、约 30 个镜头),使用以下流程可在 2 小时内完成全部分镜和视频生成:
第一步:撰写或粘贴剧情大纲(15 分钟)
准备 500–2000 字的大纲或完整剧本。包含角色名称、场景标题(内景/外景)和动作描述。给解析器的结构越清晰,提取结果越干净。
第二步:运行剧本解析,审核提取的资产(10 分钟)
点击 Script Source 节点上的"解析内容"。审核提取的角色和场景。通过直接编辑资产节点或询问 AI 来补充缺失的细节(外观标签、性格特征)。
第三步:生成角色肖像和场景概念艺术(20 分钟)
选中所有角色节点,触发肖像生成。对场景节点做同样操作。这为后续每一帧分镜提供一致的视觉参考。
第四步:生成剧集脚本和分镜列表(15 分钟)
对每个剧集节点,点击"生成剧本"。Writer 智能体起草完整的逐场脚本并自动创建分镜节点。审核分镜列表,按需调整摄像机方向或动作节拍。
第五步:批量生成所有分镜图(20 分钟)
让 AI 生成剧集的所有分镜图。系统为每个镜头写 Nano Banana 提示词并执行批量生成。重新生成需要调整的任意帧。
第六步:为关键镜头渲染视频(40 分钟)
选取需要视频的镜头(高潮时刻、转场、动作节拍)。每个镜头连接到 VideoGen 节点,选择模型并生成。快速迭代用 Veo 3.1 Fast,最重要的电影时刻用 Sora 2。
VideoClaw vs 手动前期制作 vs 其他 AI 工具
以 30 个镜头的一集为例的对比:
| 任务 | VideoClaw | 手动(Figma/Notion) | 通用 AI(ChatGPT + Midjourney) |
|---|---|---|---|
| 剧本到分镜列表 | 自动(< 2 分钟) | 2–4 小时 | 30–60 分钟(手动提示) |
| 角色参考肖像 | 批量,一键 | 手工绘制或找素材 | 每个角色手动生成 |
| 分镜图生成 | 批量,风格一致 | 手工绘制或找素材 | 手动,无风格继承 |
| 视频渲染 | 内嵌,3 种模型 | 需要独立视频工具 | 需要独立工具 |
| 风格一致性 | 全局风格 + 按镜头覆盖 | 手动维护 | 无(逐条提示) |
| 资产组织 | 节点画布,自动关联 | 手动文件夹结构 | 无 |
常见问题
VideoClaw 和 OpenClaw 是什么关系?
OpenClaw 是一个开源分镜流水线项目,让基于节点的影视前期制作流行起来。VideoClaw 是 Synclip 对这一理念的实现——在此基础上扩展了实时 AI 生成能力(剧本解析、图像生成、视频渲染)和内置多智能体对话界面。VideoClaw 是托管产品;OpenClaw 是自托管开源项目。
使用 VideoClaw 需要写完整剧本吗?
不需要。你可以从简短的大纲(几段话描述你的故事)、故事简介甚至要点列表开始。AI 解析器设计为从你提供的任何内容中提取有用结构,缺失的细节可以通过对话界面交互式补充。
AI Token 用量如何追踪?
VideoClaw 内的每次 LLM 调用(剧本解析、脚本生成、提示词写作、对话路由)都会计入你的月度 AI Token 配额。标题栏的能量条实时显示当前用量。配额每月重置,额度随订阅等级增加。
可以使用自己的图片或现有分镜帧吗?
可以。画布中的每个图像插槽(分镜帧、角色肖像、场景概念图)都接受上传图片。你可以自由混用 AI 生成和手动上传的资产。上传的图片也可以用作视频生成的参考输入。
分镜转视频应该用哪个模型?
大多数镜头推荐从 Veo 3.1 Fast 开始——快速、经济,且支持将分镜帧作为参考图输入。高潮电影时刻需要最高质量时用 Sora 2。需要特定宽高比(如 1:1 用于社媒)或需要自动缩略图时用 Grok Video。