Synclip Audio Studio 是什么?
Synclip Audio Studio 是工作区内的音频制作中心。它将三套独立的音频工作流——文字转语音、声音克隆、音轨分离——整合进一个模式切换面板,让你在项目内就能完成视频所需的全部音频制作,无需离开工作区。
目前已上线的三个模式为:文字转语音(TTS)、声音克隆(Voice Clone)、音频分离(Audio Separation)。另外两个模式——文字生成音乐和语音转文字(ASR)——正在开发中,达到生产质量后会在模式切换栏中出现。
每个模式共享同一个金币余额和任务队列。结果自动保存至"我的创作",任何在 Audio Studio 中生成的音频文件都可以一键传递至嘴型同步工作区。
五种模式一览
Audio Studio 围绕模式切换界面构建。你选择所需的工作流,输入面板就会为该任务重新配置。
文字转语音(TTS)Live
将脚本转换为自然的人声语音。从覆盖中文、英文、日语、韩语、法语、西班牙语等 7 种以上语言的 77 个声音中选择。
- 77 个声音,覆盖 7 种以上语言——中文(普通话)、英语(美式/英式/澳式/印度)、日语、韩语、法语、西班牙语、意大利语、葡萄牙语
- 字符限制随订阅套餐提升:1,000(免费版)→ 3,000 → 5,000 → 10,000 字符
- 标准声音和高级声音——高级声音表达更细腻、更有感染力
- 生成时可控制语速
声音克隆(Voice Clone)Live
上传一段参考音频文件,即可生成与该声音匹配的新语音。无需长时间训练——上传一次即可使用。
- 上传不超过 10 MB 的 WAV 或 MP3 作为参考
- 在左侧面板输入目标脚本,即可生成与参考声音匹配的语音
- 最适合干净的单说话人音频——至少 5-10 秒的自然语音
- 输出结果与 TTS 文件一同保存至"我的创作"
- 适用于品牌旁白、多语言配音,或在新内容中保持现有声音的一致性
音频分离(Audio Separation)Live
上传混合音频或视频文件,将其分离为两个音轨:前景(人声/主音)和背景(音乐/环境声)。
- 上传不超过 10 MB 的任意音频文件
- 输出两个文件:_fg(前景/人声)和 _bg(背景/伴奏)
- 每分钟音频收费 4 个金币
- 使用场景:提取干净人声用于配音、分离背景音乐用于 B-roll、在嘴型同步前去除伴奏
文字生成音乐(即将推出)Coming soon
描述所需音乐,即可生成对应的音轨。该模式正在开发中,达到生产质量后将作为可用选项出现。
- 基于提示词的音乐生成
- 专为视频内容的背景配乐设计
语音转文字 ASR(即将推出)Coming soon
以高精度和多语言支持将任意音频文件转录为文字。即将推出。
- 强大的多语言支持
- 输出为纯文本或带时间戳的转录文件
文字转语音——77 个声音,7 种以上语言
TTS 模式是 Audio Studio 使用最频繁的部分,主要原因在于它直接为嘴型同步视频制作提供音频。以下是主要语言组中部分可用声音:
中文(普通话)
| Voice | Gender | Style | Best for |
|---|---|---|---|
| 云健 | 男 | 稳重 | 有声书、旁白 |
| 云扬 | 男 | 有活力 | 播客、社交媒体 |
| 小妮 | 女 | 甜美 | 动画角色 |
| 小小 | 女 | 温柔 | 语音助手 |
| 凌雨燕 | 女 | 优雅 | 故事讲述 |
| 刘平 | 男 | 权威 | 演示汇报、新闻 |
英语(美式/英式/澳式/印度)
| Voice | Gender | Style | Best for |
|---|---|---|---|
| Jessica | 女 | 亲切 | 播客 |
| Onyx | 男 | 低沉 | 电影预告、宣传片 |
| Nova | 女 | 现代感 | Vlog、社交内容 |
| Nicole | 女 | 专业 | 教程、在线课程 |
| Fenrir | 男 | 戏剧性 | 奇幻旁白 |
| River | 女 | 舒缓 | 有声书、冥想 |
日语 / 韩语 / 法语 / 西班牙语 / 意大利语 / 葡萄牙语
| Voice | Gender | Style | Best for |
|---|---|---|---|
| Sakura(日语) | 女 | 温暖 | 教程、商业 |
| Nori(日语) | 男 | 专业 | 企业、演示 |
| Chae-won(韩语) | 女 | 清晰 | 播客、Vlog |
| Sophie(法语) | 女 | 自然 | 在线课程、纪录片 |
| Carlos(西班牙语) | 男 | 有活力 | 广告、YouTube |
| Isabella(葡萄牙语) | 女 | 亲切 | 社交媒体、教程 |
Tips for better TTS results
- 用标点符号控制节奏。句号比逗号产生更长的自然停顿。如果需要两个想法之间有明显停顿,请规范结束第一个句子。
- 将长段落拆成短句——短句的语音表达明显更自然、节奏感更好。
- 对品牌名、专业术语或任何需要听者仔细记住的词组,适当降低语速(0.85×)。
- 高级声音的音调变化更丰富;适合用于主旁白或最终产品。标准声音非常适合草稿和功能性内容。
- 将声音能量与视频场景匹配:充满活力的温暖声音适合快切产品演示;沉稳、平静的声音适合纪录片和在线课程。
声音克隆——用参考文件匹配任意声音
声音克隆让你无需任何复杂设置,就能生成听起来像某个特定人的语音。上传一段参考录音,输入脚本,Audio Studio 就会以那个声音读出你的新文字。
最常见的使用场景是品牌一致性:如果客户有现有的旁白或品牌声音,希望延续到新内容中,声音克隆无需重新进行录音棚录制即可实现。
它也适用于多语言配音:克隆一个说话者的中文声音,生成同一脚本的英语版本,在不同语言中保持相同的音色特征。
How to use Voice Clone
- 在 Audio Studio 中切换到"声音克隆"标签。
- 在右侧面板点击上传区域,选择 WAV 或 MP3 参考文件(最大 10 MB)。
- 在左侧面板输入你希望以该声音生成的脚本。
- 点击"生成"——结果自动保存到"我的创作"。
最佳效果建议:使用背景噪音最少的干净录音,单一说话人,至少 5-10 秒的自然语音。含有音乐、混响或多位说话人的录音会降低准确度。
音频分离——将任意音轨拆分为人声和伴奏
音频分离接受混合音频文件,返回两个音轨:包含人声或主说话人的前景文件,以及包含音乐、环境声或伴奏的背景文件。
在视频制作中最典型的使用场景:你有一段包含说话人和背景音乐的素材,但需要干净的人声用于嘴型同步或配音。上传混合文件,运行分离,几秒内即可得到独立的语音轨道。
反向操作同样适用。如果某个素材中有一段很好的背景音乐,音频分离可以将其提取为独立文件,直接放置到新时间线上。
Output files
_fg — 前景音轨(人声、主说话人、主奏乐器)_bg — 背景音轨(音乐、环境声以及说话人以外的所有声音)
音频分离按每分钟上传音频 4 个金币计费。一段 3 分钟的音轨花费 12 个金币。
Audio Studio 如何连接到嘴型同步工作流
Audio Studio 最初的设计目标就是为嘴型同步视频制作提供音频。两个工作区之间的连接是直接的:
- 在 Audio Studio 中制作语音轨道(TTS、声音克隆,或经过清洁处理的分离输出)。
- 结果自动进入"我的创作"。
- 打开嘴型同步工作区,选择"从我的创作"作为音频来源,选取文件。
- 上传人像(或使用已有的),按需配置身体动效,然后渲染。
这个循环——脚本 → 音频 → 嘴型同步视频——可以完全在 Synclip 内部完成,无需在工具之间下载或重新上传文件。
开始使用 Audio Studio
- 打开 Synclip 工作区。
- 从左侧边栏选择 Audio Studio。
- 选择模式:TTS、声音克隆或音频分离。
- 生成音轨并发送至嘴型同步——或直接下载。
如果你已有 Synclip 账户,Audio Studio 现在即可使用。三个已上线的模式——TTS、声音克隆和音频分离——均已就绪。文字生成音乐和 ASR 将在开发完成后出现在模式切换栏中。