功能指南

Synclip Audio Studio — TTS、声音克隆与音频分离,一个工作区全搞定

Workspace · Audio Studio

一个面板,三套生产级音频工具:77 个声音覆盖多语言的高清文字转语音、上传参考音频即可使用的声音克隆、以及 AI 驱动的音轨分离。全部直连嘴型同步工作流。

Add hero image to public/blog/audio-studio-hero.jpg

Synclip Audio Studio 是什么?

Synclip Audio Studio 是工作区内的音频制作中心。它将三套独立的音频工作流——文字转语音、声音克隆、音轨分离——整合进一个模式切换面板,让你在项目内就能完成视频所需的全部音频制作,无需离开工作区。

目前已上线的三个模式为:文字转语音(TTS)、声音克隆(Voice Clone)、音频分离(Audio Separation)。另外两个模式——文字生成音乐和语音转文字(ASR)——正在开发中,达到生产质量后会在模式切换栏中出现。

每个模式共享同一个金币余额和任务队列。结果自动保存至"我的创作",任何在 Audio Studio 中生成的音频文件都可以一键传递至嘴型同步工作区。

五种模式一览

Audio Studio 围绕模式切换界面构建。你选择所需的工作流,输入面板就会为该任务重新配置。

文字转语音(TTS)Live

将脚本转换为自然的人声语音。从覆盖中文、英文、日语、韩语、法语、西班牙语等 7 种以上语言的 77 个声音中选择。

  • 77 个声音,覆盖 7 种以上语言——中文(普通话)、英语(美式/英式/澳式/印度)、日语、韩语、法语、西班牙语、意大利语、葡萄牙语
  • 字符限制随订阅套餐提升:1,000(免费版)→ 3,000 → 5,000 → 10,000 字符
  • 标准声音和高级声音——高级声音表达更细腻、更有感染力
  • 生成时可控制语速

声音克隆(Voice Clone)Live

上传一段参考音频文件,即可生成与该声音匹配的新语音。无需长时间训练——上传一次即可使用。

  • 上传不超过 10 MB 的 WAV 或 MP3 作为参考
  • 在左侧面板输入目标脚本,即可生成与参考声音匹配的语音
  • 最适合干净的单说话人音频——至少 5-10 秒的自然语音
  • 输出结果与 TTS 文件一同保存至"我的创作"
  • 适用于品牌旁白、多语言配音,或在新内容中保持现有声音的一致性

音频分离(Audio Separation)Live

上传混合音频或视频文件,将其分离为两个音轨:前景(人声/主音)和背景(音乐/环境声)。

  • 上传不超过 10 MB 的任意音频文件
  • 输出两个文件:_fg(前景/人声)和 _bg(背景/伴奏)
  • 每分钟音频收费 4 个金币
  • 使用场景:提取干净人声用于配音、分离背景音乐用于 B-roll、在嘴型同步前去除伴奏

文字生成音乐(即将推出)Coming soon

描述所需音乐,即可生成对应的音轨。该模式正在开发中,达到生产质量后将作为可用选项出现。

  • 基于提示词的音乐生成
  • 专为视频内容的背景配乐设计

语音转文字 ASR(即将推出)Coming soon

以高精度和多语言支持将任意音频文件转录为文字。即将推出。

  • 强大的多语言支持
  • 输出为纯文本或带时间戳的转录文件

文字转语音——77 个声音,7 种以上语言

TTS 模式是 Audio Studio 使用最频繁的部分,主要原因在于它直接为嘴型同步视频制作提供音频。以下是主要语言组中部分可用声音:

中文(普通话)

VoiceGenderStyleBest for
云健稳重有声书、旁白
云扬有活力播客、社交媒体
小妮甜美动画角色
小小温柔语音助手
凌雨燕优雅故事讲述
刘平权威演示汇报、新闻

英语(美式/英式/澳式/印度)

VoiceGenderStyleBest for
Jessica亲切播客
Onyx低沉电影预告、宣传片
Nova现代感Vlog、社交内容
Nicole专业教程、在线课程
Fenrir戏剧性奇幻旁白
River舒缓有声书、冥想

日语 / 韩语 / 法语 / 西班牙语 / 意大利语 / 葡萄牙语

VoiceGenderStyleBest for
Sakura(日语)温暖教程、商业
Nori(日语)专业企业、演示
Chae-won(韩语)清晰播客、Vlog
Sophie(法语)自然在线课程、纪录片
Carlos(西班牙语)有活力广告、YouTube
Isabella(葡萄牙语)亲切社交媒体、教程

Tips for better TTS results

  • 用标点符号控制节奏。句号比逗号产生更长的自然停顿。如果需要两个想法之间有明显停顿,请规范结束第一个句子。
  • 将长段落拆成短句——短句的语音表达明显更自然、节奏感更好。
  • 对品牌名、专业术语或任何需要听者仔细记住的词组,适当降低语速(0.85×)。
  • 高级声音的音调变化更丰富;适合用于主旁白或最终产品。标准声音非常适合草稿和功能性内容。
  • 将声音能量与视频场景匹配:充满活力的温暖声音适合快切产品演示;沉稳、平静的声音适合纪录片和在线课程。

声音克隆——用参考文件匹配任意声音

声音克隆让你无需任何复杂设置,就能生成听起来像某个特定人的语音。上传一段参考录音,输入脚本,Audio Studio 就会以那个声音读出你的新文字。

最常见的使用场景是品牌一致性:如果客户有现有的旁白或品牌声音,希望延续到新内容中,声音克隆无需重新进行录音棚录制即可实现。

它也适用于多语言配音:克隆一个说话者的中文声音,生成同一脚本的英语版本,在不同语言中保持相同的音色特征。

How to use Voice Clone

  1. 在 Audio Studio 中切换到"声音克隆"标签。
  2. 在右侧面板点击上传区域,选择 WAV 或 MP3 参考文件(最大 10 MB)。
  3. 在左侧面板输入你希望以该声音生成的脚本。
  4. 点击"生成"——结果自动保存到"我的创作"。

最佳效果建议:使用背景噪音最少的干净录音,单一说话人,至少 5-10 秒的自然语音。含有音乐、混响或多位说话人的录音会降低准确度。

音频分离——将任意音轨拆分为人声和伴奏

音频分离接受混合音频文件,返回两个音轨:包含人声或主说话人的前景文件,以及包含音乐、环境声或伴奏的背景文件。

在视频制作中最典型的使用场景:你有一段包含说话人和背景音乐的素材,但需要干净的人声用于嘴型同步或配音。上传混合文件,运行分离,几秒内即可得到独立的语音轨道。

反向操作同样适用。如果某个素材中有一段很好的背景音乐,音频分离可以将其提取为独立文件,直接放置到新时间线上。

Output files

  • _fg — 前景音轨(人声、主说话人、主奏乐器)
  • _bg — 背景音轨(音乐、环境声以及说话人以外的所有声音)

音频分离按每分钟上传音频 4 个金币计费。一段 3 分钟的音轨花费 12 个金币。

Audio Studio 如何连接到嘴型同步工作流

Audio Studio 最初的设计目标就是为嘴型同步视频制作提供音频。两个工作区之间的连接是直接的:

  1. 在 Audio Studio 中制作语音轨道(TTS、声音克隆,或经过清洁处理的分离输出)。
  2. 结果自动进入"我的创作"。
  3. 打开嘴型同步工作区,选择"从我的创作"作为音频来源,选取文件。
  4. 上传人像(或使用已有的),按需配置身体动效,然后渲染。

这个循环——脚本 → 音频 → 嘴型同步视频——可以完全在 Synclip 内部完成,无需在工具之间下载或重新上传文件。

开始使用 Audio Studio

  1. 打开 Synclip 工作区。
  2. 从左侧边栏选择 Audio Studio。
  3. 选择模式:TTS、声音克隆或音频分离。
  4. 生成音轨并发送至嘴型同步——或直接下载。

如果你已有 Synclip 账户,Audio Studio 现在即可使用。三个已上线的模式——TTS、声音克隆和音频分离——均已就绪。文字生成音乐和 ASR 将在开发完成后出现在模式切换栏中。