Synclip Audio Studio — 一键将文字转为专业级语音

Synclip Audio Studio 是什么？

Synclip Audio Studio 是工作区内的音频制作中心。它将三套独立的音频工作流——文字转语音、声音克隆、音轨分离——整合进一个模式切换面板，让你在项目内就能完成视频所需的全部音频制作，无需离开工作区。

目前已上线的三个模式为：文字转语音（TTS）、声音克隆（Voice Clone）、音频分离（Audio Separation）。另外两个模式——文字生成音乐和语音转文字（ASR）——正在开发中，达到生产质量后会在模式切换栏中出现。

每个模式共享同一个金币余额和任务队列。结果自动保存至"我的创作"，任何在 Audio Studio 中生成的音频文件都可以一键传递至嘴型同步工作区。

五种模式一览

Audio Studio 围绕模式切换界面构建。你选择所需的工作流，输入面板就会为该任务重新配置。

文字转语音（TTS）Live

将脚本转换为自然的人声语音。从覆盖中文、英文、日语、韩语、法语、西班牙语等 7 种以上语言的 77 个声音中选择。

77 个声音，覆盖 7 种以上语言——中文（普通话）、英语（美式/英式/澳式/印度）、日语、韩语、法语、西班牙语、意大利语、葡萄牙语
字符限制随订阅套餐提升：1,000（免费版）→ 3,000 → 5,000 → 10,000 字符
标准声音和高级声音——高级声音表达更细腻、更有感染力
生成时可控制语速

声音克隆（Voice Clone）Live

上传一段参考音频文件，即可生成与该声音匹配的新语音。无需长时间训练——上传一次即可使用。

上传不超过 10 MB 的 WAV 或 MP3 作为参考
在左侧面板输入目标脚本，即可生成与参考声音匹配的语音
最适合干净的单说话人音频——至少 5-10 秒的自然语音
输出结果与 TTS 文件一同保存至"我的创作"
适用于品牌旁白、多语言配音，或在新内容中保持现有声音的一致性

音频分离（Audio Separation）Live

上传混合音频或视频文件，将其分离为两个音轨：前景（人声/主音）和背景（音乐/环境声）。

上传不超过 10 MB 的任意音频文件
输出两个文件：_fg（前景/人声）和 _bg（背景/伴奏）
每分钟音频收费 4 个金币
使用场景：提取干净人声用于配音、分离背景音乐用于 B-roll、在嘴型同步前去除伴奏

文字生成音乐（即将推出）Coming soon

描述所需音乐，即可生成对应的音轨。该模式正在开发中，达到生产质量后将作为可用选项出现。

基于提示词的音乐生成
专为视频内容的背景配乐设计

语音转文字 ASR（即将推出）Coming soon

以高精度和多语言支持将任意音频文件转录为文字。即将推出。

强大的多语言支持
输出为纯文本或带时间戳的转录文件

文字转语音——77 个声音，7 种以上语言

TTS 模式是 Audio Studio 使用最频繁的部分，主要原因在于它直接为嘴型同步视频制作提供音频。以下是主要语言组中部分可用声音：

中文（普通话）

Voice	Gender	Style	Best for
云健	男	稳重	有声书、旁白
云扬	男	有活力	播客、社交媒体
小妮	女	甜美	动画角色
小小	女	温柔	语音助手
凌雨燕	女	优雅	故事讲述
刘平	男	权威	演示汇报、新闻

英语（美式/英式/澳式/印度）

Voice	Gender	Style	Best for
Jessica	女	亲切	播客
Onyx	男	低沉	电影预告、宣传片
Nova	女	现代感	Vlog、社交内容
Nicole	女	专业	教程、在线课程
Fenrir	男	戏剧性	奇幻旁白
River	女	舒缓	有声书、冥想

日语 / 韩语 / 法语 / 西班牙语 / 意大利语 / 葡萄牙语

Voice	Gender	Style	Best for
Sakura（日语）	女	温暖	教程、商业
Nori（日语）	男	专业	企业、演示
Chae-won（韩语）	女	清晰	播客、Vlog
Sophie（法语）	女	自然	在线课程、纪录片
Carlos（西班牙语）	男	有活力	广告、YouTube
Isabella（葡萄牙语）	女	亲切	社交媒体、教程

Tips for better TTS results

用标点符号控制节奏。句号比逗号产生更长的自然停顿。如果需要两个想法之间有明显停顿，请规范结束第一个句子。
将长段落拆成短句——短句的语音表达明显更自然、节奏感更好。
对品牌名、专业术语或任何需要听者仔细记住的词组，适当降低语速（0.85×）。
高级声音的音调变化更丰富；适合用于主旁白或最终产品。标准声音非常适合草稿和功能性内容。
将声音能量与视频场景匹配：充满活力的温暖声音适合快切产品演示；沉稳、平静的声音适合纪录片和在线课程。

声音克隆——用参考文件匹配任意声音

声音克隆让你无需任何复杂设置，就能生成听起来像某个特定人的语音。上传一段参考录音，输入脚本，Audio Studio 就会以那个声音读出你的新文字。

最常见的使用场景是品牌一致性：如果客户有现有的旁白或品牌声音，希望延续到新内容中，声音克隆无需重新进行录音棚录制即可实现。

它也适用于多语言配音：克隆一个说话者的中文声音，生成同一脚本的英语版本，在不同语言中保持相同的音色特征。

How to use Voice Clone

在 Audio Studio 中切换到"声音克隆"标签。
在右侧面板点击上传区域，选择 WAV 或 MP3 参考文件（最大 10 MB）。
在左侧面板输入你希望以该声音生成的脚本。
点击"生成"——结果自动保存到"我的创作"。

最佳效果建议：使用背景噪音最少的干净录音，单一说话人，至少 5-10 秒的自然语音。含有音乐、混响或多位说话人的录音会降低准确度。

音频分离——将任意音轨拆分为人声和伴奏

音频分离接受混合音频文件，返回两个音轨：包含人声或主说话人的前景文件，以及包含音乐、环境声或伴奏的背景文件。

在视频制作中最典型的使用场景：你有一段包含说话人和背景音乐的素材，但需要干净的人声用于嘴型同步或配音。上传混合文件，运行分离，几秒内即可得到独立的语音轨道。

反向操作同样适用。如果某个素材中有一段很好的背景音乐，音频分离可以将其提取为独立文件，直接放置到新时间线上。

Output files

_fg — 前景音轨（人声、主说话人、主奏乐器）
_bg — 背景音轨（音乐、环境声以及说话人以外的所有声音）

音频分离按每分钟上传音频 4 个金币计费。一段 3 分钟的音轨花费 12 个金币。

Audio Studio 如何连接到嘴型同步工作流

Audio Studio 最初的设计目标就是为嘴型同步视频制作提供音频。两个工作区之间的连接是直接的：

在 Audio Studio 中制作语音轨道（TTS、声音克隆，或经过清洁处理的分离输出）。
结果自动进入"我的创作"。
打开嘴型同步工作区，选择"从我的创作"作为音频来源，选取文件。
上传人像（或使用已有的），按需配置身体动效，然后渲染。

这个循环——脚本 → 音频 → 嘴型同步视频——可以完全在 Synclip 内部完成，无需在工具之间下载或重新上传文件。

开始使用 Audio Studio

打开 Synclip 工作区。
从左侧边栏选择 Audio Studio。
选择模式：TTS、声音克隆或音频分离。
生成音轨并发送至嘴型同步——或直接下载。

如果你已有 Synclip 账户，Audio Studio 现在即可使用。三个已上线的模式——TTS、声音克隆和音频分离——均已就绪。文字生成音乐和 ASR 将在开发完成后出现在模式切换栏中。

Synclip Audio Studio 是什么？

每个模式共享同一个金币余额和任务队列。结果自动保存至"我的创作"，任何在 Audio Studio 中生成的音频文件都可以一键传递至嘴型同步工作区。

五种模式一览

Audio Studio 围绕模式切换界面构建。你选择所需的工作流，输入面板就会为该任务重新配置。

文字转语音（TTS）Live

将脚本转换为自然的人声语音。从覆盖中文、英文、日语、韩语、法语、西班牙语等 7 种以上语言的 77 个声音中选择。

77 个声音，覆盖 7 种以上语言——中文（普通话）、英语（美式/英式/澳式/印度）、日语、韩语、法语、西班牙语、意大利语、葡萄牙语
字符限制随订阅套餐提升：1,000（免费版）→ 3,000 → 5,000 → 10,000 字符
标准声音和高级声音——高级声音表达更细腻、更有感染力
生成时可控制语速

声音克隆（Voice Clone）Live

上传一段参考音频文件，即可生成与该声音匹配的新语音。无需长时间训练——上传一次即可使用。

上传不超过 10 MB 的 WAV 或 MP3 作为参考
在左侧面板输入目标脚本，即可生成与参考声音匹配的语音
最适合干净的单说话人音频——至少 5-10 秒的自然语音
输出结果与 TTS 文件一同保存至"我的创作"
适用于品牌旁白、多语言配音，或在新内容中保持现有声音的一致性

音频分离（Audio Separation）Live

上传混合音频或视频文件，将其分离为两个音轨：前景（人声/主音）和背景（音乐/环境声）。

上传不超过 10 MB 的任意音频文件
输出两个文件：_fg（前景/人声）和 _bg（背景/伴奏）
每分钟音频收费 4 个金币
使用场景：提取干净人声用于配音、分离背景音乐用于 B-roll、在嘴型同步前去除伴奏

文字生成音乐（即将推出）Coming soon

描述所需音乐，即可生成对应的音轨。该模式正在开发中，达到生产质量后将作为可用选项出现。

基于提示词的音乐生成
专为视频内容的背景配乐设计

语音转文字 ASR（即将推出）Coming soon

以高精度和多语言支持将任意音频文件转录为文字。即将推出。

强大的多语言支持
输出为纯文本或带时间戳的转录文件

文字转语音——77 个声音，7 种以上语言

TTS 模式是 Audio Studio 使用最频繁的部分，主要原因在于它直接为嘴型同步视频制作提供音频。以下是主要语言组中部分可用声音：

中文（普通话）

Voice	Gender	Style	Best for
云健	男	稳重	有声书、旁白
云扬	男	有活力	播客、社交媒体
小妮	女	甜美	动画角色
小小	女	温柔	语音助手
凌雨燕	女	优雅	故事讲述
刘平	男	权威	演示汇报、新闻

英语（美式/英式/澳式/印度）

Voice	Gender	Style	Best for
Jessica	女	亲切	播客
Onyx	男	低沉	电影预告、宣传片
Nova	女	现代感	Vlog、社交内容
Nicole	女	专业	教程、在线课程
Fenrir	男	戏剧性	奇幻旁白
River	女	舒缓	有声书、冥想

日语 / 韩语 / 法语 / 西班牙语 / 意大利语 / 葡萄牙语

Voice	Gender	Style	Best for
Sakura（日语）	女	温暖	教程、商业
Nori（日语）	男	专业	企业、演示
Chae-won（韩语）	女	清晰	播客、Vlog
Sophie（法语）	女	自然	在线课程、纪录片
Carlos（西班牙语）	男	有活力	广告、YouTube
Isabella（葡萄牙语）	女	亲切	社交媒体、教程

Tips for better TTS results

用标点符号控制节奏。句号比逗号产生更长的自然停顿。如果需要两个想法之间有明显停顿，请规范结束第一个句子。
将长段落拆成短句——短句的语音表达明显更自然、节奏感更好。
对品牌名、专业术语或任何需要听者仔细记住的词组，适当降低语速（0.85×）。
高级声音的音调变化更丰富；适合用于主旁白或最终产品。标准声音非常适合草稿和功能性内容。
将声音能量与视频场景匹配：充满活力的温暖声音适合快切产品演示；沉稳、平静的声音适合纪录片和在线课程。

声音克隆——用参考文件匹配任意声音

声音克隆让你无需任何复杂设置，就能生成听起来像某个特定人的语音。上传一段参考录音，输入脚本，Audio Studio 就会以那个声音读出你的新文字。

最常见的使用场景是品牌一致性：如果客户有现有的旁白或品牌声音，希望延续到新内容中，声音克隆无需重新进行录音棚录制即可实现。

它也适用于多语言配音：克隆一个说话者的中文声音，生成同一脚本的英语版本，在不同语言中保持相同的音色特征。

How to use Voice Clone

在 Audio Studio 中切换到"声音克隆"标签。
在右侧面板点击上传区域，选择 WAV 或 MP3 参考文件（最大 10 MB）。
在左侧面板输入你希望以该声音生成的脚本。
点击"生成"——结果自动保存到"我的创作"。

最佳效果建议：使用背景噪音最少的干净录音，单一说话人，至少 5-10 秒的自然语音。含有音乐、混响或多位说话人的录音会降低准确度。

音频分离——将任意音轨拆分为人声和伴奏

音频分离接受混合音频文件，返回两个音轨：包含人声或主说话人的前景文件，以及包含音乐、环境声或伴奏的背景文件。

反向操作同样适用。如果某个素材中有一段很好的背景音乐，音频分离可以将其提取为独立文件，直接放置到新时间线上。

Output files

_fg — 前景音轨（人声、主说话人、主奏乐器）
_bg — 背景音轨（音乐、环境声以及说话人以外的所有声音）

音频分离按每分钟上传音频 4 个金币计费。一段 3 分钟的音轨花费 12 个金币。

Audio Studio 如何连接到嘴型同步工作流

Audio Studio 最初的设计目标就是为嘴型同步视频制作提供音频。两个工作区之间的连接是直接的：

在 Audio Studio 中制作语音轨道（TTS、声音克隆，或经过清洁处理的分离输出）。
结果自动进入"我的创作"。
打开嘴型同步工作区，选择"从我的创作"作为音频来源，选取文件。
上传人像（或使用已有的），按需配置身体动效，然后渲染。

这个循环——脚本 → 音频 → 嘴型同步视频——可以完全在 Synclip 内部完成，无需在工具之间下载或重新上传文件。

开始使用 Audio Studio

打开 Synclip 工作区。
从左侧边栏选择 Audio Studio。
选择模式：TTS、声音克隆或音频分离。
生成音轨并发送至嘴型同步——或直接下载。

Synclip Audio Studio — TTS、声音克隆与音频分离，一个工作区全搞定

Synclip Audio Studio 是什么？

五种模式一览

文字转语音（TTS）Live

声音克隆（Voice Clone）Live

音频分离（Audio Separation）Live

文字生成音乐（即将推出）Coming soon

语音转文字 ASR（即将推出）Coming soon

文字转语音——77 个声音，7 种以上语言

中文（普通话）

英语（美式/英式/澳式/印度）

日语 / 韩语 / 法语 / 西班牙语 / 意大利语 / 葡萄牙语

Tips for better TTS results

声音克隆——用参考文件匹配任意声音

How to use Voice Clone

音频分离——将任意音轨拆分为人声和伴奏

Output files

Audio Studio 如何连接到嘴型同步工作流

开始使用 Audio Studio

Synclip Audio Studio — TTS、声音克隆与音频分离，一个工作区全搞定

Synclip Audio Studio 是什么？

五种模式一览

文字转语音（TTS）Live

声音克隆（Voice Clone）Live

音频分离（Audio Separation）Live

文字生成音乐（即将推出）Coming soon

语音转文字 ASR（即将推出）Coming soon

文字转语音——77 个声音，7 种以上语言

中文（普通话）

英语（美式/英式/澳式/印度）

日语 / 韩语 / 法语 / 西班牙语 / 意大利语 / 葡萄牙语

Tips for better TTS results

声音克隆——用参考文件匹配任意声音

How to use Voice Clone

音频分离——将任意音轨拆分为人声和伴奏

Output files

Audio Studio 如何连接到嘴型同步工作流

开始使用 Audio Studio