Guía de función

Synclip Audio Studio — TTS, clonación de voz y separación de audio en un workspace

Workspace · Audio Studio

Tres herramientas de audio listas para producción en un solo panel: texto a voz en alta definición con 77 voces y múltiples idiomas, clonación de voz con un solo archivo de referencia, y separación de pistas con IA. Todo conectado directamente a tu flujo de lip-sync.

Add hero image to public/blog/audio-studio-hero.jpg

¿Qué es Synclip Audio Studio?

Synclip Audio Studio es el hub de producción de audio dentro de tu workspace. Consolida tres flujos de trabajo de audio separados —texto a voz, clonación de voz y separación de pistas— en un único panel con cambio de modo, para que nunca tengas que salir de tu proyecto para producir la pista de audio que necesita un video.

Los tres modos activos son: Text to Speech (TTS), Voice Clone y Audio Separation. Otros dos —Text to Music y Speech to Text (ASR)— están en desarrollo y aparecerán cuando alcancen calidad de producción.

Cada modo comparte el mismo saldo de monedas y cola de tareas. Los resultados van a Mis Creaciones automáticamente, y cualquier archivo de audio producido en el estudio puede enviarse directamente al workspace de lipsync con un clic.

Los cinco modos de un vistazo

Audio Studio está construido alrededor de una interfaz de cambio de modo. Eliges el flujo de trabajo que necesitas y el panel de entrada se reconfigura para esa tarea.

Text to SpeechLive

Convierte un guion en voz humana con sonido natural. Elige entre 77 voces en chino, inglés, japonés, coreano, francés, español y más.

  • 77 voces en 7+ idiomas — chino (mandarín), inglés (EE.UU./UK/AU/IN), japonés, coreano, francés, español, italiano, portugués
  • El límite de caracteres escala con tu plan: 1.000 (gratis) → 3.000 → 5.000 → 10.000 caracteres
  • Voces estándar y premium — las voces premium tienen una entrega más rica y expresiva
  • Control de velocidad en el momento de la generación

Voice CloneLive

Sube un breve archivo de audio de referencia y genera nuevo habla con esa voz. No se necesita una sesión de entrenamiento larga — una sola carga es suficiente.

  • Sube cualquier WAV o MP3 hasta 10 MB como referencia
  • Escribe el guion objetivo en el panel izquierdo y genera habla que coincida con la voz de referencia
  • Funciona mejor con audio limpio de un solo hablante — al menos 5-10 segundos de habla natural
  • El resultado va a Mis Creaciones junto con tus archivos TTS
  • Útil para narradores de marca, doblaje multilingüe o mantener una voz existente consistente en nuevo contenido

Audio SeparationLive

Sube un archivo de audio o video mezclado y sepáralo en dos pistas: primer plano (vocales) y fondo (música/ambiente).

  • Sube cualquier archivo de audio hasta 10 MB
  • Dos archivos de salida: _fg (primer plano / vocales) y _bg (fondo / pista de acompañamiento)
  • Precio: 4 monedas por minuto de audio
  • Casos de uso: extraer vocales limpias para doblaje, aislar música de fondo para b-roll, eliminar la pista de acompañamiento antes de aplicar lip-sync

Text to MusicComing soon

Describe la música que necesitas y genera una pista correspondiente. Este modo está en desarrollo — aparecerá como opción activa cuando alcance calidad de producción.

  • Generación de música basada en prompts
  • Diseñado para producir bandas sonoras de fondo para contenido de video

Speech to Text (ASR)Coming soon

Transcribe cualquier archivo de audio a texto con alta precisión y soporte multilingüe. Próximamente.

  • Sólido soporte multilingüe
  • Salida como texto plano o transcripción sincronizada

Text to Speech — 77 voces, 7+ idiomas

El modo TTS es la parte más usada de Audio Studio, principalmente porque alimenta directamente la producción de videos lip-sync. Aquí hay una muestra de las voces disponibles en los principales grupos de idiomas:

Chino (mandarín)

VoiceGenderStyleBest for
云健 (Yunjian)MasculinoFirmeAudiolibro, narración
云扬 (Yunyáng)MasculinoEnérgicoPodcast, redes sociales
小妮 (Xiǎo Ní)FemeninoDulcePersonajes de animación
小小 (Xiǎo Xiǎo)FemeninoSuaveAsistente de voz
凌雨燕 (Líng Yǔyàn)FemeninoEleganteNarración de historias
刘平 (Liú Píng)MasculinoAutoritativoPresentaciones, noticias

Inglés (EE.UU. / UK / AU / IN)

VoiceGenderStyleBest for
JessicaFemeninoAmistosaPodcast
OnyxMasculinoProfundaTráiler, promo
NovaFemeninoModernaVlog, contenido social
NicoleFemeninoProfesionalTutorial, e-learning
FenrirMasculinoDramáticaNarración fantástica
RiverFemeninoRelajanteAudiolibro, meditación

Japonés / Coreano / Francés / Español / Italiano / Portugués

VoiceGenderStyleBest for
Sakura (JA)FemeninoCálidaTutorial, comercial
Nori (JA)MasculinoProfesionalCorporativo, presentación
Chae-won (KO)FemeninoClaraPodcast, vlog
Sophie (FR)FemeninoNaturalE-learning, documental
Carlos (ES)MasculinoEnérgicoAnuncios, YouTube
Isabella (PT)FemeninoAmistosaRedes sociales, tutoriales

Tips for better TTS results

  • Usa la puntuación de forma deliberada. Un punto produce una pausa natural más larga que una coma. Si necesitas un beat claro entre dos ideas, termina bien la primera oración.
  • Divide los párrafos largos en oraciones cortas — las oraciones más cortas producen una entrega notablemente más limpia y natural.
  • Reduce ligeramente la velocidad (0.85×) en nombres de marca, términos técnicos o cualquier frase que necesite que el oyente la registre.
  • Las voces premium tienen mayor variación tonal; úsalas para narración protagonista o producciones finales. Las voces estándar son geniales para borradores y contenido funcional.
  • Ajusta la energía de la voz al contexto del video: una voz enérgica y cálida funciona sobre cortes rápidos y demos de productos; una voz medida y tranquila se adapta a documentales y e-learning.

Voice Clone — iguala cualquier voz a partir de un archivo de referencia

Voice Clone te permite generar voz que suena como una persona específica, sin ninguna configuración larga. Subes una breve grabación de referencia, escribes tu guion y Audio Studio produce esa voz leyendo tu nuevo texto.

El caso de uso más común es la consistencia de marca: si un cliente tiene una narración existente o una voz de marca que quiere mantener en nuevo contenido, Voice Clone lo resuelve sin una nueva sesión de estudio.

También funciona para doblaje multilingüe: clona la voz en español de un hablante y genera la versión en inglés del mismo guion, manteniendo el mismo carácter de voz entre idiomas.

How to use Voice Clone

  1. Cambia a la pestaña Voice Clone en Audio Studio.
  2. En el panel derecho, haz clic en la zona de carga y selecciona un archivo de referencia WAV o MP3 (hasta 10 MB).
  3. En el panel izquierdo, escribe el guion que quieres generado con esa voz.
  4. Haz clic en Generar — el resultado se guarda en Mis Creaciones.

Para mejores resultados: usa una referencia limpia con mínimo ruido de fondo, un solo hablante y al menos 5-10 segundos de habla natural. Las grabaciones con música, reverberación o múltiples hablantes reducirán la precisión.

Audio Separation — divide cualquier pista en voz y acompañamiento

Audio Separation toma un archivo de audio mezclado y devuelve dos pistas: un archivo de primer plano con las vocales o el hablante principal, y un archivo de fondo con la música, el ambiente o la pista de acompañamiento.

El caso de uso más claro para producción de video: tienes un clip con un hablante y música de fondo, pero necesitas vocales limpias para lip-sync o doblaje. Sube el archivo mezclado, ejecuta la separación y en segundos tienes la pista de voz aislada.

El proceso inverso también funciona. Si tienes una gran pieza de música de fondo enterrada dentro de un clip, la separación la extrae como archivo independiente listo para colocar en una nueva línea de tiempo.

Output files

  • _fg — pista de primer plano (vocales, hablante principal, instrumento líder)
  • _bg — pista de fondo (música, ambiente y cualquier otro sonido detrás del hablante)

Audio Separation tiene un precio de 4 monedas por minuto de audio cargado. Una pista de 3 minutos cuesta 12 monedas.

Cómo conecta Audio Studio con tu flujo de lip-sync

Audio Studio fue diseñado primero como alimentador para la producción de videos lip-sync. La conexión entre los dos workspaces es directa:

  1. Produce tu pista de voz en Audio Studio (TTS, Voice Clone, o una salida de separación limpia).
  2. El resultado va a Mis Creaciones.
  3. Abre el workspace de Lipsync, selecciona "Desde Mis Creaciones" como fuente de audio y elige el archivo.
  4. Sube tu retrato (o usa uno existente), configura el movimiento corporal si es necesario y renderiza.

Este ciclo — guion → audio → video lip-sync — puede ejecutarse completamente dentro de Synclip sin descargar ni volver a subir archivos entre herramientas.

Empieza en Audio Studio

  1. Abre tu workspace de Synclip.
  2. Selecciona Audio Studio en la barra lateral izquierda.
  3. Elige tu modo: TTS, Voice Clone o Audio Separation.
  4. Genera tu pista y envíala a lipsync — o descárgala directamente.

Si ya tienes una cuenta de Synclip, Audio Studio está disponible ahora. Los tres modos activos —TTS, Voice Clone y Separation— están listos para usar. Text to Music y ASR aparecerán en el selector de modos cuando estén en producción.