Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Sonido# Aprendizaje automático# Procesado de Audio y Voz

Avances en la tecnología de conversión de voz

Un nuevo modelo mejora la conversión de voz al simplificar las técnicas de separación del habla.

― 8 minilectura


Modelo de Conversión deModelo de Conversión deVoz Simplificadosalida.conversión de voz y la calidad deUn nuevo modelo mejora la eficiencia de
Tabla de contenidos

La Conversión de Voz (VC) es una técnica que cambia la voz de una persona para que suene como la de otra, manteniendo el mismo Contenido hablado. Este método puede ser útil para varias aplicaciones, como el doblaje en películas o la creación de voces de IA para asistentes virtuales. Para que la VC funcione bien, el habla debe descomponerse en diferentes partes: contenido (lo que se dice), Timbre (la calidad única de la voz), Ritmo (la velocidad del habla) y tono (cuán alta o baja suena la voz).

Sin embargo, muchos métodos existentes solo se enfocan en el contenido y el timbre, lo que puede llevar a un habla con un sonido poco natural. Algunos métodos más nuevos pueden separar el habla en diferentes partes, pero requieren mucho esfuerzo manual para ajustar la configuración o usar características específicas que deben diseñarse de antemano.

En esta discusión, se presenta un nuevo modelo de VC que puede separar automáticamente el habla en las cuatro partes usando solo dos ajustes simples en el habla, sin necesitar un ajuste complicado o un montón de características pre-diseñadas. Este modelo es sencillo y muestra mejores resultados que los modelos anteriores, tanto en cómo separa las partes del habla como en cuán natural suena el resultado.

Conversión de Voz Explicada

La conversión de voz permite que una voz "tome prestadas" las características de otra mientras dice las mismas palabras. Esto puede ser beneficioso en situaciones como la post-producción de películas, donde la voz de un actor necesita coincidir con la animación o con otro actor. También se puede aplicar en tecnologías de soporte, donde las voces pueden alterarse para adaptarse a las preferencias de diferentes usuarios.

A medida que la tecnología ha avanzado, los métodos para realizar VC también han mejorado. Algunos sistemas más complejos utilizan modelos secundarios, como aquellos que convierten habla en texto o viceversa, para ayudar a generar la voz deseada. Aunque estos métodos pueden producir buenos resultados, pueden ser difíciles de implementar y requieren esfuerzos de entrenamiento significativos.

Un enfoque más simple y emergente se centra en descomponer el habla en sus componentes fundamentales, como el contenido y las características del hablante (timbre). Estos métodos han ganado popularidad ya que no necesitan los modelos adicionales y son más fáciles de entrenar. Sin embargo, no se tienen en cuenta todos los aspectos del habla; componentes como el ritmo y el tono a menudo se pasan por alto. Si un sistema solo considera el timbre, la voz resultante puede sonar menos expresiva y natural.

Modelos Existentes

Dos modelos notables, conocidos como SpeechSplit y SpeechSplit2.0, intentan separar estos componentes del habla de manera efectiva. Ambos modelos utilizan una estructura similar con diferentes codificadores para el contenido, ritmo y tono, junto con un decodificador para combinar estas partes en una salida de voz final.

En SpeechSplit, el modelo utiliza diferentes características creadas manualmente para cada tipo de codificador. Esto requiere un ajuste cuidadoso de la configuración, a menudo sacrificando la calidad de la voz generada. SpeechSplit2.0 mejora a su predecesor al utilizar técnicas de procesamiento de señales más avanzadas, pero todavía depende en gran medida de estas características elaboradas a mano.

El objetivo es encontrar una manera de separar los componentes del habla sin todo este esfuerzo manual. Una solución automática puede ahorrar tiempo y crear mejores resultados al reducir el sesgo introducido por las decisiones humanas en la selección de características.

Enfoque Propuesto

El nuevo modelo de VC propuesto aquí comparte algunas similitudes con los modelos existentes. Sin embargo, tiene una diferencia clave: puede separar automáticamente el habla en sus cuatro componentes usando solo dos modificaciones en el habla: cambiando el tono y ajustando el ritmo. Esto elimina la necesidad de múltiples características elaboradas a mano y elimina el tedioso proceso de ajuste.

Inspirado en trabajos realizados en campos relacionados, este modelo incluye un módulo de clasificación que ayuda a identificar representaciones efectivas del habla a partir de los datos. El modelo se entrena para clasificar el habla original frente a sus versiones modificadas. Por ejemplo, si se eleva el tono, el modelo clasificará la versión modificada más alta para la representación del tono mientras mantiene igual las puntuaciones de ritmo.

Al usar un enfoque que permite al modelo centrarse en el contenido principal, separado de los cambios en el tono y el ritmo, el modelo puede discernir con precisión las características relevantes para cada componente del habla.

Proceso de Entrenamiento

El modelo consta de varios pasos. Inicialmente, múltiples codificadores extraen información relevante para el contenido, ritmo y tono del habla de entrada. El proceso comienza modificando los datos de habla con las dos funciones de aumento: cambiando el tono y el ritmo. Cada vez que se modifica el habla, se hace al azar para evitar el sobreajuste.

Una vez aumentado, el habla original y la modificada se alimentan a codificadores separados para extraer las respectivas representaciones de contenido, ritmo y tono. Después de extraer estas características, el modelo aplica un mecanismo de clasificación para asegurar que las representaciones producidas estén efectivamente separadas.

El siguiente paso implica entrenar al decodificador, que combina todos los componentes para generar la voz convertida final. A diferencia de los métodos anteriores que realizan todo el entrenamiento de una vez, este modelo entrena primero los codificadores antes de pasar al decodificador. Este método en dos pasos ayuda a mejorar los resultados.

Configuración del Experimento

El modelo fue entrenado y evaluado utilizando el corpus VCTK, un conjunto de datos bien reconocido para tareas de conversión de voz. Este conjunto de datos presenta grabaciones de numerosos hablantes de inglés, donde cada hablante ha leído varias oraciones. Las grabaciones de audio fueron procesadas para extraer ciertas características, haciéndolas listas para el entrenamiento del modelo.

Se realizó una comparación básica respecto al modelo SpeechSplit2.0, que ya está establecido como un sólido competidor en este campo. Se llevaron a cabo varias pruebas para evaluar la efectividad del modelo propuesto en comparación con esta línea base.

Métodos de Evaluación

Para evaluar a fondo qué tan bien funcionó el nuevo modelo, se utilizaron diferentes métodos de prueba. Una prueba se centró en medir la "tasa de conversión", donde los participantes escucharon muestras de habla y determinaron cuál se parecía más en tono, ritmo o timbre a la voz sintetizada. Esto puede mostrar qué tan efectivamente el modelo ha separado los componentes del habla.

Otro método de evaluación involucró una puntuación de opinión media (MOS), donde los oyentes calificaron la naturalidad del habla generada en una escala de malo a excelente. Los resultados mostraron que el nuevo modelo producía consistentemente un habla que sonaba más natural en comparación con la línea base.

La tasa de error de caracteres (CER) se utilizó en otra prueba para medir qué tan bien se preservó el contenido del habla original en el habla convertida al comparar las diferencias en precisión lingüística. Resultados más bajos de CER sugirieron un mejor rendimiento en la preservación del contenido.

Además, las características del tono se evaluaron utilizando el coeficiente de correlación de Pearson, que mide qué tan estrechamente coinciden los patrones de tono de dos muestras de habla. Esta evaluación demostró aún más la efectividad del modelo para captar los aspectos esenciales del habla.

Conclusiones

El modelo de conversión de voz propuesto muestra un gran potencial para separar el habla en sus componentes críticos de forma automática. Al usar solo dos transformaciones simples, evita las complicaciones que se encuentran en métodos anteriores que dependían de un manejo manual y ajuste extensivo.

Los resultados indican que este nuevo modelo logra un mejor rendimiento no solo en la separación de componentes del habla sino también en la generación de voces que suenan más naturales. Este trabajo representa un avance significativo en la tecnología de conversión de voz y abre nuevas posibilidades para aplicaciones en entretenimiento e interfaces impulsadas por IA.

Fuente original

Título: Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation

Resumen: Voice Conversion (VC) converts the voice of a source speech to that of a target while maintaining the source's content. Speech can be mainly decomposed into four components: content, timbre, rhythm and pitch. Unfortunately, most related works only take into account content and timbre, which results in less natural speech. Some recent works are able to disentangle speech into several components, but they require laborious bottleneck tuning or various hand-crafted features, each assumed to contain disentangled speech information. In this paper, we propose a VC model that can automatically disentangle speech into four components using only two augmentation functions, without the requirement of multiple hand-crafted features or laborious bottleneck tuning. The proposed model is straightforward yet efficient, and the empirical results demonstrate that our model can achieve a better performance than the baseline, regarding disentanglement effectiveness and speech naturalness.

Autores: Zhonghua Liu, Shijun Wang, Ning Chen

Última actualización: 2023-06-21 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.12259

Fuente PDF: https://arxiv.org/pdf/2306.12259

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares