Avanzando en la Tecnología de Texto a Voz Emocional
Un nuevo método para la síntesis de voz emocional manteniendo la identidad del hablante.
― 7 minilectura
Tabla de contenidos
Recientemente, la tecnología de texto a voz que incluye emociones ha hecho grandes avances. Sin embargo, conseguir suficientes datos etiquetados para este tipo de habla es complicado, ya que no están fácilmente disponibles. Incluso cuando los datos son accesibles, controlar cuán fuertes suenan las emociones puede seguir siendo un problema. Este artículo habla de un nuevo método que permite transferir emociones de un hablante a otro mientras se mantiene intacta la identidad del hablante. Esto se logra utilizando un método matemático inteligente que manipula un espacio especial que contiene estilos de habla. Con solo unos pocos ejemplos etiquetados, podemos crear habla emocional a partir de una lectura normal sin cambiar quién es el hablante. Además, la Intensidad de la emoción se puede controlar fácilmente con un simple número, lo que lo hace amigable para el usuario.
Antecedentes
A medida que aumenta la demanda de sistemas de texto a voz más humanos, es necesario capturar cambios menores en el tono y la emoción en la salida. Las personas pueden expresar diferentes emociones al hablar, lo que lleva a conversaciones variadas y ricas. Sin embargo, recopilar datos de habla emocional no es sencillo. Grabar múltiples oraciones con una emoción consistente durante un largo período es muy complicado. Además, el etiquetado de emociones a menudo puede ser poco claro, lo que lleva a inconsistencias en los conjuntos de datos disponibles. Incluso cuando se encuentra una etiqueta correcta, la falta de control sobre la intensidad de la emoción limita cuán expresiva puede ser la habla.
Muchos de los métodos anteriores para crear habla emocional requieren etiquetas de emoción específicas para cada muestra, lo que significa que dependen en gran medida de datos etiquetados. Esta dependencia de datos etiquetados puede llevar a problemas de rendimiento, especialmente al transferir emociones entre diferentes hablantes. Incluso los esfuerzos por medir la intensidad emocional han enfrentado problemas debido a la dependencia de datos ya etiquetados, lo que puede introducir errores en la clasificación.
Método Propuesto
Para resolver estos desafíos, el nuevo método tiene como objetivo transferir y controlar la síntesis de habla emocional utilizando una representación rica de estilos de habla. El enfoque utiliza Métodos de entrenamiento especiales para separar la voz del hablante del estilo de habla, lo que facilita la transferencia de emociones entre hablantes. Todo el modelo se entrena sin utilizar etiquetas de emoción. Cuando es hora de transferir emoción, se utiliza un método matemático durante las pruebas para ajustar el estilo hacia la emoción deseada.
El método transfiere efectivamente emociones a un hablante con estilo de lectura neutral con solo unas pocas muestras etiquetadas. Además, la intensidad de las emociones se puede ajustar sin necesidad de etiquetas adicionales, lo que lo convierte en un proceso sencillo.
Trabajo Relacionado
Síntesis de Habla Emocional
En la síntesis de habla emocional, generalmente se utiliza una etiqueta de emoción como guía general. A veces, los detalles de la emoción se toman de audio o texto de referencia. La mayoría de estos métodos existentes requieren una gran cantidad de datos etiquetados y, a menudo, no producen buenos resultados al transferir emociones entre diferentes hablantes. Algunos enfoques utilizan sistemas de reconocimiento de emociones para etiquetar emociones, pero estos sistemas también necesitan datos etiquetados para aprender.
Para definir mejor no solo el tipo de emoción, sino también su intensidad, algunos métodos han propuesto controlar la fuerza de las emociones. Sin embargo, estos métodos aún requieren datos etiquetados para un entrenamiento adecuado.
Manipulación del Espacio Latente
En el área de síntesis de imágenes, los métodos que editan atributos utilizando modelos avanzados como StyleGAN son bien conocidos. Estos métodos permiten a los usuarios cambiar ciertas características modificando el espacio especial que representa estos atributos. En este trabajo, se toma un enfoque similar para crear habla emocional a partir de hablantes neutrales.
Para permitir la transferencia de emociones entre diferentes hablantes, se utiliza un método de entrenamiento para separar la información del estilo y la del hablante, lo que lleva a un espacio de estilo de habla más rico y flexible.
Arquitectura del Modelo Propuesto
El nuevo enfoque se basa en un modelo acústico establecido, que se ha ajustado para incluir codificadores separados para el estilo y el hablante. Estos codificadores trabajan juntos para producir un vector de estilo y un vector de hablante, que describen las características de la habla y de su hablante.
Entrenamiento Adversarial de Dominio
Al intentar clasificar Vectores de Estilo sin identificar al hablante, el codificador de estilo aprende a separar el estilo emocional de la voz del hablante. Esto ha demostrado ser efectivo para asegurarse de que el vector de estilo sea independiente de quién es el hablante.
Pérdida de Consistencia Cíclica
Para mantener información útil a lo largo del proceso, se emplean técnicas de entrenamiento especiales. Estos métodos aseguran que las voces de los hablantes permanezcan intactas mientras también permiten la transferencia emocional.
Controlando la Transferencia de Emoción
Antes de usar el modelo, se obtienen vectores que representan las características del hablante a partir de las expresiones de cada hablante. Estos vectores ayudan a definir cómo expresar emociones durante las pruebas. Al utilizar el vector de estilo del hablante objetivo y ajustarlo con los métodos definidos, se pueden transferir emociones con éxito.
El método utiliza un enfoque de clasificación especial para crear un límite que separe diferentes estilos de habla. Una vez que se establece este límite, se vuelve posible manipular el estilo de habla hacia una emoción deseada al agregar un cierto valor al vector de estilo.
Resumen de Experimentos
Se realizaron experimentos en inglés y coreano. Los conjuntos de datos incluyeron numerosos hablantes y una variedad de estilos emocionales. El objetivo era evaluar la efectividad del modelo propuesto en comparación con métodos tradicionales.
Evaluación de Resultados
Para evaluar la calidad de la habla generada por el nuevo método, se realizaron pruebas subjetivas. Los participantes calificaron las muestras de habla según cuán naturales sonaban, cuán similares eran al hablante original y cuán bien expresaban la emoción deseada. Los resultados mostraron que el nuevo método superó a los modelos tradicionales en todas las categorías, manteniendo un alto nivel de identidad del hablante mientras expresaba emociones apropiadas.
Control de Intensidad Emocional
Para probar cuán bien se podían controlar las emociones en la habla generada, se utilizó un modelo de reconocimiento emocional preexistente. Esta comparación mostró que el nuevo método ajustó efectivamente la intensidad emocional, demostrando una clara capacidad para influir en la expresión emocional según las preferencias del usuario.
Transferencia de Emoción con Pocos Ejemplos
En situaciones donde solo hay datos etiquetados limitados, se demostró que el nuevo método funcionaba bien incluso con solo un ejemplo etiquetado. Este aspecto destaca la eficiencia y flexibilidad del modelo, demostrando que aún puede producir resultados de calidad sin datos extensos.
Conclusión
Este artículo presenta una nueva forma de transferir y controlar la habla emocional entre diferentes hablantes mientras se preserva su identidad. Al usar técnicas de entrenamiento avanzadas y una representación especial de estilo, el método propuesto muestra resultados impresionantes en la generación de habla emocional. Los hallazgos indican que este enfoque puede mejorar significativamente la calidad de los sistemas de texto a voz sin necesidad de grandes cantidades de datos etiquetados. La investigación futura podría explorar diferentes atributos de la habla, como la edad o el género, para mejorar aún más esta tecnología.
Título: Cross-speaker Emotion Transfer by Manipulating Speech Style Latents
Resumen: In recent years, emotional text-to-speech has shown considerable progress. However, it requires a large amount of labeled data, which is not easily accessible. Even if it is possible to acquire an emotional speech dataset, there is still a limitation in controlling emotion intensity. In this work, we propose a novel method for cross-speaker emotion transfer and manipulation using vector arithmetic in latent style space. By leveraging only a few labeled samples, we generate emotional speech from reading-style speech without losing the speaker identity. Furthermore, emotion strength is readily controllable using a scalar value, providing an intuitive way for users to manipulate speech. Experimental results show the proposed method affords superior performance in terms of expressiveness, naturalness, and controllability, preserving speaker identity.
Autores: Suhee Jo, Younggun Lee, Yookyung Shin, Yeongtae Hwang, Taesu Kim
Última actualización: 2023-03-14 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.08329
Fuente PDF: https://arxiv.org/pdf/2303.08329
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.