Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz# Interacción Persona-Ordenador# Aprendizaje automático

Avances en la tecnología de conversión de emociones en el habla

Un nuevo enfoque para cambiar emociones en el habla en medio de ruido del mundo real.

― 7 minilectura


Transformando emocionesTransformando emocionesen el hablade discursos emocionales realistas.Métodos innovadores para la generación
Tabla de contenidos

La conversión de emociones en el habla es el proceso de cambiar la emoción expresada en palabras habladas mientras se mantiene el significado original y la identidad del hablante. Esta tecnología es importante para crear interacciones más naturales entre humanos y máquinas, especialmente en áreas donde la expresión emocional es crucial. Aún así, lograr una generación realista de habla emocional sigue siendo un desafío.

Este artículo se centra en la conversión de emociones en el habla en condiciones ruidosas del mundo real donde no hay datos de referencia disponibles. En términos más simples, estamos viendo cómo cambiar la emoción en el habla sin tener un ejemplo perfecto del cual trabajar. Esto crea dificultades porque tenemos que separar el habla en diferentes partes: qué emociones se están expresando, quién está hablando y qué dicen las palabras.

Metodología

En este enfoque, usamos redes especiales que nos ayudan a descomponer el habla en sus partes: las palabras, la voz del hablante y el tono emocional. Después de separar estos elementos, utilizamos un sistema llamado HiFiGAN para recombinarlos en un nuevo fragmento de habla que refleje la emoción deseada.

Para manejar cuán fuertemente se transmite la nueva emoción, nos enfocamos en un aspecto específico de la emoción llamado "activación". Esto se refiere a cuán emocionada o tranquila se siente una persona, en lugar de etiquetar la emoción como feliz o triste. Al hacer esto, podemos controlar de manera más efectiva cuán intensa suena la emoción en la salida final de habla.

Entrenamiento del Sistema

El proceso de entrenamiento implica usar un gran conjunto de datos de podcasts hablados donde se etiquetan las emociones. Nos centramos específicamente en cuán activada o tranquila suena la habla, en lugar de simplemente categorizar emociones. Este enfoque en escalas continuas nos permite manejar la intensidad emocional de manera más efectiva.

Para entrenar nuestro sistema, comenzamos con el audio de palabras habladas, que descomponemos en sus componentes. Usamos diferentes tipos de codificadores para este proceso.

  1. Codificador Léxico: Esta parte se encarga de las palabras habladas. Toma el audio en bruto y lo procesa para extraer los detalles fonéticos.
  2. Codificador del Hablante: Esta parte identifica quién está hablando analizando las cualidades de su voz.
  3. Codificador de Emoción: En lugar de depender de etiquetas categóricas, esta parte trabaja con una puntuación simple que indica cuán activada está la habla.

Después de procesar con estos codificadores, tenemos representaciones distintas para las palabras, la voz del hablante y el tono emocional.

A continuación, alimentamos estas representaciones al HiFiGAN, una red neuronal que genera habla de alta calidad. Utiliza los componentes separados para crear una nueva salida de audio que refleje el tono emocional deseado mientras retiene las palabras originales y la voz del hablante.

Desafíos con los Datos

La mayoría de los conjuntos de datos utilizados para entrenar sistemas de conversión de emociones en el habla se crean en ambientes controlados donde actores leen líneas con emociones específicas. Estos pueden ser muy diferentes del habla espontánea, que es más desordenada y compleja.

En situaciones del mundo real, no siempre es factible recopilar conjuntos de datos paralelos donde cada línea hablada tenga un par emocional correspondiente. Por esto, nos enfocamos en datos no paralelos. Los modelos que pueden trabajar con este tipo de datos son más flexibles ya que no dependen de pares emocionales exactos.

Sin embargo, los datos no paralelos también presentan desafíos. Necesitamos asegurarnos de que el sistema aún pueda separar y ensamblar los componentes emocionales, léxicos y del hablante sin tener un ejemplo directo para trabajar.

Aprendizaje Auto-Supervisado

Para abordar los desafíos de trabajar con datos no paralelos, utilizamos un método llamado aprendizaje auto-supervisado (SSL). Esta técnica utiliza grandes cantidades de datos no etiquetados para mejorar el proceso de entrenamiento. Al hacer esto, podemos entender mejor los diversos elementos del habla involucrados en la expresión emocional y mejorar la calidad del habla generada.

El SSL ha demostrado ser efectivo en tareas relacionadas, como reconocer emociones en el habla y convertir voces de un hablante a otro. Al aplicar este método, esperamos obtener una mejor visión de cómo separar y reconstruir los elementos del habla.

Proceso de Resíntesis

Una vez que tenemos nuestros componentes separados, el siguiente paso es recombinarlos en una salida de habla que suene natural. Aquí es donde HiFiGAN juega un papel crucial. Toma las partes separadas y genera audio de alta calidad que refleja la emoción pretendida.

El HiFiGAN utiliza una combinación de técnicas para asegurarse de que la salida final suene realista. Esto incluye ajustar el tono y otras cualidades vocales para que coincidan con el tono emocional que buscamos.

En nuestro entrenamiento, también evaluamos qué tan bien el sistema genera habla emocionalmente expresiva. Observamos cuán cerca está la habla generada de coincidir con el contenido emocional pretendido y cuán natural suena la voz.

Pruebas y Validación

Para medir la efectividad de nuestro enfoque, realizamos pruebas usando un conjunto de datos específico que contiene audio de podcasts. Las emociones en este conjunto de datos están etiquetadas según la activación, valencia y dominancia. Sin embargo, para nuestro estudio, nos centramos principalmente en la activación.

Durante las pruebas, evaluamos tanto qué tan bien se convierte el contenido emocional como cuán natural suena la salida. Comparamos diferentes versiones de nuestro modelo para ver qué combinación de componentes produce los mejores resultados.

Encontramos que usar una combinación de todas las representaciones-palabras, identidad del hablante y emociones-conduce a la habla que suena más natural. Esto sugiere que condicionar el HiFiGAN en los tres aspectos mejora tanto la expresión emocional como el realismo de la salida.

Resultados y Observaciones

Cuando analizamos los resultados de nuestros experimentos, vemos varias tendencias. Primero, observamos que los segmentos de habla más grandes tienden a resultar en mejor conversión emocional. Esto es probable porque los segmentos más largos ofrecen más contexto para que el modelo trabaje.

Además, descubrimos que nuestro método funciona mejor con niveles de activación emocional moderados en comparación con los extremos. Esto significa que, aunque el sistema puede convertir emociones de manera efectiva, tiene más éxito al lidiar con emociones que no están en los extremos de la escala.

Además de evaluaciones cuantitativas como errores cuadrados medios y puntuaciones de naturalidad, también realizamos análisis cualitativos. Al examinar muestras de audio y visualizar los espectrogramas, podemos entender qué tan bien se representan los tonos emocionales.

Por ejemplo, al sintetizar habla con alta activación, notamos que el tono tiende a ser más alto y variable que en la habla de baja activación. Esto se alinea con ideas existentes que sugieren que las personas hablan con un tono más alto cuando están emocionadas o entusiasmadas.

Conclusión

En resumen, nuestro trabajo resalta el potencial de la conversión de emociones en el habla dentro de contextos del mundo real. Al enfocarnos en separar los componentes emocionales, léxicos y del hablante del habla, podemos generar expresiones emocionales más dinámicas y realistas a través del habla sintetizada.

Los resultados indican que nuestra metodología mejora la naturalidad y precisión emocional de la salida. Lograr esto de manera no supervisada, especialmente con datos del mundo real, es un paso importante hacia adelante.

A medida que la tecnología sigue avanzando, las aplicaciones de conversión de emociones en el habla probablemente se expandirán, allanando el camino para interacciones humano-máquina más conscientes emocionalmente. Los hallazgos de esta investigación pueden servir como base para futuros estudios que busquen refinar y mejorar la expresividad emocional del habla sintetizada.

Fuente original

Título: In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised Representations and Neural Vocoder-based Resynthesis

Resumen: Speech emotion conversion aims to convert the expressed emotion of a spoken utterance to a target emotion while preserving the lexical information and the speaker's identity. In this work, we specifically focus on in-the-wild emotion conversion where parallel data does not exist, and the problem of disentangling lexical, speaker, and emotion information arises. In this paper, we introduce a methodology that uses self-supervised networks to disentangle the lexical, speaker, and emotional content of the utterance, and subsequently uses a HiFiGAN vocoder to resynthesise the disentangled representations to a speech signal of the targeted emotion. For better representation and to achieve emotion intensity control, we specifically focus on the aro\-usal dimension of continuous representations, as opposed to performing emotion conversion on categorical representations. We test our methodology on the large in-the-wild MSP-Podcast dataset. Results reveal that the proposed approach is aptly conditioned on the emotional content of input speech and is capable of synthesising natural-sounding speech for a target emotion. Results further reveal that the methodology better synthesises speech for mid-scale arousal (2 to 6) than for extreme arousal (1 and 7).

Autores: Navin Raj Prabhu, Nale Lehmann-Willenbrock, Timo Gerkmann

Última actualización: 2023-06-02 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.01916

Fuente PDF: https://arxiv.org/pdf/2306.01916

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares