Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz# Inteligencia artificial# Aprendizaje automático

Avances en la Generación de Discurso Emocional

Nuevos métodos mejoran la expresión emocional en la síntesis de voz de máquinas.

― 8 minilectura


Avance Tecnológico en elAvance Tecnológico en elDiscurso Emocionalcomunicación emocional de las máquinas.Nuevos métodos mejoran mucho la
Tabla de contenidos

El habla humana está llena de info que va más allá de solo las palabras que se dicen. Muestra detalles sobre los sentimientos y las intenciones del hablante. Esta área de investigación busca hacer que las máquinas sean capaces de producir habla que exprese emociones, lo cual tiene aplicaciones en diversos campos como atención al cliente, terapia de voz para ancianos y la interacción entre humanos y computadoras. Ajustando características del habla como el tono y la energía, se pueden añadir señales emocionales a un habla neutral o cambiar el estilo general de hablar.

La Importancia de las Características prosódicas

Las características prosódicas, que incluyen aspectos como el tono, la intensidad y el Ritmo, son clave para transmitir emociones en el habla. También ayudan a evaluar qué tan bien pueden interactuar las máquinas con los humanos. En estudios recientes, los investigadores se han centrado en aprender cómo transformar el habla de una emoción a otra mapeando estas características prosódicas.

A pesar de la importancia del ritmo en la transmisión de emociones, no muchos estudios se han enfocado en modificar el ritmo en la síntesis de habla emocional. Este vacío en la investigación probablemente existe porque el ritmo es más difícil de modelar en comparación con el tono y la intensidad. Los métodos tradicionales que dependen de grandes cantidades de datos tienen limitaciones, lo que llevó a la exploración de técnicas nuevas para mejorar la generación de habla emocional.

Los Desafíos de la Modificación del Ritmo

Modificar el ritmo del habla es complicado porque es complejo y a menudo impredecible. La mayoría de los métodos existentes que intentan cambiar el ritmo requieren grandes cantidades de datos de entrenamiento de alta calidad, lo cual puede ser difícil y costoso de recopilar. Por ejemplo, algunos métodos anteriores usaron algoritmos de distorsión de tiempo dinámico para modificar el ritmo directamente, pero estos enfoques a menudo requerían aprendizaje supervisado, que nuevamente necesita muchos datos.

Frente a estos desafíos, se ha desarrollado un nuevo método utilizando una estrategia de Aprendizaje por refuerzo. Este método busca simplificar el problema de modificar el ritmo del habla mientras también se investiga otras características prosódicas. El proceso comienza con tres tareas clave:

  1. Identificar segmentos importantes de emoción en el habla.
  2. Predecir cómo debería modificarse cada segmento.
  3. Ajustar el ritmo de estos segmentos en consecuencia.

Este enfoque no modifica cada fonema o sílaba en una expresión de habla. En cambio, se concentra solo en los segmentos más significativos identificados, usando una estrategia llamada enmascaramiento de Markov.

El Proceso de Modificación

El primer paso implica reconocer qué partes del habla transmiten información emocional significativa. Esto se hace aplicando una máscara temporal de Markov. Esta máscara identifica segmentos que pueden incluir sílabas enteras o palabras, lo cual también puede involucrar pausas cortas. Una vez encontrados estos segmentos, el sistema predice factores para la modificación como la duración, el tono y la intensidad. Estos factores predichos se aplican de manera uniforme a los segmentos identificados.

Al final, el objetivo es cambiar el tono emocional del habla alterando sus características prosódicas. Este modelo es único porque opera bajo un marco de aprendizaje completamente no supervisado, enfocándose en múltiples características prosódicas dentro de un solo sistema unificado.

Mecanismo de Modificación de Longitud

Existen varios algoritmos que permiten modificar la longitud del habla, incluyendo overlap-add y wave similarity overlap-add (WSOLA). Estos métodos funcionan dividiendo el habla de entrada en segmentos y luego duplicando o eliminando partes para estirar o acortar la duración del habla. Aunque son efectivos, los métodos tradicionales pueden introducir artefactos notables, haciendo que el habla suene poco natural.

El algoritmo WSOLA ayuda a reducir estos artefactos usando una estrategia de búsqueda para encontrar los mejores segmentos para la reconstrucción. Sin embargo, presenta un desafío, ya que no es diferenciable. Para abordar esto, se emplea una estrategia de aprendizaje por refuerzo. Esto significa que la operación WSOLA se trata como parte del entorno de interacción del agente de aprendizaje, permitiéndole aprender sin necesidad de retropropagar el error a través de WSOLA.

Prediciendo la Saliencia Emocional

El siguiente paso es predecir qué segmentos son más relevantes para transmitir emoción. Se usa una estrategia de enmascaramiento, similar a los mapas de atención, para encontrar porciones continuas de habla que impactan la percepción emocional de los humanos. Se usa un conjunto de datos específico para el entrenamiento, que etiqueta muestras de habla con cinco categorías emocionales: neutral, enojado, feliz, triste y asustado. Cada muestra de habla tiene anotaciones que indican cuán fuerte se expresa una emoción particular.

La tarea del modelo se centra en predecir puntuaciones de percepción emocional basadas en el contenido de los segmentos de habla enmascarados. La máscara ayuda a asegurar que solo se consideren segmentos significativos, permitiendo que el modelo manipule características prosódicas de manera efectiva.

Un Enfoque de Red Neuronal

Se diseña una red neuronal especial para este propósito con tres partes principales:

  1. Un extractor de características que simplifica la entrada de audio crudo.
  2. Un generador de máscara que produce la máscara basada en las características.
  3. Un predictor de saliencia que estima la importancia emocional de las porciones enmascaradas.

Esta arquitectura ayuda a estimar qué partes del habla son críticas para transmitir emociones, lo que permite modificaciones efectivas.

Factores para la Modificación Usando Aprendizaje por Refuerzo

Una vez que se identifican las porciones emocionales, la siguiente tarea es predecir cómo deberían modificarse. El método utilizado se basa en el aprendizaje por refuerzo, que ayuda a determinar una distribución sobre diferentes factores de modificación. Estos factores incluyen cambios en la duración del habla.

La estrategia implica crear clases discretas para los factores de modificación, lo que permite al agente de aprendizaje trabajar dentro de un rango definido. Basándose en el estado de los segmentos de habla y la descripción emocional objetivo, el agente puede predecir qué factor de modificación aplicar. Después de aplicar estos factores, se genera una señal de recompensa basada en qué tan bien la modificación se alinea con la emoción objetivo.

Evaluando el Sistema

La efectividad del sistema de síntesis emocional se evalúa usando tanto medidas objetivas como subjetivas. Las métricas objetivas incluyen el rendimiento en varios conjuntos de datos, donde se cuantifica la capacidad del modelo para predecir emociones con precisión. Las evaluaciones subjetivas implican que oyentes humanos determinen si las muestras de habla modificadas reflejan con precisión las emociones previstas.

Una parte significativa de los oyentes ha identificado las muestras modificadas como más representativas de las emociones objetivo. Esto indica que el modelo de aprendizaje por refuerzo puede modificar efectivamente las emociones a través de la selección de segmentos.

Intelligibilidad y sus Desafíos

Un aspecto importante que surge de modificar la prosodia del habla es su Inteligibilidad. Aunque las modificaciones buscan mejorar la expresión emocional, pueden comprometer cuán fácilmente se puede entender el habla. Cuando se analiza a través de un sistema automático de reconocimiento de voz, las muestras modificadas a menudo muestran tasas de error más altas en comparación con las muestras originales.

Esto indica que, aunque las modificaciones emocionales son exitosas, a veces pueden llevar a dificultades en el reconocimiento de fonemas. Ajustes al modelo pueden ayudar a asegurar que las mejoras emocionales no distorsionen demasiado la señal del habla, manteniendo la claridad.

Conclusión

Los avances realizados en la modificación del ritmo para la generación de habla emocional son notables. Al identificar efectivamente segmentos que son clave para transmitir emociones y emplear estrategias de aprendizaje por refuerzo, el método propuesto muestra un gran potencial. A través de pruebas tanto objetivas como subjetivas, el modelo demuestra su potencial para producir habla emocionalmente resonante. Se necesita una investigación adicional para abordar los desafíos de mantener la inteligibilidad mientras se logra profundidad emocional en la habla sintetizada. El desarrollo de esta tecnología abre nuevas posibilidades para aplicaciones en varios campos, ofreciendo una comunicación más natural y atractiva entre humanos y máquinas.

Fuente original

Título: Re-ENACT: Reinforcement Learning for Emotional Speech Generation using Actor-Critic Strategy

Resumen: In this paper, we propose the first method to modify the prosodic features of a given speech signal using actor-critic reinforcement learning strategy. Our approach uses a Bayesian framework to identify contiguous segments of importance that links segments of the given utterances to perception of emotions in humans. We train a neural network to produce the variational posterior of a collection of Bernoulli random variables; our model applies a Markov prior on it to ensure continuity. A sample from this distribution is used for downstream emotion prediction. Further, we train the neural network to predict a soft assignment over emotion categories as the target variable. In the next step, we modify the prosodic features (pitch, intensity, and rhythm) of the masked segment to increase the score of target emotion. We employ an actor-critic reinforcement learning to train the prosody modifier by discretizing the space of modifications. Further, it provides a simple solution to the problem of gradient computation through WSOLA operation for rhythm manipulation. Our experiments demonstrate that this framework changes the perceived emotion of a given speech utterance to the target. Further, we show that our unified technique is on par with state-of-the-art emotion conversion models from supervised and unsupervised domains that require pairwise training.

Autores: Ravi Shankar, Archana Venkataraman

Última actualización: 2024-08-03 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2408.01892

Fuente PDF: https://arxiv.org/pdf/2408.01892

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares