Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Sonido# Inteligencia artificial# Aprendizaje automático# Procesado de Audio y Voz

Avances en la Evaluación de la Calidad del Habla

Un nuevo sistema predice las puntuaciones de naturalidad para el habla sintética usando métodos innovadores.

Kaito Baba, Wataru Nakata, Yuki Saito, Hiroshi Saruwatari

― 7 minilectura


Avances tecnológicos enAvances tecnológicos enla calidad del hablade la calidad del habla sintética.Nuevo sistema mejora las predicciones
Tabla de contenidos

En los últimos años, evaluar la calidad del habla sintética, como la que producen los sistemas de texto a voz, se ha convertido en un área de investigación importante. La necesidad de una evaluación precisa está aumentando a medida que la calidad de las voces sintéticas sigue mejorando. Una forma común de evaluar la calidad del habla es a través de un método llamado prueba de puntuación de opinión media (MOS). En estas pruebas, oyentes humanos puntúan la naturalidad del habla en una escala. Sin embargo, realizar estas pruebas lleva mucho tiempo y es costoso. Por eso, desarrollar sistemas automatizados que puedan predecir estas puntuaciones es valioso.

Nuestro Enfoque

Desarrollamos un sistema diseñado específicamente para el VoiceMOS Challenge 2024, que se centró en predecir puntuaciones de naturalidad para habla sintética de alta calidad. Nuestro sistema usa dos tipos de características: las basadas en señales de habla y las basadas en imágenes de Espectrogramas de habla, que son representaciones visuales de las frecuencias en el habla a lo largo del tiempo. Al entrenar nuestro sistema utilizando modelos preexistentes que ya han aprendido de grandes cantidades de datos, pudimos predecir las puntuaciones MOS con más precisión.

El Reto

El VoiceMOS Challenge requería que los participantes abordaran un problema conocido como sesgo de igualación de rango. Esto ocurre cuando los oyentes tienden a usar todo el rango de opciones de puntuación disponibles, sin importar la calidad real de las muestras de habla que están evaluando. Como resultado, las muestras de habla podrían recibir diferentes puntuaciones dependiendo de las condiciones de la prueba, lo que dificulta comparar resultados de manera justa.

Proceso de Entrenamiento

Para construir nuestro sistema, inicialmente entrenamos dos modelos separados para predecir las puntuaciones MOS usando diferentes características. Un modelo se centró únicamente en características de habla generadas por un enfoque de aprendizaje autoguiado, mientras que el otro utilizó características extraídas de espectrogramas. Después de entrenar estos modelos por separado, los ajustamos juntos para mejorar su precisión.

Nuestros esfuerzos dieron frutos, ya que logramos resultados impresionantes en el reto. Aseguramos la primera posición en siete de dieciséis métricas de evaluación y quedamos segundos en las nueve restantes.

Recolección de Datos

Dado que no se proporcionaron datos de entrenamiento oficiales para el reto, recolectamos varios conjuntos de datos de MOS disponibles públicamente para entrenar nuestros modelos. Esto incluyó datos de diferentes desafíos y pruebas de síntesis de habla, lo que nos permitió crear un sistema de predicción más robusto.

Extracción de características

Para derivar características significativas de las señales de habla, usamos dos métodos principales:

  1. Extracción de Características del Espectrograma: Convertimos las señales de audio en múltiples mel-espectrogramas usando diferentes configuraciones para capturar varias características. Cada espectrograma se trató como una imagen y se procesó a través de una red neuronal convolucional entrenada en datos de imagen. Este enfoque nos permitió aprovechar los avances en visión por computadora para el análisis de audio.

  2. Extracción de Características de Aprendizaje Autoguiado (SSL): También utilizamos un modelo SSL preentrenado, que extrae características de las formas de onda de habla en bruto. El modelo SSL captura detalles intrincados de las señales de habla, proporcionando otra capa de información para nuestras predicciones.

Fusión de Características

Después de obtener características de ambos métodos, las fusionamos para crear una entrada combinada para la predicción de MOS. Este proceso de fusión permitió que nuestro sistema obtuviera información tanto de representaciones de habla como visuales, mejorando idealmente la precisión general de la predicción.

Aprendizaje en Múltiples Etapas

Para mejorar aún más nuestro sistema, implementamos un enfoque de aprendizaje en múltiples etapas. En lugar de entrenar todas las partes del modelo al mismo tiempo, primero nos enfocamos en entrenar los extractores de características por separado. Después de que estaban bien entrenados, ajustamos el modelo combinado. Esta estrategia ayudó a preservar el conocimiento aprendido mientras adaptábamos el sistema para la tarea específica de predicción de MOS.

Métricas de Evaluación

Evaluamos nuestro modelo utilizando varias métricas que ayudan a evaluar su rendimiento en la predicción de puntuaciones MOS. Estas incluyen error cuadrático medio, coeficientes de correlación y puntuaciones de correlación de rango. Comparamos nuestro sistema con modelos de referencia para asegurarnos de que funcionara mejor en la predicción de la naturalidad del habla sintética.

Resultados

El rendimiento de nuestro sistema demostró una fuerte capacidad para predecir puntuaciones MOS para habla sintética. A través de múltiples pruebas que simularon diferentes tasas de acercamiento-representando cuán enfocados estaban las evaluaciones en los sistemas de mejor rendimiento-nuestro modelo se desempeñó consistentemente bien. La combinación de características y los métodos de entrenamiento cuidadosos contribuyeron a lograr una alta colocación en la competencia.

Importancia de los Datos

La calidad y el rango de datos utilizados para el entrenamiento jugaron un papel significativo en el rendimiento de nuestro sistema de predicción de MOS. Nuestros experimentos mostraron que tener acceso a conjuntos de datos diversos mejoraba la capacidad de predicción. Sin embargo, también era esencial evitar entrenar en conjuntos de datos que incluyeran muestras de baja calidad, ya que estas podrían afectar negativamente las predicciones del sistema.

Desafíos Enfrentados

A lo largo del proceso de desarrollo y evaluación, encontramos varios desafíos. Un problema importante fue lidiar con el sesgo de igualación de rango en las pruebas de MOS, que podría engañar las predicciones si no se abordaba adecuadamente. Nuestro sistema buscó mitigar este problema al seleccionar cuidadosamente los datos de entrenamiento e incorporar técnicas que ayudan a mantener la integridad de las evaluaciones.

Trabajo Futuro

Aunque nuestro sistema logró un éxito significativo en el VoiceMOS Challenge, aún hay espacio para mejorar. Los esfuerzos futuros se centrarán no solo en predecir la naturalidad del habla sintética, sino también en otros aspectos, como la expresión emocional y la prosodia. Al ampliar el alcance de nuestro modelo, esperamos crear una herramienta de evaluación más completa para el habla sintética.

Conclusión

En resumen, desarrollamos un sistema automatizado para predecir la naturalidad del habla sintética que aprovecha técnicas avanzadas en aprendizaje automático. Nuestro enfoque combinó características de señales de habla y espectrogramas visuales, abordó cuidadosamente los sesgos en las evaluaciones del habla y utilizó conjuntos de datos diversos para el entrenamiento. Los resultados de nuestra participación en el VoiceMOS Challenge demostraron la efectividad de nuestros métodos y subrayan el potencial para la evaluación automática de calidad en el campo de la habla sintética.

Nuestro trabajo sienta las bases para futuros avances y mejoras en las evaluaciones automáticas de calidad del habla, resaltando la importancia de la precisión y fiabilidad en la evaluación de voces sintéticas. Los conocimientos obtenidos de nuestra investigación contribuirán a refinar y mejorar las tecnologías de texto a voz, haciéndolas aún más realistas y efectivas.

Fuente original

Título: The T05 System for The VoiceMOS Challenge 2024: Transfer Learning from Deep Image Classifier to Naturalness MOS Prediction of High-Quality Synthetic Speech

Resumen: We present our system (denoted as T05) for the VoiceMOS Challenge (VMC) 2024. Our system was designed for the VMC 2024 Track 1, which focused on the accurate prediction of naturalness mean opinion score (MOS) for high-quality synthetic speech. In addition to a pretrained self-supervised learning (SSL)-based speech feature extractor, our system incorporates a pretrained image feature extractor to capture the difference of synthetic speech observed in speech spectrograms. We first separately train two MOS predictors that use either of an SSL-based or spectrogram-based feature. Then, we fine-tune the two predictors for better MOS prediction using the fusion of two extracted features. In the VMC 2024 Track 1, our T05 system achieved first place in 7 out of 16 evaluation metrics and second place in the remaining 9 metrics, with a significant difference compared to those ranked third and below. We also report the results of our ablation study to investigate essential factors of our system.

Autores: Kaito Baba, Wataru Nakata, Yuki Saito, Hiroshi Saruwatari

Última actualización: 2024-09-14 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.09305

Fuente PDF: https://arxiv.org/pdf/2409.09305

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares