Avances en la tecnología de conversión de voz electrolaríngea
Nuevos métodos mejoran la claridad del habla para usuarios de electrolaringes.
― 7 minilectura
Tabla de contenidos
Las personas que pierden su caja de voz por cáncer de garganta a menudo tienen problemas para hablar. Para estos pacientes, se recomienda frecuentemente un dispositivo llamado electrolaringe. Este dispositivo crea una voz que suena diferente a la voz humana natural y a veces puede sonar poco clara o distorsionada. La calidad del habla producida por una electrolaringe generalmente no es muy buena, lo que dificulta que los demás entiendan.
El Problema con el Habla Electrolaringea
Cuando alguien pierde su caja de voz, no puede producir sonido de la misma manera que solía hacerlo. La electrolaringe ayuda generando sonido, pero ese sonido a menudo trae ruido mecánico y carece de claridad. Esto representa un desafío para quienes dependen de ella para comunicarse efectivamente. Existen técnicas llamadas Conversión de Voz que buscan cambiar esta habla electrolaringea (EL) a algo que suene más natural, sin cambiar el significado de lo que se dice.
Técnicas de Conversión de Voz
Las técnicas de conversión de voz permiten transformar el habla EL para que se asemeje al habla normal. El objetivo principal es tomar el habla producida por la electrolaringe y convertirla en una forma que sea más fácil de entender para los demás. La conversión de voz se puede dividir en dos tipos principales: técnicas basadas en marcos y técnicas de secuencia a secuencia.
Técnicas Basadas en Marcos
Las técnicas basadas en marcos implican varios pasos. Primero, se extraen características tanto del habla EL como del habla normal. Luego, un modelo de conversión cambia las características del habla EL por las de habla normal. Finalmente, esta información se utiliza para crear sonidos de habla reales a través de un sistema llamado vocoder. Tradicionalmente, los métodos usaban modelos más simples para esta conversión, pero los avances recientes utilizan aprendizaje profundo para obtener mejores resultados.
Técnicas de Secuencia a Secuencia
Los métodos de secuencia a secuencia utilizan un enfoque diferente al evitar problemas que pueden surgir al alinear marcos en los datos. Sin embargo, estos sistemas suelen requerir mucho poder computacional, lo que los hace menos prácticos para el uso diario.
El Sistema Propuesto
En nuestro enfoque, desarrollamos un nuevo sistema de conversión de voz electrolaringea (ELVC) que utiliza varias características. Este sistema se enfoca en combinar características de sonido tradicionales con técnicas modernas de aprendizaje autoguiado para crear mejores resultados. Nuestro método incluye etapas distintas para procesar y convertir el habla de manera efectiva.
Extracción de características
Comenzamos con la extracción de características en dos partes. La primera parte incluye características de sonido tradicionales como el espectro mel y coeficientes cepstrales. La segunda parte utiliza características de SSL, que son representaciones avanzadas derivadas de un modelo entrenado. Estos dos tipos de características le dan al sistema la información necesaria para mejorar la conversión de voz.
Proceso de Conversión de Características en Dos Etapas
Debido a la cantidad limitada de datos EL disponibles, proponemos un proceso de conversión de características en dos etapas. La primera etapa implica entrenar un modelo con datos de habla normal. Este modelo sirve como base para la conversión. En la segunda etapa, ajustamos este modelo usando datos de habla EL. Este método aprovecha los datos de habla normal disponibles para mejorar los resultados de conversión para los limitados datos EL.
Entrenamiento del Modelo de Conversión de Habla Normal
En esta etapa inicial, entrenamos nuestro modelo usando grabaciones de varios hablantes. Usando una arquitectura específica que permite manejar múltiples características de sonido, probamos diferentes combinaciones de características tradicionales y avanzadas para lograr mejor precisión.
Alineación del Habla y Entrenamiento del Modelo ELVC
Luego, alineamos el habla EL y normal etiquetando segmentos del habla de antemano. Aplicamos un algoritmo diseñado para minimizar errores al mapear los dos tipos de habla. Con los datos alineados, entrenamos nuestro modelo alimentándolo con características de ambas fuentes de habla. Este entrenamiento ayuda a reducir las diferencias entre los dos tipos de habla, haciendo que la conversión sea más precisa.
Generación de Audio
Una vez que las características son convertidas, tenemos que producir un archivo de audio real. Este proceso incluye entrenar el vocoder usando las nuevas características de habla. Seleccionamos el vocoder Parallel WaveGAN por su capacidad de generar audio de alta calidad. Comparamos el rendimiento de diferentes características durante esta etapa y descubrimos que usar una combinación de características dio la mejor calidad de audio.
Configuración Experimental
Configuramos un experimento para reunir datos de habla EL haciendo que un profesional entrenado imite el habla de un paciente usando una electrolaringe. Se hicieron varias grabaciones para asegurar un conjunto de datos diverso. Para los datos de habla normal, seleccionamos varios hablantes para leer guiones específicos. Todas las grabaciones se realizaron con una tasa de muestreo consistente para mantener la calidad durante la extracción de características.
Métricas de Evaluación
Para evaluar el rendimiento de nuestro sistema, usamos varias métricas diferentes. Estas incluyen medir la distorsión del sonido, la precisión del tono y la correlación de características tonales. También realizamos pruebas de escucha para evaluar qué tan comprensible y clara era el audio generado. Los participantes evaluaron el audio en una escala del uno al cinco, donde uno significaba que era difícil de entender y cinco que era claro y fácil de entender.
Resultados de los Experimentos
Rendimiento del Algoritmo de Aligeramiento de Tiempo Dinámico
Inicialmente, probamos cuán efectivamente nuestro método alineaba las diferentes características del habla. Nuestros resultados mostraron que usar características avanzadas proporcionaba mayor precisión en la alineación del habla EL y normal. Los hallazgos indicaron que las características avanzadas funcionaron mejor para captar detalles importantes del habla.
Comparación de Vocoders
A continuación, evaluamos el rendimiento de nuestros vocoders entrenados con varias características. Los resultados confirmaron que la combinación de características tradicionales y avanzadas daba la mejor calidad de audio. Esto sugería los beneficios de usar características diversas para obtener mejores resultados en la generación de audio.
Resultados Generales del Sistema ELVC
Cuando comparamos el rendimiento general de diferentes configuraciones de nuestro sistema, encontramos que la incorporación de características avanzadas mejoró significativamente la efectividad de nuestra tarea de conversión de voz. Ajustar el vocoder mejoró aún más su capacidad de producir audio más claro.
Prueba de Escucha Subjetiva
Para confirmar nuestros hallazgos, realizamos pruebas de escucha subjetivas. Se pidió a los participantes que evaluaran el audio según su comprensión y claridad. Los resultados indicaron que nuestro sistema, especialmente cuando se mejoró con características avanzadas, producía audio que era más fácil de entender y de mayor calidad que el generado por métodos anteriores.
Conclusión
En nuestro estudio, introdujimos un enfoque nuevo para mejorar el habla generada por dispositivos electrolaringe. Al combinar características de sonido tradicionales con representaciones avanzadas, logramos mejoras significativas en la conversión de voz. La evaluación mostró que nuestro método superó las técnicas anteriores, proporcionando un resultado más claro y comprensible para los usuarios. Mirando hacia el futuro, buscamos profundizar en cómo diferentes modelos y características pueden mejorar aún más esta tecnología. En general, nuestro trabajo resalta el potencial de las técnicas avanzadas de generación de habla para marcar una verdadera diferencia en la vida de las personas que dependen de dispositivos como la electrolaringe para comunicarse.
Título: Mandarin Electrolaryngeal Speech Voice Conversion using Cross-domain Features
Resumen: Patients who have had their entire larynx removed, including the vocal folds, owing to throat cancer may experience difficulties in speaking. In such cases, electrolarynx devices are often prescribed to produce speech, which is commonly referred to as electrolaryngeal speech (EL speech). However, the quality and intelligibility of EL speech are poor. To address this problem, EL voice conversion (ELVC) is a method used to improve the intelligibility and quality of EL speech. In this paper, we propose a novel ELVC system that incorporates cross-domain features, specifically spectral features and self-supervised learning (SSL) embeddings. The experimental results show that applying cross-domain features can notably improve the conversion performance for the ELVC task compared with utilizing only traditional spectral features.
Autores: Hsin-Hao Chen, Yung-Lun Chien, Ming-Chi Yen, Shu-Wei Tsai, Yu Tsao, Tai-shih Chi, Hsin-Min Wang
Última actualización: 2023-06-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.06653
Fuente PDF: https://arxiv.org/pdf/2306.06653
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.