Transformando los movimientos de la lengua en sonidos del habla
Este estudio convierte datos de MRI de la lengua en audio de voz real.
― 5 minilectura
Tabla de contenidos
- Entendiendo el Rol de la Lengua en el Habla
- El Uso de la Factorización de Matrices No Negativas
- Desafíos en la Síntesis de Audio
- Un Nuevo Enfoque para la Síntesis de Audio
- El Transformador de Luz Plástica
- Aumentando el Realismo
- Probando el Sistema
- Resultados e Insights
- Medidas Estadísticas
- Conclusión
- Fuente original
- Enlaces de referencia
El habla es posible gracias a los movimientos complejos de la lengua, que tiene muchas partes pequeñas trabajando juntas. Usando escáneres MRI especiales llamados MRI etiquetados, podemos ver cómo se mueven estas partes y cómo ayudan a hablar. Este estudio se enfoca en convertir la información de estos escáneres MRI en sonido que se asemeje al habla real.
Entendiendo el Rol de la Lengua en el Habla
La lengua tiene una estructura tridimensional con diferentes secciones que cumplen funciones específicas. Estas secciones ayudan a moldear los sonidos que producimos al hablar. Cuando usamos MRI etiquetados para capturar estos movimientos, podemos observar cómo están coordinados. Al estudiar estos movimientos, podemos aprender cómo funciona la lengua en tiempo real para crear sonidos.
Factorización de Matrices No Negativas
El Uso de laPara analizar los datos de la MRI etiquetada, aplicamos un método llamado Factorización de Matrices No Negativas (NMF). Este método ayuda a desglosar los datos de movimiento en partes más pequeñas, o "bloques de construcción". Nos permite crear un mapa que muestra cómo se ponderan estos bloques, es decir, cuánto contribuye cada sección de la lengua a los sonidos del habla. Investigar cómo se relacionan estos mapas con los sonidos reales puede proporcionar información valiosa sobre cómo producimos el habla.
Desafíos en la Síntesis de Audio
Convertir los datos de amplios mapas 2D en ondas sonoras puede ser complicado. Hay varios desafíos que superar:
- Diferentes Representaciones: Los datos en los mapas de ponderación y las ondas de audio son inherentemente diferentes, lo que complica el proceso de traducción.
- Variaciones de Tamaño: Los mapas de entrada vienen en muchos tamaños, mientras que la salida de audio necesita ser de un tamaño fijo. Esto dificulta las comparaciones directas y el procesamiento.
- Entradas Largas: El tamaño grande de los mapas de ponderación puede complicar el análisis. Los métodos tradicionales luchan para modelar conexiones en estos datos de manera efectiva.
- Datos Limitados: Tener solo un pequeño número de ejemplos hace que sea más difícil para las máquinas aprender con precisión.
Un Nuevo Enfoque para la Síntesis de Audio
Para abordar estos problemas, desarrollamos un nuevo sistema que convierte mapas de ponderación 2D en Espectrogramas, que son representaciones visuales de señales de audio. Nuestro sistema tiene dos partes principales: un codificador Transformador de Luz Plástica (PLT) y un decodificador de Red Neuronal Convolucional 2D (CNN).
El Transformador de Luz Plástica
El PLT es una herramienta sofisticada diseñada para manejar grandes cantidades de datos de los escáneres MRI mientras mantiene los detalles de los movimientos. Captura efectivamente las relaciones entre las diferentes secciones de la lengua, permitiendo mapeos precisos. Una de las características clave de este PLT es su capacidad para trabajar con entradas de tamaños variables y producir salidas de un tamaño consistente, sin perder información importante.
Aumentando el Realismo
Para hacer que el audio generado suene más realista, implementamos técnicas adicionales durante el entrenamiento. Nos aseguramos de que los sonidos sintetizados fueran consistentes entre sí y usamos métodos para mejorar la calidad de la salida. Al aplicar estas técnicas, pudimos producir ondas sonoras que coincidían estrechamente con la habla real.
Probando el Sistema
Para evaluar nuestro sistema, recolectamos datos emparejados de un grupo diverso de participantes. Estos incluían secuencias MRI y grabaciones de ellos hablando frases específicas. Después de procesar estos datos, comparamos la salida de nuestro sistema con las grabaciones de audio originales para ver qué tan bien funcionaba.
Resultados e Insights
Nuestros resultados mostraron que nuestro enfoque superó significativamente a los modelos tradicionales. El audio sintetizado estaba mucho más cerca de la calidad del habla real. Además, descubrimos que nuestro sistema mantenía estabilidad durante el entrenamiento, lo que es esencial para desarrollar un modelo confiable.
Medidas Estadísticas
Usamos varias herramientas estadísticas para medir qué tan bien nuestro audio sintetizado coincidía con las grabaciones reales. Estas incluyeron el coeficiente de correlación de Pearson y evaluaciones de calidad del habla. Los resultados indicaron que nuestro método producía audio de mayor calidad en comparación con otros modelos.
Conclusión
Esta investigación demuestra un método exitoso para convertir datos de movimiento de la lengua capturados a través de MRI en audio inteligible. Al usar un marco novedoso que puede gestionar diferentes tamaños de entrada y producir salida consistente, abrimos nuevos caminos para entender la conexión entre los movimientos de la lengua y los sonidos del habla. Este trabajo no solo avanza la tecnología de síntesis de habla, sino que también tiene el potencial de ayudar a clínicos e investigadores a abordar trastornos relacionados con el habla, mejorando las estrategias de tratamiento.
En resumen, nuestro enfoque innovador para sintetizar habla a partir de datos de MRI allana el camino para futuras investigaciones y aplicaciones en tecnología del habla, contribuyendo en última instancia a una mejor comprensión de la comunicación humana.
Título: Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix Factorization via Plastic Transformer
Resumen: The tongue's intricate 3D structure, comprising localized functional units, plays a crucial role in the production of speech. When measured using tagged MRI, these functional units exhibit cohesive displacements and derived quantities that facilitate the complex process of speech production. Non-negative matrix factorization-based approaches have been shown to estimate the functional units through motion features, yielding a set of building blocks and a corresponding weighting map. Investigating the link between weighting maps and speech acoustics can offer significant insights into the intricate process of speech production. To this end, in this work, we utilize two-dimensional spectrograms as a proxy representation, and develop an end-to-end deep learning framework for translating weighting maps to their corresponding audio waveforms. Our proposed plastic light transformer (PLT) framework is based on directional product relative position bias and single-level spatial pyramid pooling, thus enabling flexible processing of weighting maps with variable size to fixed-size spectrograms, without input information loss or dimension expansion. Additionally, our PLT framework efficiently models the global correlation of wide matrix input. To improve the realism of our generated spectrograms with relatively limited training samples, we apply pair-wise utterance consistency with Maximum Mean Discrepancy constraint and adversarial training. Experimental results on a dataset of 29 subjects speaking two utterances demonstrated that our framework is able to synthesize speech audio waveforms from weighting maps, outperforming conventional convolution and transformer models.
Autores: Xiaofeng Liu, Fangxu Xing, Maureen Stone, Jiachen Zhuo, Sidney Fels, Jerry L. Prince, Georges El Fakhri, Jonghye Woo
Última actualización: 2023-09-25 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.14586
Fuente PDF: https://arxiv.org/pdf/2309.14586
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.