Transformando el habla típica para quienes tienen disartria
Un nuevo método mejora la conversión de voz para personas con habla atípica.
― 5 minilectura
La Conversión de Voz es un método que nos permite cambiar la voz de alguien manteniendo las palabras originales intactas. Un área que no se ha explorado mucho es cambiar voces típicas en voces atípicas, especialmente para personas que tienen dificultades para hablar, como la disartria. La disartria puede surgir de lesiones o enfermedades que afectan cómo habla una persona. Otros factores como la pérdida auditiva o condiciones como el labio leporino también pueden llevar a un habla atípica. El habla atípica a menudo resulta en menos claridad, dificultando que los demás entiendan.
Una forma de ayudar a las personas con habla atípica es a través de la conversión de voz, que puede mejorar los sistemas de reconocimiento automático de voz (ASR). Estos sistemas a menudo luchan debido a la escasez de datos de hablantes atípicos. La conversión de voz puede crear más ejemplos de habla para entrenar a los sistemas ASR y ayudar a los cuidadores a aprender cómo entender y trabajar con individuos que tienen dificultades para hablar.
Los métodos comunes para mejorar el ASR generalmente solo cambian la velocidad del habla. Aunque este enfoque funciona hasta cierto punto, no aborda aspectos cruciales del habla desordenada como la articulación poco clara y la calidad de voz. Métodos más avanzados como enfoques de cuadro a cuadro o secuencia a secuencia pueden cambiar aspectos del habla, pero generalmente requieren muchos datos para el entrenamiento, lo cual es difícil de recopilar para voces atípicas.
Nuestro Enfoque
Para abordar estos desafíos, desarrollamos un nuevo método de conversión de voz llamado DuTa-VC. Este método se puede entrenar incluso cuando no tenemos comparaciones directas de voces típicas y atípicas. Involucra tres pasos principales:
- Un encoder que convierte la voz original en un formato independiente del hablante.
- Un decoder que reconstruye la voz objetivo a partir de este formato.
- Un vocoder que convierte la voz reconstruida en ondas sonoras reales.
Usando este enfoque, nos aseguramos de que las características únicas del hablante objetivo se preserven mientras se adapta el habla para sonar más como alguien con disartria.
Detalles del Método
Fase de Entrenamiento
En la fase de entrenamiento, nuestro objetivo es tomar la voz de un hablante típico y convertirla en una forma más atípica. Usamos un conjunto de datos llamado UASpeech, que contiene grabaciones de hablantes tanto típicos como disártricos. Cada hablante se categoriza según claridad, desde muy baja hasta alta. Los datos de entrenamiento deben ser diversos porque cada hablante tiene rasgos de habla únicos.
También usamos otro conjunto de datos llamado LibriTTs, que contiene grabaciones de muchos hablantes típicos. Estos datos nos ayudan a pre-entrenar nuestro modelo antes de afinarlo con el conjunto de datos UASpeech. Durante el entrenamiento, alineamos los cuadros de habla con las palabras que representan para obtener duraciones precisas de los fonemas.
El trabajo del encoder es generar un formato independiente del hablante que preserve el significado de lo que se dice, pero elimine detalles específicos del hablante. El encoder trabaja junto con un predictor de fonemas y un predictor de duración que ayuda a modificar el tiempo de habla para el hablante objetivo.
Fase de Inferencia
En la fase de inferencia, evaluamos qué tan bien funciona el método. Usando el modelo, predecimos los fonemas y sus duraciones para la voz original. Un módulo de modificación ajusta el tiempo de esta habla antes de que el encoder procese la voz modificada. Después de que el encoder completa su trabajo, el decoder toma el control para reconstruir la voz objetivo.
Experimentos y Evaluaciones
Realizamos pruebas usando UASpeech para ver qué tan bien funciona nuestro método. Observamos tanto medidas objetivas, como las tasas de error de palabras, como evaluaciones subjetivas para entender cómo los patólogos del habla perciben las voces sintetizadas.
Resultados
Los resultados muestran que nuestro método mejora significativamente el reconocimiento del habla disártrica. Cuando se prueba contra métodos anteriores, nuestro enfoque mostró un rendimiento consistentemente mejor en todos los grupos de inteligibilidad de hablantes. Las voces sintetizadas también fueron evaluadas por patólogos del habla expertos, quienes encontraron que nuestras voces preservaban bastante bien las características del habla disártrica natural.
En comparación con los sistemas ASR de control, los entrenados con nuestro habla sintetizada mostraron mejoras notables. Estos sistemas se entrenaron con una mezcla de habla típica y disártrica, así como las voces sintéticas generadas por DuTa-VC.
Las evaluaciones subjetivas revelaron que las voces sintetizadas puntuaron bien en representar varios rasgos disártricos. Aunque las voces sintéticas fueron percibidas como ligeramente menos naturales en comparación con voces reales, aún capturaron elementos importantes de la disartria de cerca.
Conclusión
En resumen, nuestro nuevo método de conversión de voz puede transformar de manera efectiva el habla típica en habla atípica, convirtiéndolo en una herramienta valiosa tanto para el reconocimiento del habla como para la formación de cuidadores. La capacidad de mantener la identidad del hablante mientras se alteran las características del habla puede ayudar a crear un mejor apoyo para las personas con dificultades del habla.
En trabajos futuros, planeamos mejorar nuestro enfoque para manejar mejor oraciones completas en lugar de solo palabras. También planeamos investigar métodos más precisos para ajustar la duración de cada fonema. Al mejorar nuestro modelo, esperamos crear un habla aún más precisa y natural para aquellos con patrones de habla atípicos.
En general, DuTa-VC representa un paso significativo hacia adelante en las técnicas de conversión de voz, especialmente en abordar los desafíos asociados con el habla atípica.
Título: DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic Model
Resumen: We present a novel typical-to-atypical voice conversion approach (DuTa-VC), which (i) can be trained with nonparallel data (ii) first introduces diffusion probabilistic model (iii) preserves the target speaker identity (iv) is aware of the phoneme duration of the target speaker. DuTa-VC consists of three parts: an encoder transforms the source mel-spectrogram into a duration-modified speaker-independent mel-spectrogram, a decoder performs the reverse diffusion to generate the target mel-spectrogram, and a vocoder is applied to reconstruct the waveform. Objective evaluations conducted on the UASpeech show that DuTa-VC is able to capture severity characteristics of dysarthric speech, reserves speaker identity, and significantly improves dysarthric speech recognition as a data augmentation. Subjective evaluations by two expert speech pathologists validate that DuTa-VC can preserve the severity and type of dysarthria of the target speakers in the synthesized speech.
Autores: Helin Wang, Thomas Thebaud, Jesus Villalba, Myra Sydnor, Becky Lammers, Najim Dehak, Laureano Moro-Velazquez
Última actualización: 2023-06-18 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.10588
Fuente PDF: https://arxiv.org/pdf/2306.10588
Licencia: https://creativecommons.org/publicdomain/zero/1.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://anonymous.4open.science/w/DuTa-VC-Demo-3D4F/
- https://github.com/CorentinJ/Real-Time-Voice-Cloning
- https://github.com/jik876/hifi-gan
- https://github.com/jaywalnut310/glow-tts
- https://github.com/lucidrains/denoising-diffusion-pytorch
- https://github.com/espnet/espnet/tree/master/egs2/TEMPLATE/asr1
- https://wanghelin1997.github.io/DuTa-VC-Demo/
- https://github.com/WangHelin1997/DuTa-VC