Usando Audio Deepfake para Mejores Sistemas de Transcripción
Investigando audio deepfake para mejorar modelos de transcripción para idiomas menos comunes.
― 10 minilectura
Tabla de contenidos
- La Necesidad de Datos de Audio
- Técnicas de Augmentación de Datos
- El Objetivo
- Configuración del Experimento
- Trabajo Relacionado
- El Proceso de Clonación de Voz
- Preparando el Conjunto de Datos
- Preprocesamiento de Datos
- Entrenando el Clonador de Voz
- Entrenando el Sistema de Transcripción
- Evaluación de Resultados
- Los Desafíos Enfrentados
- Conclusiones y Direcciones Futuras
- Fuente original
- Enlaces de referencia
Obtener datos de audio de alta calidad es clave para entrenar sistemas que convierten palabras habladas en texto. Muchos sistemas funcionan bien en idiomas populares, como el inglés, pero es difícil encontrar suficientes buenos datos para lenguas menos comunes. Reunir estos datos suele llevar mucho tiempo y dinero. Para solucionar este problema, los investigadores están investigando la augmentación de datos, que es una forma de crear nuevos datos a partir de datos existentes. Este artículo explora un método específico de augmentación de datos usando tecnología de audio deepfake para mejorar sistemas de transcripción.
La Necesidad de Datos de Audio
Para entrenar sistemas que convierten audio en texto, necesitamos una gran cantidad de datos etiquetados. Esto significa que requerimos clips de audio junto con sus versiones escritas. Estos textos escritos deberían ser creados por humanos para evitar errores que otros sistemas podrían introducir. Un buen sistema de transcripción debería funcionar de manera consistente, incluso cuando el audio tenga variaciones como diferentes acentos o ruido. Sin embargo, para enseñar efectivamente a estos sistemas, necesitamos datos diversos y abundantes.
Encontrar este tipo de datos para lenguas que no se hablan mucho es a menudo complicado. Reunir un gran conjunto de datos suele costar mucho dinero y tomar un tiempo considerable. Además, generalmente requiere de muchas personas entrenadas para asegurar que las transcripciones sean precisas. Para mejorar el proceso, los investigadores están usando técnicas de augmentación de datos, que ayudan a crear nuevas muestras de datos de manera rápida y a un menor costo.
Técnicas de Augmentación de Datos
Existen muchos métodos de augmentación de datos disponibles. Sin embargo, la mayoría solo pueden hacer cambios menores en el audio existente. Por ejemplo, algunas técnicas cambian la velocidad del audio o añaden ruido de fondo. Aunque estos métodos ayudan a mejorar los modelos en cierta medida, a menudo no manejan bien las variaciones en los acentos. Para que un sistema de transcripción funcione efectivamente en diferentes acentos, debe ser entrenado con muestras de audio diversas que incluyan varios acentos.
Este trabajo se centra en un nuevo método de augmentación de datos que utiliza tecnología de audio deepfake. El audio deepfake puede imitar la voz de personas específicas generando audio que suena como si estuvieran hablando. Este método nos permite generar nuevos clips de audio a partir de la voz del hablante original manteniendo sus características, como el acento.
El Objetivo
El objetivo principal es examinar si usar audio deepfake puede producir mejores resultados al entrenar sistemas que convierten discurso en texto. Se ha diseñado un marco para implementar esta técnica. El marco requiere un modelo que pueda clonar voces y un pequeño conjunto de datos existente. Al usar este nuevo método, evaluaremos cómo se desempeñan los sistemas de transcripción.
Configuración del Experimento
Para validar este marco, se llevaron a cabo varias pruebas usando dos escenarios diferentes. El primer escenario implicó usar un clonador de voz con modelos preexistentes. Este setup tenía como objetivo generar archivos de audio que podrían ser usados para entrenar un sistema de transcripción bajo diversas condiciones. Cada resultado fue analizado para ver si la calidad de las transcripciones mejoró o disminuyó.
En el segundo escenario, se aplicó entrenamiento adicional para mejorar los modelos de clonación. Este escenario evaluó si los cambios realizados en el clonador de voz podían mejorar la calidad del audio y, consecuentemente, mejorar los resultados de la transcripción.
Trabajo Relacionado
A lo largo de los años, se han introducido múltiples métodos para aumentar datos. Algunos métodos implican cambiar el audio de maneras que aún mantienen el sonido original reconocible, mientras que otros se centran en generar audio completamente nuevo usando tecnología de texto a voz.
Una técnica común es ajustar la velocidad de las grabaciones de audio. Este método produce nuevos clips de audio que mantienen el mismo contenido pero a diferentes velocidades. Otro método utiliza modificaciones en el espectrograma de audio, que representa el audio de forma visual, aplicando máscaras a partes de él para crear variaciones. Varios estudios han demostrado que estas técnicas pueden mejorar la calidad de la transcripción.
Sin embargo, el método explorado en este trabajo va más allá de estas técnicas tradicionales. Al usar Clonación de voz, creamos nuevo audio que se asemeja estrechamente al hablante original, manteniendo así características únicas como el acento, lo que lo hace más adecuado para entrenar sistemas de transcripción.
El Proceso de Clonación de Voz
Para esta investigación, se eligió un modelo de clonación de voz particular. Este modelo puede generar audio a partir de solo unos segundos de audio de referencia. Esta característica lo hace especialmente útil para aumentar conjuntos de datos, ya que permite la creación de clips de audio diversos usando una entrada mínima.
El modelo de clonación de voz consta de tres partes:
- Codificador: Esta parte toma unos segundos de audio y lo convierte en una representación digital.
- Sintetizador: Este componente genera un nuevo clip de audio basado en la representación del codificador y un texto dado.
- Vocoder: Esta parte convierte los datos sintetizados en un formato de audio audible.
Juntas, estas partes trabajan de manera eficiente para producir nuevo audio que mantiene las características de la voz original.
Preparando el Conjunto de Datos
Para realizar los experimentos, se necesitaba un conjunto de datos que contenga clips de audio junto con sus transcripciones. El conjunto de datos también debería incluir audio hablado en inglés por individuos con el mismo acento. Para cumplir con estos requisitos, se seleccionó un conjunto de datos específico, que consiste en audio de videos educativos producidos por hablantes indios.
El conjunto de datos contiene millones de muestras de audio, con cada muestra durando unos segundos. Sin embargo, dado que el conjunto de datos no estaba anotado manualmente, se creó una muestra más pequeña y de alta calidad, llamada el "Pure-Set". Este Pure-Set consiste en 1,000 audios, todos transcritos manualmente para asegurar su precisión.
Preprocesamiento de Datos
Para preparar el conjunto de datos, se utilizaron scripts para asegurar consistencia y calidad en los archivos de audio. Los archivos de audio fueron normalizados, ajustados a una frecuencia específica y se eliminó el ruido. Este proceso aseguró que los datos fueran de alta calidad antes de ser utilizados para experimentos posteriores. Además, el conjunto de datos se dividió en subconjuntos para fines de entrenamiento y validación.
Se crearon dos scripts separados para los diferentes componentes del proyecto. Un script se encargó de crear archivos CSV que seguían el formato requerido por el modelo de transcripción, mientras que el otro organizó los archivos de audio para el proceso de clonación de voz.
Entrenando el Clonador de Voz
Una vez que el conjunto de datos fue limpiado y preparado, se utilizó para entrenar los modelos de clonación de voz. El entrenamiento implicó varios pasos, siguiendo un conjunto específico de instrucciones delineadas en el marco de clonación de voz. Este entrenamiento tuvo como objetivo mejorar la calidad de las muestras de audio generadas por el clonador de voz.
Después de que el entrenamiento se completó, se generaron nuevas muestras de audio usando los modelos entrenados. Estas nuevas muestras fueron luego utilizadas para entrenar el sistema de transcripción.
Entrenando el Sistema de Transcripción
Después de preparar las muestras de audio, el siguiente paso involucró entrenar el sistema de transcripción usando estos nuevos archivos de audio. Este proceso se llevó a cabo usando el modelo DeepSpeech, que es conocido por su efectividad en convertir discurso a texto. Los archivos de audio generados por el clonador de voz fueron analizados para identificar su calidad y el desempeño del sistema de transcripción.
Una vez que el entrenamiento se completó, el modelo fue probado comparando su salida con las transcripciones originales. Se calculó la Tasa de Error de Palabras (WER), determinando cuán precisas fueron las transcripciones. Esta métrica mide la cantidad de errores cometidos en el proceso de transcripción, proporcionando una clara indicación del desempeño del sistema.
Evaluación de Resultados
Los resultados de los experimentos mostraron que la calidad de las transcripciones en general empeoró después de entrenar con las nuevas muestras de audio. A pesar de tener una buena estrategia en su lugar, muchos de los clips de audio generados no proporcionaron la calidad necesaria para un aprendizaje efectivo. La principal razón de esta disminución parecía ser la calidad del audio generado usando el clonador de voz.
Para explorar esto más a fondo, se realizaron dos experimentos. En el primer experimento, el sistema entrenado con modelos preexistentes mostró una disminución en la calidad de la transcripción. En el segundo experimento, donde se aplicó entrenamiento adicional a los modelos de clonación de voz, los resultados siguieron siendo insatisfactorios.
El análisis indicó que el audio generado por el clonador de voz aún tenía fallas. Muchos de los clips de audio eran difíciles de entender, afectando la capacidad del sistema de transcripción para aprender efectivamente.
Los Desafíos Enfrentados
Mientras se intentaba mejorar la calidad del audio generado, varios desafíos se hicieron evidentes. El conjunto de datos utilizado contenía mucho ruido de fondo, y muchas grabaciones se hicieron en diferentes entornos, lo que llevó a inconsistencias en la calidad del audio. Además, el lenguaje en los audios a menudo incluía vocabulario técnico, que podría no haber estado presente en otros conjuntos de datos de entrenamiento. Esto contribuyó a la dificultad del sistema de transcripción para producir texto preciso.
Los modelos de clonación de voz también requieren un conjunto de datos que identifique a los hablantes con precisión para trabajar más eficazmente. Desafortunadamente, el conjunto de datos utilizado en esta investigación no proporcionó esta información esencial. Como resultado, el entrenamiento del clonador de voz fue limitado, impactando la calidad de los audios generados.
Conclusiones y Direcciones Futuras
En resumen, usar audio deepfake como método para la augmentación de datos en el entrenamiento de sistemas de transcripción muestra potencial, pero también presenta desafíos significativos. Los experimentos indicaron que la calidad de las muestras de audio juega un papel crítico en el éxito del modelo de transcripción.
Aunque el marco desarrollado en esta investigación no resultó en una mejor calidad de transcripción, abre la puerta a trabajos futuros. Las posibles direcciones para mejorar incluyen buscar mejores métodos de entrenamiento para el clonador de voz, explorar diferentes conjuntos de datos y ajustar los hiperparámetros de los modelos.
Además, investigar nuevas tecnologías de clonación de voz puede llevar a una mejor calidad de generación de audio. Al superar los desafíos actuales, los investigadores pueden mejorar la efectividad de los sistemas de transcripción, particularmente para lenguas menos comunes.
Título: Deepfake audio as a data augmentation technique for training automatic speech to text transcription models
Resumen: To train transcriptor models that produce robust results, a large and diverse labeled dataset is required. Finding such data with the necessary characteristics is a challenging task, especially for languages less popular than English. Moreover, producing such data requires significant effort and often money. Therefore, a strategy to mitigate this problem is the use of data augmentation techniques. In this work, we propose a framework that approaches data augmentation based on deepfake audio. To validate the produced framework, experiments were conducted using existing deepfake and transcription models. A voice cloner and a dataset produced by Indians (in English) were selected, ensuring the presence of a single accent in the dataset. Subsequently, the augmented data was used to train speech to text models in various scenarios.
Autores: Alexandre R. Ferreira, Cláudio E. C. Campelo
Última actualización: 2023-09-22 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.12802
Fuente PDF: https://arxiv.org/pdf/2309.12802
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/preprocess_nptel-pure.py
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/dataset_from_ids.py
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/train-deepspeech/generate_csv_files.py
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/train-deepspeech/create_csv_file.py
- https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Training
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/generate_audios.py
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/voice_cloning_inferences.py
- https://github.com/CorentinJ/Real-Time-Voice-Cloning/blob/master/demo_cli.py
- https://github.com/mozilla/DeepSpeech
- https://github.com/mozilla/DeepSpeech/releases/tag/v0.9.3
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/README.md
- https://github.com/alexandrerf3/data-augmentation-deepfake-audio/blob/main/deepspeech/inferences_deepspeech.py