Avances en la síntesis de voz con ARDiT
El nuevo modelo ARDiT mejora la síntesis de texto a voz y la edición de audio.
― 7 minilectura
Tabla de contenidos
- El Reto de la Tokenización de Audio
- Resumen de ARDiT
- Técnicas Clave Usadas en ARDiT
- Entrenamiento y Evaluación
- Síntesis de Texto a Voz Sin Entrenamiento Previo
- Edición de Voz
- Comparación con Otros Modelos
- Desafíos Técnicos en la Síntesis de Audio
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
El campo de la síntesis de audio y voz ha avanzado un montón en los últimos años. Con el auge de los modelos de lenguaje de audio, los investigadores han empezado a concentrarse en generar audio de alta calidad usando nuevas técnicas. Este artículo habla de un enfoque innovador para generar voz usando un modelo llamado Autoregressive Diffusion Transformer, o ARDiT. Este modelo busca mejorar la síntesis de texto a voz mientras supera los desafíos que enfrentaban los métodos anteriores.
El Reto de la Tokenización de Audio
En el centro de la generación de audio está la tokenización de audio, donde las formas de onda de audio se transforman en secuencias de símbolos discretos. Sin embargo, este proceso viene con algunas desventajas, especialmente entre la compresión y la claridad del sonido. Cuando se usan códigos de audio de baja tasa de bits, se vuelve difícil para los modelos de lenguaje procesar toda la información que contiene el audio, limitando su capacidad de generar voz de alta calidad.
Para resolver estos problemas, el modelo ARDiT codifica el audio como secuencias de vectores continuos en vez de tokens discretos. Al hacer esto, ARDiT puede representar mejor los datos de audio, lo que lleva a una mejor calidad de voz y una generación más eficiente del habla.
Resumen de ARDiT
El modelo ARDiT se basa en una arquitectura particular conocida como transformador de difusión solo con decodificador. Este modelo permite una síntesis de texto a voz de alta calidad sin necesidad de tokenización discreta. En términos simples, ARDiT puede producir una voz más clara y natural usando una representación continua del audio.
Una ventaja significativa de ARDiT es su rendimiento en la síntesis de texto a voz sin entrenamiento previo. Esto significa que puede generar voz para un nuevo hablante usando solo unos pocos segundos de audio como referencia, sin necesitar un entrenamiento extenso o datos de alta calidad de ese hablante. Los resultados han mostrado que ARDiT puede alcanzar niveles de rendimiento comparables o incluso superiores a los de los modelos líderes existentes en el campo.
Técnicas Clave Usadas en ARDiT
Varias técnicas contribuyen al éxito de ARDiT en la generación de voz de alta calidad. Una de ellas se llama divergencia Integral Kullback-Leibler (IKL), que mejora la calidad percibida de las muestras generadas. Usando este método, ARDiT puede condensar su proceso de muestreo, haciéndolo más eficiente y rápido.
Además, ARDiT puede predecir múltiples vectores continuos durante un solo paso de procesamiento. Este enfoque reduce el tiempo que se necesita para generar la voz, ofreciendo una ventaja clara durante la fase de generación.
Entrenamiento y Evaluación
El equipo de investigación entrenó a ARDiT usando varios conjuntos de datos, enfocándose especialmente en la colección LibriTTS, que contiene una cantidad significativa de grabaciones de voz en inglés. Este conjunto de datos permitió al equipo evaluar las capacidades de ARDiT en la generación de voz a partir de texto, mientras también editaban clips de audio existentes.
La evaluación involucró varias pruebas y comparaciones con otros modelos, tanto no autorregresivos como autorregresivos. Los resultados indicaron que ARDiT superó a sus competidores en términos de naturalidad de la voz y similitud con el hablante.
Síntesis de Texto a Voz Sin Entrenamiento Previo
La síntesis de texto a voz sin entrenamiento previo es un aspecto emocionante de ARDiT. Muchos métodos tradicionales de síntesis de voz requieren un entrenamiento extenso con grabaciones de audio de alta calidad del hablante objetivo. En contraste, ARDiT puede producir voz usando solo unos pocos segundos de audio como referencia.
En este proceso, un aviso de voz sirve como el punto de inicio y final para la frase generada. El modelo se basa en estimar la duración total del habla generada según el aviso, permitiéndole crear frases coherentes sin conocer previamente la voz del hablante.
Edición de Voz
Otra aplicación innovadora del modelo ARDiT es en la edición de voz. Este proceso implica ajustar partes específicas de un clip de audio para que se ajuste a una transcripción deseada, mientras se preserva el resto del audio. Los métodos anteriores a menudo resultaban en voces que sonaban poco naturales debido a la prosodia y transiciones desajustadas.
Con ARDiT, el modelo completa inteligentemente las secciones de audio faltantes. Al tener en cuenta el contexto circundante, mejora la cohesión y naturalidad del habla generada, llevando a salidas de audio de mejor calidad.
Comparación con Otros Modelos
Al evaluar el rendimiento de ARDiT, los investigadores lo compararon con varios otros modelos de síntesis de voz. Algunos de estos incluían modelos autorregresivos, que generan audio en secuencia, y modelos no autorregresivos, que producen audio en paralelo.
Los resultados indicaron que ARDiT consistentemente entregaba una salida de mayor calidad en términos de similitud con el hablante e inteligibilidad. Este éxito se debe a la representación continua del audio, que permite una mejor comprensión y generación de voz.
Desafíos Técnicos en la Síntesis de Audio
A pesar de los avances, todavía existen desafíos en el campo de la síntesis de audio. Una preocupación principal es el compromiso entre la tasa de bits del audio y su calidad de reconstrucción. Los códecs de audio actuales pueden requerir una alta tasa de bits para un sonido claro, afectando la eficiencia general del modelo.
Además, las técnicas de optimización basadas en gradientes enfrentan dificultades cuando se aplican a distribuciones discretas, comúnmente vistas en métodos de síntesis de audio tradicionales. Entrenar modelos como VQ-GANs puede ser complicado y puede requerir funciones de pérdida adicionales para un aprendizaje efectivo.
Direcciones Futuras
Hay un gran potencial para mejorar ARDiT y modelos similares en investigaciones futuras. Una dirección prometedora es aplicar las técnicas desarrolladas en ARDiT a otras tareas de generación de audio, como la síntesis musical y la generación de efectos de sonido.
Además, explorar el impacto de diferentes fuentes de datos fuera del conjunto de datos LibriTTS podría llevar a aplicaciones más amplias y mejor rendimiento en varios escenarios de síntesis de voz. El reto sigue siendo asegurar que los modelos puedan funcionar de manera confiable en datos de audio diversos y del mundo real.
Conclusión
El desarrollo del Autoregressive Diffusion Transformer marca un paso significativo hacia adelante en el campo de la síntesis de texto a voz. Al utilizar representaciones continuas del audio, ARDiT ofrece una solución poderosa a los desafíos previos que enfrentaban los modelos de audio tradicionales. Su capacidad para realizar síntesis sin entrenamiento previo y edición de voz abre nuevas posibilidades para aplicaciones en varios campos, desde asistentes virtuales hasta creación de contenido.
Aunque todavía hay desafíos, la investigación continua en ARDiT y modelos similares apunta a un futuro donde la generación de voz de alta calidad será más accesible y eficiente, beneficiando a muchos usuarios y aplicaciones.
Título: Autoregressive Diffusion Transformer for Text-to-Speech Synthesis
Resumen: Audio language models have recently emerged as a promising approach for various audio generation tasks, relying on audio tokenizers to encode waveforms into sequences of discrete symbols. Audio tokenization often poses a necessary compromise between code bitrate and reconstruction accuracy. When dealing with low-bitrate audio codes, language models are constrained to process only a subset of the information embedded in the audio, which in turn restricts their generative capabilities. To circumvent these issues, we propose encoding audio as vector sequences in continuous space $\mathbb R^d$ and autoregressively generating these sequences using a decoder-only diffusion transformer (ARDiT). Our findings indicate that ARDiT excels in zero-shot text-to-speech and exhibits performance that compares to or even surpasses that of state-of-the-art models. High-bitrate continuous speech representation enables almost flawless reconstruction, allowing our model to achieve nearly perfect speech editing. Our experiments reveal that employing Integral Kullback-Leibler (IKL) divergence for distillation at each autoregressive step significantly boosts the perceived quality of the samples. Simultaneously, it condenses the iterative sampling process of the diffusion model into a single step. Furthermore, ARDiT can be trained to predict several continuous vectors in one step, significantly reducing latency during sampling. Impressively, one of our models can generate $170$ ms of $24$ kHz speech per evaluation step with minimal degradation in performance. Audio samples are available at http://ardit-tts.github.io/ .
Autores: Zhijun Liu, Shuai Wang, Sho Inoue, Qibing Bai, Haizhou Li
Última actualización: 2024-06-08 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.05551
Fuente PDF: https://arxiv.org/pdf/2406.05551
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://ardit-tts.github.io/
- https://github.com/sh-lee-prml/HierSpeechpp
- https://github.com/yl4579/StyleTTS2
- https://github.com/X-LANCE/UniCATS-CTX-vec2wav
- https://github.com/jasonppy/VoiceCraft
- https://github.com/NVIDIA/BigVGAN
- https://github.com/openai/whisper
- https://huggingface.co/microsoft/wavlm-base-plus-sv
- https://github.com/wenet-e2e/wespeaker
- https://github.com/resemble-ai/Resemblyzer
- https://github.com/facebookresearch/DiT