Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz# Inteligencia artificial# Sonido

HiFTNet: Avanzando la tecnología de texto a voz

HiFTNet ofrece una síntesis de voz más rápida y de alta calidad usando técnicas innovadoras y eficientes.

― 6 minilectura


HiFTNet: Síntesis de vozHiFTNet: Síntesis de vozrápidarápida y de alta calidad.Nuevo modelo ofrece generación de audio
Tabla de contenidos

HiFTNet es un nuevo modelo diseñado para convertir texto en voz de alta calidad rápidamente. Este nuevo enfoque se basa en modelos anteriores llamados iSTFTNet y HiFi-GAN, que son conocidos por su gran rendimiento al crear audio claro a partir de representaciones llamadas Mel-espectrogramas. Sin embargo, esos modelos más antiguos tardan mucho tiempo y recursos en funcionar. HiFTNet busca resolver estos problemas siendo más rápido y usando menos recursos, mientras sigue produciendo una calidad de sonido excelente.

La Importancia de la Síntesis de Voz

Crear una voz realista es esencial en varias tecnologías, incluyendo sistemas de texto a voz (TTS) y conversión de voz (VC). Estas tecnologías a menudo siguen un proceso de dos pasos. Primero, crean una forma intermedia del sonido, y luego la traducen en audio real. Los mel-espectrogramas son comúnmente usados en este proceso porque reflejan de cerca cómo los humanos perciben el sonido y simplifican los datos.

Para generar sonido usando estas representaciones, se necesita un vocoder que llene la información faltante y recree la forma de onda del audio. Los enfoques tradicionales a menudo dependen de modelos complejos que, aunque efectivos, pueden ser demasiado pesados para aplicaciones en tiempo real.

Presentando HiFTNet

HiFTNet ofrece una nueva perspectiva en comparación con los Vocoders anteriores. En lugar de generar audio directamente de mel-espectrogramas, descompone el proceso aún más. Primero, analiza los detalles del sonido, dividiéndolo en dos partes: la magnitud y la fase. Luego usa un método llamado la transformada de Fourier de corto tiempo inversa (iSTFT) para crear el audio final.

Una característica importante de HiFTNet es su uso de un filtro especial, llamado filtro de fuente armónica más ruido, que trabaja en el dominio de la frecuencia. Este filtro crea un sonido suave combinando una forma de onda primaria derivada de la frecuencia fundamental-a clave en el sonido-junto con ruido adicional. Este enfoque único permite una generación de sonido más rápida sin comprometer la calidad del audio.

Cómo Funciona HiFTNet

Generación Eficiente de Fuentes

HiFTNet mejora la manera en que genera la fuente de sonido. Toma la frecuencia fundamental y la transforma para que coincida con la tasa de audio necesaria. Este ajuste simplifica algunos cálculos, acelerando el proceso de creación de sonido.

El modelo determina qué partes del sonido son sonoras (como las vocales) y cuáles son sordas (como algunas consonantes). Utiliza un umbral específico para clasificar estos sonidos, asegurando que genere los tipos correctos de formas de onda para diferentes elementos del habla.

Estimación Avanzada de Frecuencia

A diferencia de los modelos más antiguos que dependen de métodos tradicionales para determinar la frecuencia fundamental, HiFTNet utiliza una Red Neuronal entrenada específicamente para este propósito. Este enfoque lo hace más preciso y eficiente, permitiéndole manejar mejor diversas muestras de audio y resultando en un sonido más limpio en general.

Filtro de Fuente Neuronal en Tiempo-Frecuencia

HiFTNet emplea un método único para manejar la fuente de sonido dentro del dominio tiempo-frecuencia. En lugar de procesar audio crudo, primero traduce el sonido a este dominio usando técnicas que son consistentes con su proceso de salida. Esto asegura que el modelo pueda crear audio de alta calidad de manera más efectiva.

El filtro de fuente neuronal utilizado en HiFTNet consiste en un diseño sencillo. Emplea algunas capas y estructuras básicas, haciéndolo eficiente y efectivo en la producción de audio de alta calidad.

Discriminadores y Funciones de Activación Actualizadas

El modelo también introduce una forma mejorada de evaluar la calidad del sonido. Reemplaza el antiguo Discriminador de múltiples escalas con un discriminador de multi-resolución, que ha demostrado mejorar la calidad del sonido en pruebas. El generador, responsable de crear el audio, usa una función de activación especial llamada función Snake. Esta nueva función ayuda al modelo a capturar las estructuras periódicas presentes en el habla, que son cruciales para generar un sonido realista.

Función de Pérdida Refinada

Para lograr una mejor calidad de sonido, HiFTNet incorpora una función de pérdida refinada durante su fase de entrenamiento. Esta función ayuda al modelo a distinguir entre sonidos reales y generados, animándolo a mejorar hasta producir audio que suene más genuino.

Pruebas y Evaluaciones

HiFTNet fue evaluado usando conjuntos de datos de voz populares. Un conjunto de datos, llamado LJSpeech, incluye miles de clips de audio cortos usados para entrenar el modelo, enfocándose en una sola voz. Otro conjunto de datos, LibriTTS, cuenta con una gama más amplia de voces de varios hablantes, permitiendo pruebas más variadas.

La comparación con modelos establecidos como HiFi-GAN y BigVGAN mostró que HiFTNet no solo producía un sonido de mayor calidad, sino que también lo hacía más rápido y usando menos recursos del sistema. En pruebas subjetivas donde los oyentes calificaron varios modelos, HiFTNet obtuvo altas puntuaciones, a menudo igualando o superando incluso sistemas más complejos.

Estudios de Ablación

Se realizó un análisis adicional para ver cómo cada componente de HiFTNet contribuyó a su rendimiento general. Al eliminar ciertas características, los investigadores descubrieron que el filtro de fuente armónica más ruido jugaba un papel crucial en mantener una alta calidad de sonido. Otros cambios, como sustituir diferentes funciones de activación, también mostraron efectos significativos en el rendimiento del modelo.

Estos hallazgos destacaron que cada parte de HiFTNet es integral para su éxito, incluso si algunos elementos pueden desacelerar un poco el sistema.

Conclusión

HiFTNet representa un paso importante hacia adelante en la creación de voz realista y de alta calidad que opera de manera eficiente. Al emplear una combinación de técnicas innovadoras, aborda con éxito las limitaciones de los modelos anteriores. Con sus características avanzadas y métodos de procesamiento refinados, HiFTNet se destaca en el panorama de las tecnologías de síntesis de voz, posicionándose como una opción práctica para aplicaciones en tiempo real que necesitan generación de audio rápida y clara.

El trabajo futuro probablemente se centrará en refinar aún más el sistema, particularmente en las áreas de estimación de tono y velocidad de procesamiento general, lo que podría mejorar aún más sus capacidades.

Fuente original

Título: HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise Filter and Inverse Short Time Fourier Transform

Resumen: Recent advancements in speech synthesis have leveraged GAN-based networks like HiFi-GAN and BigVGAN to produce high-fidelity waveforms from mel-spectrograms. However, these networks are computationally expensive and parameter-heavy. iSTFTNet addresses these limitations by integrating inverse short-time Fourier transform (iSTFT) into the network, achieving both speed and parameter efficiency. In this paper, we introduce an extension to iSTFTNet, termed HiFTNet, which incorporates a harmonic-plus-noise source filter in the time-frequency domain that uses a sinusoidal source from the fundamental frequency (F0) inferred via a pre-trained F0 estimation network for fast inference speed. Subjective evaluations on LJSpeech show that our model significantly outperforms both iSTFTNet and HiFi-GAN, achieving ground-truth-level performance. HiFTNet also outperforms BigVGAN-base on LibriTTS for unseen speakers and achieves comparable performance to BigVGAN while being four times faster with only $1/6$ of the parameters. Our work sets a new benchmark for efficient, high-quality neural vocoding, paving the way for real-time applications that demand high quality speech synthesis.

Autores: Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani

Última actualización: 2023-09-18 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.09493

Fuente PDF: https://arxiv.org/pdf/2309.09493

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares