Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Sonido# Procesado de Audio y Voz

Avances en Conversión de Voz Multilingüe

Un nuevo método para convertir voces entre idiomas manteniendo las características únicas.

― 6 minilectura


Ruptura en la ConversiónRuptura en la Conversiónde Voznatural entre idiomas.Nuevo método convierte voces de manera
Tabla de contenidos

Crear voces artificiales que puedan hablar bien varios idiomas sigue siendo bastante complicado. Aunque ha habido muchas mejoras en los últimos años, la tarea es un reto. Este artículo analiza un nuevo método para convertir la voz de una persona en la de otra, manteniendo el acento único del hablante. Nuestro método no necesita muchas grabaciones del hablante objetivo al que queremos imitar.

El Sistema y Método

Diseñamos un sistema especial de conversión de voz que convierte la voz de cualquier hablante en la voz de un hablante objetivo específico. Este sistema se basa en tres partes principales: un Codificador de contenido, un modelo acústico y un Vocoder.

  1. Codificador de Contenido: Esta parte toma cualquier audio y lo transforma en una representación especial que capta las características importantes del habla.

  2. Modelo Acústico: Este modelo usa la representación de contenido para generar un patrón de sonido que se asemeje al habla del hablante objetivo.

  3. Vocoder: El vocoder convierte el patrón de sonido en una forma de onda de audio basada en el tiempo que podemos escuchar.

Todo este sistema se entrena usando solo datos de audio. El proceso está diseñado para preservar las características originales de la voz mientras se cambia el idioma, haciendo que suene como si el hablante objetivo estuviera hablando el nuevo idioma de manera natural.

Brechas Actuales en la Conversión de Voz

Muchos métodos que se usan actualmente para la conversión de voz dependen de tener datos etiquetados, que son difíciles de conseguir. No solo son caros, sino que a veces pueden llevar a errores en la pronunciación. Este es un problema, sobre todo en situaciones donde los recursos son limitados. Además, los métodos convencionales no suelen capturar todas las sutilezas del habla, como diferentes acentos y estilos, resultando en un habla sintetizada que suena genérica o neutra.

Para evitar estos problemas, los investigadores han comenzado a usar métodos de aprendizaje auto-supervisado. Estos métodos utilizan grandes cantidades de datos no etiquetados para aprender los detalles del habla. Han mostrado promesas, pero aún tienen problemas para captar cada aspecto de la voz y el estilo únicos de un hablante.

Un Nuevo Enfoque

Nuestro sistema toma un enfoque diferente. Se basa en avances recientes en la síntesis de voz mientras evita las debilidades de métodos anteriores. Usando un tipo único de conversión de voz conocido como "de cualquiera a uno" (A2O), convertimos la voz de cualquier individuo directamente en una sola voz objetivo sin pasos adicionales.

El Cuello de botella de información

Introducimos un concepto llamado cuello de botella de información. Este cuello de botella ayuda al sistema a centrarse en las características esenciales necesarias para la conversión de voz, mientras descarta detalles innecesarios, ayudando a mantener la claridad y la identidad de la voz del hablante objetivo.

Ajuste Fino Multilingüe

Para mejorar aún más nuestro sistema, desarrollamos una técnica llamada ajuste fino multilingüe. Esto permite que nuestro modelo aprenda de otros idiomas, lo que ayuda a que el habla convertida sea más clara y natural. Por ejemplo, si queremos convertir el habla en inglés para que suene como la voz de un hablante francés, el sistema puede usar conocimientos del francés para asegurar que el habla convertida se pronuncie mejor.

Esta estrategia de ajuste fino también reduce la cantidad de datos que necesitamos del hablante objetivo. Mientras que los métodos tradicionales podrían necesitar mucho audio del hablante objetivo, encontramos que solo necesitamos un par de horas de buen audio para lograr resultados de alta calidad.

Componentes del Modelo

Codificador de Contenido

El codificador de contenido crea una representación detallada del audio de entrada. Elegimos un modelo conocido llamado WavLM como base porque ha sido entrenado con una gran cantidad de datos de audio. Este pre-entrenamiento le permite capturar una amplia gama de características del habla.

Modelo Acústico

El modelo acústico transforma la representación de contenido en un patrón de sonido que coincide con el estilo del hablante objetivo. Siguiendo diseños probados similares a los utilizados en otros sistemas exitosos de síntesis de voz, trabaja eficientemente para producir audio de alta calidad.

Vocoder

El componente final, el vocoder, convierte el patrón de sonido producido por el modelo acústico en una forma de onda de audio real que escuchamos. Aquí es donde obtenemos la salida hablada final.

Evaluando Nuestro Sistema

Para evaluar qué tan bien funciona nuestro sistema de conversión de voz, realizamos varias pruebas. Queríamos medir la inteligibilidad (qué tan comprensible es el habla), la similitud del hablante (qué tan cerca se asemeja al hablante objetivo) y la calidad general.

Llevamos a cabo evaluaciones tanto objetivas como subjetivas. Las evaluaciones objetivas involucraron calcular tasas de error en el habla convertida, mientras que las evaluaciones subjetivas incluyeron calificaciones de los oyentes sobre la calidad general y la precisión del acento.

Resultados

En nuestras pruebas, el sistema propuesto mostró un rendimiento fuerte. Superó a los sistemas existentes en términos de inteligibilidad, lo que significa que los oyentes entendieron mucho mejor el habla convertida. Los participantes también calificaron muy positivamente la calidad general de las voces convertidas.

Una observación interesante fue que nuestro sistema a menudo tenía un rendimiento mejor de lo esperado incluso cuando se comparaba con grabaciones de referencia hechas por hablantes reales.

Emociones en el Habla

Un área adicional que exploramos fue qué tan bien podía el sistema mantener las emociones presentes en el habla original. Ampliamos nuestro conjunto de datos para incluir diferentes tonos emocionales como ira, sorpresa, tristeza y alegría. Así, pudimos ver si las voces convertidas aún podían expresar estas emociones de manera efectiva.

Los resultados mostraron que nuestro sistema mantuvo con éxito las señales emocionales en el habla. Esto añade otro nivel de realismo al proceso de conversión de voz.

Conclusión

En este trabajo, hemos desarrollado un sistema de conversión de voz capaz de crear voces que suenan naturales en diferentes idiomas. Nuestro enfoque minimiza la necesidad de grabaciones extensas del hablante objetivo mientras asegura que el habla convertida retenga claridad e identidad.

Al aprovechar técnicas avanzadas y métodos de aprendizaje profundo, hemos sentado las bases para crear voces poliglotas versátiles que suenan auténticas y expresivas. A medida que avanzamos, nuestro objetivo es refinar aún más estos sistemas, explorando métodos que requieren aún menos datos para el entrenamiento mientras mejoramos la calidad general del habla.

A medida que continuamos este viaje, nuestro enfoque seguirá siendo mejorar el proceso de conversión de voz para satisfacer las crecientes necesidades de diversas aplicaciones en la síntesis de voz, que van desde el entretenimiento hasta tecnologías de asistencia.

Fuente original

Título: Enhancing Polyglot Voices by Leveraging Cross-Lingual Fine-Tuning in Any-to-One Voice Conversion

Resumen: The creation of artificial polyglot voices remains a challenging task, despite considerable progress in recent years. This paper investigates self-supervised learning for voice conversion to create native-sounding polyglot voices. We introduce a novel cross-lingual any-to-one voice conversion system that is able to preserve the source accent without the need for multilingual data from the target speaker. In addition, we show a novel cross-lingual fine-tuning strategy that further improves the accent and reduces the training data requirements. Objective and subjective evaluations with English, Spanish, French and Mandarin Chinese confirm that our approach improves on state-of-the-art methods, enhancing the speech intelligibility and overall quality of the converted speech, especially in cross-lingual scenarios. Audio samples are available at https://giuseppe-ruggiero.github.io/a2o-vc-demo/

Autores: Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle, Luigi Di Caro

Última actualización: Sep 25, 2024

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.17387

Fuente PDF: https://arxiv.org/pdf/2409.17387

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares