Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz# Aprendizaje automático# Sonido

Avances en la Conversión de Voz con Tecnología Urhythmic

Urhythmic mejora la conversión de voz al centrarse en el ritmo del habla.

― 6 minilectura


Urhythmic: Nuevo MétodoUrhythmic: Nuevo Métodode Conversión de Vozpriorizando el ritmo del habla.Urhythmic redefine la conversión de voz
Tabla de contenidos

La Conversión de voz es una tecnología que cambia el habla de una persona para que suene como la voz de otra persona. Una gran parte de cómo reconocemos la voz de alguien no son solo las palabras que dicen, sino cómo las dicen, incluyendo el ritmo y la velocidad al hablar. Lamentablemente, muchos sistemas actuales de conversión de voz ignoran estos detalles importantes.

Para abordar este problema, presentamos un método llamado Urhythmic. Este método ayuda a convertir el ritmo del habla, haciendo que la voz resultante suene más como la del hablante objetivo. Lo genial de Urhythmic es que no necesita emparejar manualmente Voces o textos específicos. En cambio, utiliza técnicas inteligentes para analizar y ajustar automáticamente el ritmo del habla.

Importancia del Ritmo en la Conversión de Voz

El ritmo en el habla se refiere al flujo y al tiempo de las palabras y sonidos. Captura emociones e intenciones, ayudando a los oyentes a entender la actitud del hablante. Diferentes hablantes tienen Ritmos únicos influidos por factores como su origen, acento e incluso su género.

Por ejemplo, dos personas pueden decir la misma palabra, pero si una habla rápido y la otra lento, la diferencia en el ritmo deja claro que son individuos distintos. Al solo copiar las palabras sin imitar el ritmo, los métodos tradicionales de conversión de voz no logran representar de manera precisa la identidad del hablante objetivo.

El Problema con los Sistemas Actuales de Conversión de Voz

Los sistemas actuales de conversión de voz a menudo toman el habla de una persona y tratan de hacerla sonar como la de otra persona sin considerar el ritmo. En su lugar, solo repiten la prosodia, o el ritmo y la melodía, del hablante original. Esto lleva a problemas como sonidos inexactos y una conversión de voz menos creíble.

Se han desarrollado algunas técnicas para abordar la conversión de ritmo. Sin embargo, estas suelen requerir grandes cantidades de datos etiquetados, que pueden ser difíciles de recopilar y tomar mucho tiempo procesar. Debido a estos desafíos, se han creado algunos métodos que no dependen de este tipo de datos detallados, pero no son tan efectivos.

Presentando Urhythmic

Urhythmic es una nueva forma de manejar la conversión de ritmo que opera sin necesitar textos o grabaciones emparejadas de Discursos. Utiliza una combinación de técnicas de aprendizaje auto-supervisado para descomponer el habla en segmentos manejables que representan diferentes partes del sonido, como vocales o pausas.

Inicialmente, el habla se divide en piezas que representan diferentes sonidos. Luego, Urhythmic mide cuánto dura cada sonido y qué tan rápido se habla. Finalmente, ajusta los segmentos de habla identificados para que se ajusten al ritmo del hablante objetivo.

Los resultados de usar Urhythmic muestran que proporciona una mejor calidad y ritmos más naturales que los métodos anteriores.

Cómo Funciona Urhythmic

Urhythmic opera a través de varios pasos principales:

  1. Codificación de Contenido: El primer paso es procesar el habla para capturar el sonido de las palabras mientras se eliminan características específicas del hablante. Esto ayuda a asegurar que la conversión de voz se centre en lo que se dice en lugar de en quién lo dice.

  2. Segmentación: A continuación, el sistema agrupa el habla en segmentos que corresponden a diferentes sonidos, como vocales, consonantes y pausas. Esto es vital para capturar el ritmo, ya que cada tipo de sonido se comporta de manera diferente.

  3. Modelado del Ritmo: Luego, Urhythmic estima la tasa de habla y la duración de diferentes sonidos. Esto ayuda a capturar la esencia del ritmo e identificar cómo ajustar mejor el habla original para que coincida con la voz objetivo.

  4. Estiramiento de Tiempo: El sistema estira o comprime los segmentos de audio en función del ritmo objetivo. Este proceso modifica el habla original para que suene más como el hablante objetivo mientras mantiene el significado original intacto.

  5. Vocoder: Finalmente, un vocoder convierte los segmentos procesados de nuevo en audio, creando el discurso convertido de voz final.

Beneficios de Urhythmic

Urhythmic ofrece varias ventajas sobre los métodos más antiguos:

  • Independencia de Datos Etiquetados: Urhythmic no requiere textos ni grabaciones emparejadas, lo que lo hace más versátil y fácil de aplicar en diversas situaciones.

  • Mejor Modelado del Ritmo: El método puede representar tanto tasas de habla globales como patrones de ritmo más detallados, lo que permite capturar mejor el flujo único del discurso del hablante objetivo.

  • Salida de Mayor Calidad: Los resultados muestran que Urhythmic lleva a un habla más natural con mejor claridad, facilitando la comprensión para los oyentes.

Experimentos y Resultados

Para evaluar la efectividad de Urhythmic, se llevaron a cabo varios experimentos:

  1. Correlación de Tasas de Habla: Los investigadores midieron qué tan de cerca coincidían las tasas de habla estimadas con las tasas de habla reales derivadas de datos conocidos. Urhythmic mostró fuertes correlaciones, lo que indica que captura efectivamente las tasas de habla.

  2. Comparación de Ritmo: El ritmo del discurso convertido fue analizado contra los ritmos objetivo. Urhythmic redujo con éxito las diferencias de tiempo entre el discurso convertido y la voz objetivo, indicando una conversión de ritmo más precisa.

  3. Naturalidad e Inteligibilidad: El discurso convertido también fue juzgado por cuán natural y comprensible era. Urhythmic superó a otros sistemas en estas pruebas, demostrando que puede mantener la claridad y facilidad de escucha similar al discurso original.

Conclusión

Urhythmic representa un avance significativo en la tecnología de conversión de voz y ritmo. Al centrarse en el ritmo del habla y eliminar la necesidad de entrada de datos manual, allana el camino para conversiones de voz más naturales y expresivas. A medida que la tecnología de voz sigue creciendo, métodos como Urhythmic jugarán un papel crucial en hacer que el habla generada por máquinas suene más humana y real.

Al imitar con precisión no solo las palabras, sino también el ritmo detrás de ellas, Urhythmic ayuda a cerrar la brecha entre voces artificiales y naturales, haciendo que la tecnología sea más relacionable y accesible.

Fuente original

Título: Rhythm Modeling for Voice Conversion

Resumen: Voice conversion aims to transform source speech into a different target voice. However, typical voice conversion systems do not account for rhythm, which is an important factor in the perception of speaker identity. To bridge this gap, we introduce Urhythmic-an unsupervised method for rhythm conversion that does not require parallel data or text transcriptions. Using self-supervised representations, we first divide source audio into segments approximating sonorants, obstruents, and silences. Then we model rhythm by estimating speaking rate or the duration distribution of each segment type. Finally, we match the target speaking rate or rhythm by time-stretching the speech segments. Experiments show that Urhythmic outperforms existing unsupervised methods in terms of quality and prosody. Code and checkpoints: https://github.com/bshall/urhythmic. Audio demo page: https://ubisoft-laforge.github.io/speech/urhythmic.

Autores: Benjamin van Niekerk, Marc-André Carbonneau, Herman Kamper

Última actualización: 2023-07-12 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2307.06040

Fuente PDF: https://arxiv.org/pdf/2307.06040

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares