Avances en la tecnología de edición de atributos de voz
Nuevo modelo permite un control preciso de las cualidades de la voz mientras se mantiene el contenido.
― 5 minilectura
Tabla de contenidos
Las características de voz son una parte clave de cómo nos comunicamos y expresamos nuestra identidad. Cambiar estas características en el habla ha sido un enfoque de investigación durante mucho tiempo. Los avances recientes han hecho posible generar habla basada en mensajes de texto. Sin embargo, controlar cualidades específicas de la voz sigue siendo un tema complicado.
Este artículo presenta un nuevo enfoque llamado edición de atributos de voz. Usando mensajes de texto, permite a los usuarios modificar cualidades específicas de la voz en el habla generada, haciendo posible crear varios efectos deseados. El enfoque principal es ajustar rasgos vocales sin cambiar lo que se dice.
Desafíos en la Edición de Atributos de Voz
En la edición de atributos de voz, hay dos desafíos principales. Primero, la diversidad en cómo se puede percibir la voz hace que sea difícil capturar completamente los rasgos vocales solo con palabras. Cada voz exhibe diferentes cualidades, lo que dificulta que un mensaje de texto las describa todas con precisión.
Segundo, cuando describimos cualidades de la voz, a menudo usamos términos vagos como "profundo" o "suave", que no proporcionan mediciones precisas. Esta ambigüedad puede llevar a dificultades para hacer cambios claros en rasgos vocales específicos.
Presentando la Solución: VoxEditor
Para abordar estos desafíos, se ha desarrollado un nuevo modelo llamado VoxEditor. Este modelo usa un sistema que ayuda a emparejar cualidades de voz con las descripciones de texto proporcionadas por los usuarios. Incluye una función especial, llamada bloque de Memoria Residual (ResMem), que ayuda a crear un espacio compartido tanto para los rasgos vocales como para sus descripciones.
Además, VoxEditor también incluye un módulo de Predicción de Grado de Atributo de Voz (VADP). Esto agrega precisión a cómo se emparejan las cualidades de voz con los mensajes de texto, facilitando la interpretación de los cambios deseados.
El Conjunto de Datos VCTK-RVA
Crear este método requirió un conjunto de datos sólido, lo que llevó a la formación del conjunto de datos VCTK-RVA. Este conjunto de datos de código abierto se enfoca en comparar varias cualidades de voz entre hablantes. Incluye anotaciones manuales que detallan las diferencias en los rasgos vocales, sirviendo como un recurso para futuras investigaciones.
Para construir este conjunto de datos, los expertos identificaron rasgos vocales comunes y compararon las voces de diferentes hablantes, seleccionando descriptores adecuados de una lista para captar efectivamente sus cualidades vocales.
Cómo Funciona VoxEditor
VoxEditor emplea un proceso único para modificar rasgos vocales basado en la entrada del usuario. Cuando un usuario proporciona un mensaje de texto describiendo los cambios deseados, VoxEditor procesa la entrada y ajusta las características de la voz en consecuencia.
El modelo primero usa un modelo de lenguaje grande para interpretar la entrada y extraer descriptores de voz relevantes. Luego, estos descriptores se emparejan con las características de voz originales del hablante para crear una versión modificada que se alinee con lo que el usuario pidió.
Entrenamiento y Evaluación
El entrenamiento de VoxEditor involucró una variedad de muestras de voz y descriptores. El modelo aprende a ajustar las cualidades vocales mientras mantiene el contenido hablado sin cambios. El proceso de evaluación incluye medidas objetivas, que evalúan la calidad técnica del habla modificada, y medidas subjetivas, que consideran la percepción del usuario sobre su naturalidad y similitud con la voz original.
Al comparar VoxEditor con otros métodos, se observaron mejoras significativas. La capacidad del modelo para alinear los rasgos vocales con las descripciones de texto superó las técnicas anteriores en varias evaluaciones.
Fortalezas de VoxEditor
Las principales fortalezas de VoxEditor radican en su capacidad para interpretar mensajes de texto de manera efectiva y generar habla de alta calidad que retiene las características esenciales de la voz original. Los usuarios pueden hacer modificaciones relativas a los rasgos vocales, lo que proporciona una forma más flexible y conveniente de crear salidas de habla únicas.
La efectividad de VoxEditor ha sido validada a través de experimentos que demuestran que produce resultados deseables mientras mantiene un alto nivel de control sobre los atributos de la voz.
Direcciones Futuras
Aunque los avances realizados por VoxEditor son prometedores, todavía hay áreas para mejorar. El conjunto de datos actual es algo limitado, lo que afecta el rendimiento al lidiar con atributos de voz menos comunes. Hay un plan para expandir el conjunto de datos y explorar métodos de anotación automática para mejorar la representación de varias cualidades vocales.
Además, se harán esfuerzos para mejorar el rendimiento del modelo en voces no vistas para garantizar un funcionamiento fluido en diferentes hablantes.
Conclusión
La edición de atributos de voz con mensajes de texto representa un emocionante paso adelante en la tecnología de generación de habla. Al permitir a los usuarios modificar rasgos vocales mientras mantienen intacto el contenido hablado, VoxEditor ofrece una herramienta poderosa para crear habla personalizada. A medida que la investigación continúa, el objetivo es refinar aún más estos métodos, ampliando sus aplicaciones y mejorando su efectividad.
Título: Voice Attribute Editing with Text Prompt
Resumen: Despite recent advancements in speech generation with text prompt providing control over speech style, voice attributes in synthesized speech remain elusive and challenging to control. This paper introduces a novel task: voice attribute editing with text prompt, with the goal of making relative modifications to voice attributes according to the actions described in the text prompt. To solve this task, VoxEditor, an end-to-end generative model, is proposed. In VoxEditor, addressing the insufficiency of text prompt, a Residual Memory (ResMem) block is designed, that efficiently maps voice attributes and these descriptors into the shared feature space. Additionally, the ResMem block is enhanced with a voice attribute degree prediction (VADP) block to align voice attributes with corresponding descriptors, addressing the imprecision of text prompt caused by non-quantitative descriptions of voice attributes. We also establish the open-source VCTK-RVA dataset, which leads the way in manual annotations detailing voice characteristic differences among different speakers. Extensive experiments demonstrate the effectiveness and generalizability of our proposed method in terms of both objective and subjective metrics. The dataset and audio samples are available on the website.
Autores: Zhengyan Sheng, Yang Ai, Li-Juan Liu, Jia Pan, Zhen-Hua Ling
Última actualización: 2024-11-30 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.08857
Fuente PDF: https://arxiv.org/pdf/2404.08857
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.