Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz# Inteligencia artificial# Sonido

Avances en la Generación de Audio Basada en Estilos

Un nuevo modelo mejora la generación de audio usando texto detallado y sonidos como prompts.

Chenxu Xiong, Ruibo Fu, Shuchen Shi, Zhengqi Wen, Jianhua Tao, Tao Wang, Chenxing Li, Chunyu Qiang, Yuankun Xie, Xin Qi, Guanjun Li, Zizheng Yang

― 7 minilectura


Técnicas de generación deTécnicas de generación deaudio de nueva generacióndetalladas.sonido a través de indicacionesNuevos métodos transforman cómo creamos
Tabla de contenidos

La generación de Audio con estilo específico es un método que crea sonidos con características o Estilos concretos. Esto permite una producción de sonido más natural y detallada. Tiene muchas aplicaciones, especialmente en medios, donde puede producir sonidos de fondo que coinciden con escenas particulares. El enfoque común para generar audio es a través de modelos de Texto-a-Audio (TTA). Estos modelos usan descripciones detalladas en texto para crear audio de alta calidad.

Limitaciones de los métodos actuales

Los métodos actuales que usan un solo aviso de texto han tenido cierto éxito, pero aún tienen problemas notables. El texto y el audio son tipos diferentes de información, lo que dificulta conectarlos adecuadamente. Para generar audio preciso, el vínculo entre el texto de entrada y el audio de salida necesita ser fuerte. Por ejemplo, crear el sonido de un perro ladrando a partir de un simple aviso de texto podría perder detalles como el tono del ladrido o cómo el entorno afecta el sonido. Esta falta de detalle limita la calidad de la modelación de audio. Para mejorar esto, es importante agregar más información para proporcionar un contexto más claro para una mejor generación de audio.

Hay dos maneras principales de añadir información extra a la creación de audio. El primer método consiste en ajustar condiciones que controlan elementos como el tono y la energía en el audio generado. Sin embargo, no hay métodos actuales que se enfoquen específicamente en el control del estilo. El segundo método utiliza múltiples tipos de avisos que combinan información de diferentes fuentes, como imágenes y videos. Aunque es prometedor, estos avisos multimodales pueden confundir al modelo con información irrelevante, ya que puede que no proporcionen referencias de audio claras.

Presentando el adaptador de aviso mejorado por eventos de sonido

Para resolver estos problemas, se sugiere un adaptador de aviso mejorado por eventos de sonido. Este nuevo método aprovecha tanto las referencias de texto como de sonido para controlar y refinar la generación de audio. A diferencia de los métodos anteriores que aplican un estilo general a partir de referencias, este nuevo enfoque recopila información de estilo específica al observar tanto el texto como el audio. El foco está en identificar qué partes del texto se ajustan mejor al audio correspondiente.

El papel del conjunto de datos de transferencia de estilo de referencia de eventos de sonido

Se ha creado un nuevo conjunto de datos llamado Conjunto de Datos de Transferencia de Estilo de Referencia de Eventos de Sonido (SERST) para esta tarea. Este conjunto combina segmentos de audio y descripciones de texto para proporcionar datos de entrenamiento exhaustivos para generar audio. Durante el entrenamiento, el sistema utiliza un modelo que conecta diferentes tipos de información, asegurando que la producción de audio sea precisa y detallada.

Durante el proceso de entrenamiento, el modelo toma datos de audio y texto, vinculándolos para generar un estilo que refleje la referencia de audio. Al generar audio, en lugar de comenzar con audio existente, el modelo comienza con ruido aleatorio y lo moldea en audio completo basándose en estilos aprendidos.

Construcción del conjunto de datos SERST

Crear un conjunto de datos de alta calidad es crucial para transferencias de estilo efectivas. El conjunto de datos SERST está diseñado para ofrecer audio que capture toda la gama de sonidos necesarios para una reproducción precisa. Este conjunto toma audio de una colección existente y lo segmenta según eventos de sonido específicos. La investigación muestra que los clips de audio de dos segundos equilibran bien la cantidad y la calidad. Para segmentos más cortos de dos segundos, el modelo combina clips con la misma etiqueta de sonido para enriquecer el conjunto de datos mientras filtra referencias de baja calidad.

Cómo funciona el adaptador de aviso mejorado por eventos de sonido

Para aprovechar al máximo la información de audio disponible, el adaptador de aviso mejorado por eventos de sonido genera información de estilo comparando audio con texto. Primero, condensa las referencias de sonido en una forma que capture el estilo sonoro general. Dado que no había modelos preentrenados adecuados para esta tarea, se diseñó un nuevo codificador de audio. Este codificador está construido para capturar características de audio críticas que influyen en la generación de audio.

El modelo utiliza mecanismos de atención especiales para relacionar el texto con el estilo en el audio, permitiendo transferencias de estilo dirigidas. La información de estilo creada se integra en el proceso de generación de audio, lo que mejora significativamente la capacidad del sistema para crear sonidos diversos.

El modelo de generación de audio

El modelo de generación de audio utiliza técnicas de difusión para crear un previo para el audio. Puede construir de manera efectiva sobre este previo usando referencias de texto y audio. El modelo pasa por un proceso de agregar ruido y luego eliminarlo, entrenándose para predecir la salida final de audio.

Durante el entrenamiento, el modelo es adaptable a cómo se combinan diferentes estilos y características de audio. Se centra en crear una representación significativa del audio que coincida con la entrada de texto. Al analizar las similitudes y diferencias entre el audio generado y las referencias, el sistema puede refinar sus salidas.

Evaluando el rendimiento

El rendimiento del sistema de generación de audio se evalúa a través de diversas métricas. Estas métricas miden qué tan de cerca el audio generado coincide con las distribuciones de audio reales y su calidad general. Los resultados muestran que el nuevo modelo se desempeña bien en comparación con modelos existentes, logrando mejores puntuaciones en áreas clave.

En términos de evaluación humana, se encarga a oyentes entrenados evaluar la calidad y relevancia del audio generado. Su retroalimentación ayuda a entender qué tan cerca está el audio creado de los estilos y características buscadas.

Analizando resultados

Los resultados indican la efectividad del adaptador de aviso mejorado por eventos de sonido en la generación de audio. Cuando se utiliza la misma referencia de audio varias veces, la calidad del audio producido es consistentemente alta. Sin embargo, usar diferentes referencias resulta en una ligera caída en las puntuaciones de similitud, confirmando el valor de un enfoque enfocado hacia el estilo.

Al comparar este modelo con otros, los resultados son favorables. Las mediciones objetivas destacan que el nuevo modelo proporciona puntuaciones de distancia más bajas que son preferibles. Las evaluaciones subjetivas también muestran que los oyentes califican la calidad y relevancia del audio más alta que la de modelos competidores.

Conclusión y direcciones futuras

Este trabajo sienta las bases para generar audio usando avisos detallados de texto y eventos de sonido. Se introduce el conjunto de datos SERST como un recurso significativo para futuras aplicaciones. Con el adaptador de aviso mejorado por eventos de sonido, el modelo logra un nivel efectivo de control, llevando a una mejor calidad de audio y relevancia con respecto a las descripciones de entrada.

Mirando hacia adelante, hay oportunidades para mejorar aún más el rendimiento del sistema y desarrollar métodos adicionales para mejorar cómo combina diferentes tipos de avisos. Esta exploración puede llevar a generaciones de audio aún más precisas y diversas.

Fuente original

Título: Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation

Resumen: Current mainstream audio generation methods primarily rely on simple text prompts, often failing to capture the nuanced details necessary for multi-style audio generation. To address this limitation, the Sound Event Enhanced Prompt Adapter is proposed. Unlike traditional static global style transfer, this method extracts style embedding through cross-attention between text and reference audio for adaptive style control. Adaptive layer normalization is then utilized to enhance the model's capacity to express multiple styles. Additionally, the Sound Event Reference Style Transfer Dataset (SERST) is introduced for the proposed target style audio generation task, enabling dual-prompt audio generation using both text and audio references. Experimental results demonstrate the robustness of the model, achieving state-of-the-art Fr\'echet Distance of 26.94 and KL Divergence of 1.82, surpassing Tango, AudioLDM, and AudioGen. Furthermore, the generated audio shows high similarity to its corresponding audio reference. The demo, code, and dataset are publicly available.

Autores: Chenxu Xiong, Ruibo Fu, Shuchen Shi, Zhengqi Wen, Jianhua Tao, Tao Wang, Chenxing Li, Chunyu Qiang, Yuankun Xie, Xin Qi, Guanjun Li, Zizheng Yang

Última actualización: 2024-09-14 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.09381

Fuente PDF: https://arxiv.org/pdf/2409.09381

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares