Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial# Sonido# Procesado de Audio y Voz

Avances en la Generación de Sonido a partir de Video

Un nuevo modelo mejora la coincidencia de sonido con acciones visuales en videos.

― 13 minilectura


Técnicas de generación deTécnicas de generación desonido de siguiente nivelcon acciones visuales.Revolucionando la alineación del sonido
Tabla de contenidos

Crear sonidos realistas para acciones humanas es super importante en muchos campos, como hacer efectos de sonido para películas o juegos de realidad virtual. Muchos de los métodos actuales para generar sonidos se basan en la creencia de que lo que ves en un video corresponde perfectamente con lo que oyes. Sin embargo, esto no siempre es así. Muchos sonidos ocurren fuera de la pantalla o no coinciden con lo que está pasando visualmente. Esto hace que se generen sonidos que no encajan bien con las imágenes, causando confusión y falta de control sobre los sonidos producidos.

Para abordar este problema, presentamos un nuevo modelo llamado AV-LDM, que se enfoca en entender la diferencia entre los sonidos directamente relacionados con las acciones y los que son parte del ruido de fondo. Nuestro modelo toma videos silenciosos y crea audio que se ajusta al contenido visual tanto en significado como en tiempo. Entrenamos y probamos nuestro modelo usando dos conjuntos de datos de videos del mundo real: Ego4D y EPIC-KITCHENS. Nuestros resultados muestran que nuestro modelo tiene un mejor desempeño que otros en generar sonidos que se alinean bien con las acciones vistas en los videos. Además, permite a los usuarios controlar los niveles de ruido de fondo en el audio generado, y también funciona bien con clips de video de juegos de computadora.

En la vida diaria, cuando interactuamos con objetos, esas acciones crean sonidos. Por ejemplo, hacer clic con el mouse, cerrar una puerta o picar verduras producen sonidos distintos según la acción, los objetos involucrados y la fuerza aplicada. Mientras que el video captura las acciones que están ocurriendo, también proporciona pistas sobre cuándo suceden esas acciones. Esto significa que podríamos crear sonidos creíbles simplemente a partir de videos silenciosos. Esta habilidad podría ser útil en varias aplicaciones, incluyendo la producción de efectos de sonido para películas o Generación de Sonidos en realidad virtual y videojuegos.

Los sonidos del mundo real suelen consistir en dos tipos principales: sonidos de acción (que provienen directamente de acciones visibles) y Sonidos de fondo (que podrían provenir de fuentes que no se pueden ver en el video). Los métodos anteriores no diferenciaban entre estos dos tipos de sonidos, lo que llevaba a problemas. Nuestro modelo distingue los sonidos de acción de los sonidos ambientales en videos de entrenamiento, lo que nos permite crear mejor audio.

Encontramos que mientras los sonidos de acción ocurren en breves momentos, los sonidos de fondo suelen persistir. Esto nos permite proponer un enfoque simple pero efectivo. En el entrenamiento, nuestro modelo utiliza tanto el video de entrada como un segmento de audio del mismo video largo en un momento diferente. De esta manera, el modelo puede aprender a concentrarse en las pistas de acción del video mientras minimiza la interferencia de los sonidos de fondo.

Durante la prueba, no utilizamos audio de verdad. En su lugar, buscamos y recuperamos un clip de audio de nuestro conjunto de entrenamiento que coincida de cerca con el video en términos de similitud visual y auditiva. Este método funciona bien en escenarios donde los sonidos no pueden vincularse claramente a las imágenes, por ejemplo, al aire libre donde el viento susurra.

Los métodos existentes para generar sonidos de acción suelen depender de datos limpios que cubren un pequeño rango de tipos de acción, o utilizan videos de fuentes en línea que están categorizados de una manera específica. Buscamos expandir el rango de generación de sonidos de acción a acciones más naturales y del mundo real. Para lograr esto, utilizamos conjuntos de datos de videos egocéntricos a gran escala, que son grabaciones hechas desde el punto de vista de una persona. Estos videos proporcionan una visión más cercana de las acciones humanas en comparación con videos que se toman a distancia, y a menudo vienen con descripciones con marcas de tiempo de lo que está sucediendo en cualquier momento. Creamos cuidadosamente un conjunto de datos llamado Ego4D-Sounds, que consiste en 1.2 millones de clips de acción audio-visual.

En nuestro trabajo, buscamos separar implícitamente los sonidos de acción de los sonidos de fondo durante el entrenamiento. Logramos esto diseñando el modelo de difusión latente audio-visual (AV-LDM) que utiliza tanto video como audio para la generación de sonido. Probamos nuestro modelo contra varios métodos existentes y demostramos que supera significativamente a los demás en los conjuntos de datos Ego4D-Sounds y EPIC-KITCHENS. Además, las evaluaciones humanas indican que nuestro modelo produce sonidos que coinciden bien con los videos.

Nuestro modelo no solo genera sonidos de acción realistas, sino que también permite a los usuarios controlar los niveles de sonidos de fondo. Esta capacidad puede ser particularmente útil para videojuegos, donde el enfoque podría estar completamente en las acciones en lugar del ruido circundante. Por ejemplo, cuando un jugador está picando verduras en un juego de cocina, nuestro modelo puede proporcionar los sonidos de picado correctos mientras mantiene el ruido de fondo no deseado al mínimo.

Para lograr esto, necesitamos crear una clara distinción entre los sonidos de acción y los ruidos de fondo. El desafío radica en el hecho de que los sonidos de acción suelen ser breves mientras que los sonidos de fondo pueden persistir a lo largo del video. Por ejemplo, cuando alguien está cerrando un paquete de especias, el sonido de arrugar representa la acción, mientras que un zumbido de un refrigerador fuera de la pantalla sería el sonido de fondo.

Muchos métodos anteriores asumieron una correspondencia uno a uno entre las imágenes y los sonidos, pero esto no siempre es cierto en videos de la vida cotidiana. Muchos sonidos fuera de pantalla, como conversaciones o tráfico, no reflejan lo que está sucediendo en las imágenes. Si un modelo se entrena con esta suposición, puede generar sonidos que no coinciden con las acciones capturadas en un video.

Para mejorar la generación de audio, entrenamos nuestro modelo de una manera que reconoce la débil o ausente correlación entre las imágenes y los sonidos ambientales. Utilizamos nuestras observaciones de cómo aparecen los sonidos de acción en cortos períodos de tiempo frente a cómo tienden a persistir los sonidos de fondo en el video. Esto nos lleva a desarrollar un sistema donde proporcionamos al modelo un clip de audio de un tiempo diferente en el mismo video durante el entrenamiento.

Al momento de probar, recuperamos un segmento de audio relevante basado en la similitud visual. Este método funciona especialmente bien para situaciones donde el ruido de fondo no está fuertemente relacionado con las acciones en el video, como en entornos al aire libre.

El objetivo de nuestro modelo es expandir las posibilidades de generar sonidos de acción en videos tomados en situaciones del mundo real. Nos basamos en los recientes avances en conjuntos de datos de videos egocéntricos para ayudar en nuestros objetivos. Aunque nuestro modelo no está diseñado específicamente para videos egocéntricos, estos conjuntos de datos ayudan a proporcionar una mejor visión de las acciones humanas en comparación con videos tomados a distancia. Además, estos conjuntos de datos vienen con descripciones que detallan las acciones realizadas.

Nuestro modelo propuesto, AV-LDM, puede generar sonidos basados en las acciones en los videos aprovechando tanto la información de video como de audio. Los resultados indican que nuestro modelo supera a otros métodos existentes en una variedad de métricas, demostrando su efectividad en la generación de sonido.

En nuestros estudios, evaluamos nuestro modelo en el conjunto de datos Ego4D-Sounds y encontramos que superó significativamente los enfoques existentes. También llevamos a cabo una evaluación humana para recopilar comentarios sobre cuán realistas eran los sonidos generados en comparación con las imágenes. Los resultados fueron alentadores, ya que los participantes prefirieron el audio de nuestro modelo sobre los demás, confirmando sus capacidades.

Además, probamos nuestro modelo en el conjunto de datos EPIC-KITCHENS, encontrando un éxito similar. Nuestro modelo produjo mejores resultados en términos de generación de sonido en comparación con otros modelos, demostrando su capacidad para generalizar a varios conjuntos de datos.

Una aplicación emocionante que exploramos es generar efectos de sonido para juegos de realidad virtual. Al probar nuestro modelo en videos de un juego de cocina, encontramos que podía producir con éxito sonidos sincronizados para las acciones, mejorando la experiencia del usuario en entornos inmersivos.

En conclusión, nuestro modelo aborda el desafío de generar sonidos de acción que se alineen con lo que está pasando en los videos, especialmente cuando el ruido de fondo puede interferir con la claridad del audio. La capacidad de separar los sonidos de acción de los sonidos ambientales proporciona a los usuarios control sobre lo que oyen al utilizar contenido de video, ya sea para películas o videojuegos.

Mirando hacia el futuro, planeamos investigar cómo podemos aplicar nuestros modelos de generación de audio a imágenes sintéticas en aplicaciones de realidad virtual, mejorando aún más la experiencia audio-visual para los usuarios.

Entendiendo los Sonidos de Acción

En nuestras experiencias diarias, interactuamos regularmente con varios objetos y acciones que producen sonidos. Cómo se perciben estos sonidos puede diferir según factores como el tipo de acción, los materiales involucrados y el entorno. Por ejemplo, el sonido producido al revolver una taza de café es diferente al de cortar verduras, aunque ambas son acciones comunes.

Muchos de los intentos de desarrollar sistemas de aprendizaje audio-visual se han centrado en reconocer actividades humanas dentro de videos. Estos sistemas tienden a desarrollarse utilizando videos filmados desde un punto de vista externo. En contraste, los videos egocéntricos capturan acciones desde la perspectiva de la persona que realiza la actividad, ofreciendo una representación más cercana de las acciones así como de los sonidos que las acompañan.

Al analizar la generación de sonido, necesitamos considerar la relación entre los sonidos que escuchamos y las acciones que vemos. Los sonidos de acción son a menudo breves y rápidos, mientras que los sonidos de fondo pueden durar más y ser menos relevantes para la acción principal. Esta complejidad hace que sea complicado generar un sonido que sea a la vez significativo y alineado con las acciones visibles en el video.

Desentrelazando Sonidos de Acción y Ambientales

Una barrera clave para generar sonidos con precisión radica en separar efectivamente los sonidos de acción de los sonidos de fondo. Los métodos tradicionales tendían a fusionar ambos tipos, lo que llevaba a problemas donde los sonidos generados no reflejaban con precisión la acción. En contraste, nuestro enfoque reconoce que mientras los sonidos de acción son efímeros, los sonidos ambientales pueden persistir durante el video, complicando los procesos de entrenamiento y generación.

Para nuestro modelo, nos dimos cuenta de que utilizar clips de audio del mismo video pero en diferentes marcas de tiempo podría mejorar significativamente nuestro entrenamiento. Esto permite que el modelo reconozca los sonidos ambientales que podrían estar presentes sin dejar que interfieran con los sonidos de acción.

En términos prácticos, esto significa que cuando entrenamos nuestro modelo en un video silencioso, podemos proporcionarle audio tomado de un clip vecino en el mismo video. Este método permite que nuestro modelo aprenda a enfocarse en las acciones destacadas en el video mientras ignora sonidos de fondo irrelevantes que no contribuyen al contexto general de la acción.

Al generar audio, el modelo recupera un clip de sonido relevante que se alinea bien con la entrada visual. Al evaluar la similitud entre el video silencioso y los clips de audio almacenados, podemos obtener el sonido más relevante para el contexto visual dado.

Este enfoque proporciona un camino más claro para generar sonidos de acción más precisos, ya que el modelo ahora tiene la capacidad de aislar lo que está sucediendo visualmente de lo que es ruido irrelevante.

Aplicaciones Prácticas

Las implicaciones de nuestro modelo van más allá de la investigación. En películas y videojuegos, el sonido desempeña un papel vital en la creación de experiencias inmersivas. Con la capacidad de generar sonidos de acción que encajan en el contexto visual, cineastas y desarrolladores de juegos pueden crear contenido más atractivo.

En realidad virtual, donde las interacciones pueden ser complejas e involucrar múltiples acciones simultáneas, nuestro modelo permite la generación dinámica de sonido que se ajusta a medida que los usuarios realizan sus acciones. Por ejemplo, si un jugador en un juego de cocina interactúa con varios ingredientes, los sonidos podrían cambiar de acuerdo con cada acción específica, mejorando su experiencia general.

Nuestro modelo también abre la puerta a aplicaciones innovadoras en otras áreas, incluyendo educación y simulaciones de entrenamiento, donde sonidos realistas pueden mejorar entornos de aprendizaje al proporcionar retroalimentación alineada con las acciones.

Direcciones Futuras

De cara al futuro, planeamos explorar todo el potencial de nuestro sistema de generación de sonido a partir de acciones. Esto incluye investigar cómo podemos aplicar nuestro modelo a imágenes y videos sintéticos en contextos de realidad virtual. Al hacerlo, buscamos mejorar la experiencia audio-visual dentro de entornos virtuales, haciendo que las interacciones se sientan aún más inmersivas y reactivas.

Además, continuaremos refinando nuestro modelo para mejorar la calidad y relevancia de los sonidos generados. Este trabajo continuo tiene como objetivo ampliar el rango de sonidos de acción capturados y mejorar el rendimiento del modelo en contextos variados, convirtiéndolo en una herramienta versátil para muchas aplicaciones.

En resumen, nuestros esfuerzos por crear un modelo que pueda generar sonidos realistas mientras separa los sonidos de acción del ruido de fondo han sentado las bases para avances emocionantes en el cine, los videojuegos y más allá. Al aprovechar datos tomados en entornos reales y centrarnos en las complejidades de las acciones humanas y la generación de sonido, estamos bien posicionados para liderar en este campo innovador.

Fuente original

Título: Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

Resumen: Generating realistic audio for human actions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets, Ego4D and EPIC-KITCHENS, and we introduce Ego4D-Sounds -- 1.2M curated clips with action-audio correspondence. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our approach is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.

Autores: Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman

Última actualización: 2024-07-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.09272

Fuente PDF: https://arxiv.org/pdf/2406.09272

Licencia: https://creativecommons.org/publicdomain/zero/1.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares