Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Robótica

Dataset BatVision: Mezclando Sonido y Vista

Un conjunto de datos que explora la integración de datos de audio y visuales para la percepción ambiental.

― 6 minilectura


BatVision Dataset: ElBatVision Dataset: Elsonido se encuentra conla vistapredicción de profundidad audio-visual.El conjunto de datos mejora la
Tabla de contenidos

El conjunto de datos BatVision consiste en grabaciones de Audio y video recopiladas para estudiar cómo se pueden usar juntos el sonido y la vista. Se creó en diferentes lugares, principalmente en UC Berkeley y la Ecole des Mines de París, utilizando pequeños robots equipados con sensores. Los entornos variaron, incluyendo aulas, oficinas y caminos exteriores, lo que permitió diferentes experiencias acústicas.

Recopilación de Datos

Para crear este conjunto de datos, los investigadores enviaron robots a través de varios espacios interiores mientras generaban sonidos llamados chirridos. Estos chirridos involucraban cambios de frecuencia y se grabaron usando micrófonos y cámaras especiales. Los chirridos se usaron para observar cómo las ondas sonoras rebotaban en el ambiente, similar a cómo los murciélagos usan el sonido para localizar objetos.

En total, hubo miles de grabaciones. Por ejemplo, en UC Berkeley, se recopilaron más de 52,000 instancias de sonido en diferentes partes del edificio. Las áreas tenían diseños y decoraciones únicas, lo que afectaba cómo el sonido viajaba y reverberaba.

Usando diferentes tipos de micrófonos, los investigadores lograron capturar los sonidos y los ecos resultantes. Una configuración involucraba un altavoz que emitía chirridos entre micrófonos colocados a unos 23.5 cm de distancia. Los robots estaban diseñados para moverse silenciosamente para evitar ruido extra, ayudando a los investigadores a obtener grabaciones de sonido más claras.

Datos de UC Berkeley

En UC Berkeley, los investigadores recopilaron una gran cantidad de datos de sonido. Se centraron en dos pisos de un edificio académico, recopilando varias instancias en pasillos, salas de conferencias y espacios abiertos. Los datos se organizaron en conjuntos para entrenamiento, validación y pruebas, asegurando que los diferentes sonidos se mantuvieran separados para mantener la precisión.

Los robots usaron una cámara estéreo para tomar fotos de los alrededores y luego generaron mapas de Profundidad que mostraban qué tan lejos estaban los objetos. Limitaron las medidas de profundidad para reducir errores causados por ecos lejanos, considerando solo sonidos de hasta 12 metros de distancia.

Datos de Ecole des Mines París

En Ecole des Mines París, el equipo grabó más de 3,000 instancias de sonido y visuales. Este conjunto de datos capturó una variedad de entornos diferentes, lo que ayudó a mejorar la diversidad general de las grabaciones. Los datos se dividieron nuevamente en conjuntos de entrenamiento, validación y prueba para gestionar la complejidad de las diferentes tareas.

Las configuraciones de Grabación eran similares a las utilizadas en Berkeley, pero el equipo usó un micrófono diferente para capturar sonidos. La sincronización entre los sonidos y los visuales involucró marcas de tiempo, asegurando que cada grabación coincidiera correctamente.

Desafíos Enfrentados

Recopilar datos en entornos de la vida real trajo desafíos que no aparecieron en entornos controlados. Muchas grabaciones se vieron influenciadas por ruidos externos, como el tráfico u otros sonidos típicos de edificios ocupados. Por lo tanto, los modelos entrenados con estos datos necesitan ser lo suficientemente robustos para manejar estos ruidos de fondo.

Dado que los robots se movían mientras grababan, hubo menos instancias desde la misma posición. Esta limitación ayudó al equipo a crear un modelo que pudiera adaptarse a varias condiciones, pero significó menos grabaciones de sonido y visuales coincidentes.

Predicción de Profundidad con el Conjunto de Datos

Los investigadores pueden usar el conjunto de datos BatVision para analizar cómo se puede predecir la profundidad a partir de datos de audio y visuales. Esto implica entrenar modelos que puedan aprender patrones de los datos grabados. Usando un método llamado U-Net, pueden procesar las señales de audio y predecir qué tan lejos están los objetos solo con el sonido.

Entrenar modelos con los datos de BatVision mostró resultados prometedores. El modelo U-Net pudo predecir efectivamente los diseños generales del espacio y las posiciones de los obstáculos. Incluso cuando el sonido era más claro debido a la ausencia de datos visuales, el modelo pudo inferir la profundidad solo con el audio.

Entrenamiento y Comparación de Modelos

Los investigadores también probaron diferentes métodos para predecir la profundidad usando datos de audio y visuales. Un enfoque involucró aprovechar modelos previamente entrenados que se centraban en el sonido y el reconocimiento de materiales. Este trabajo mostró que los modelos podían adaptarse exitosamente para trabajar con datos del mundo real como BatVision.

Los resultados revelaron que los modelos son capaces de aprender la profundidad a partir de datos de audio y video combinados. Sin embargo, predecir detalles finos, como cables u objetos pequeños, seguía siendo un desafío. Esto indica que, aunque los modelos funcionaron bien en general, todavía hay margen de mejora en la captura de detalles pequeños.

Aplicaciones Prácticas y Trabajo Futuro

Este conjunto de datos tiene un gran potencial para el futuro, particularmente en campos donde combinar señales de audio y visuales puede mejorar la comprensión de los entornos. Por ejemplo, podría beneficiar a la robótica, ayudando a las máquinas a percibir mejor su entorno.

El conjunto de datos BatVision también puede guiar a los investigadores en el desarrollo de mejores modelos que mejoren el rendimiento en varias tareas. Mirando hacia el futuro, otros Conjuntos de datos podrían incluir diferentes sonidos, como ultrasonido, permitiendo nuevas maneras para que los robots interactúen sin molestar a las personas cercanas.

Conclusión

El conjunto de datos BatVision es un paso importante para entender cómo funcionan juntos el sonido y la vista en entornos del mundo real. Al combinar datos de audio y visuales, proporciona un recurso valioso para mejorar la percepción de profundidad y ayudar a los investigadores en su trabajo.

A través de este conjunto de datos, los investigadores pueden refinar sus enfoques y esforzarse por una mejor precisión en la predicción de la disposición de los espacios basándose solo en el sonido. Abre la puerta a numerosas aplicaciones en robótica e investigación audiovisual, empujando los límites de lo que se puede lograr en campos que involucran la percepción del entorno.

Fuente original

Título: The Audio-Visual BatVision Dataset for Research on Sight and Sound

Resumen: Vision research showed remarkable success in understanding our world, propelled by datasets of images and videos. Sensor data from radar, LiDAR and cameras supports research in robotics and autonomous driving for at least a decade. However, while visual sensors may fail in some conditions, sound has recently shown potential to complement sensor data. Simulated room impulse responses (RIR) in 3D apartment-models became a benchmark dataset for the community, fostering a range of audiovisual research. In simulation, depth is predictable from sound, by learning bat-like perception with a neural network. Concurrently, the same was achieved in reality by using RGB-D images and echoes of chirping sounds. Biomimicking bat perception is an exciting new direction but needs dedicated datasets to explore the potential. Therefore, we collected the BatVision dataset to provide large-scale echoes in complex real-world scenes to the community. We equipped a robot with a speaker to emit chirps and a binaural microphone to record their echoes. Synchronized RGB-D images from the same perspective provide visual labels of traversed spaces. We sampled modern US office spaces to historic French university grounds, indoor and outdoor with large architectural variety. This dataset will allow research on robot echolocation, general audio-visual tasks and sound ph{\ae}nomena unavailable in simulated data. We show promising results for audio-only depth prediction and show how state-of-the-art work developed for simulated data can also succeed on our dataset. Project page: https://amandinebtto.github.io/Batvision-Dataset/

Autores: Amandine Brunetto, Sascha Hornauer, Stella X. Yu, Fabien Moutarde

Última actualización: 2024-03-01 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2303.07257

Fuente PDF: https://arxiv.org/pdf/2303.07257

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares