Presentamos NU-AIR: Conjunto de Datos Aéreos para Análisis Urbano
NU-AIR ofrece tomas aéreas únicas para detectar personas y vehículos en las ciudades.
― 7 minilectura
Tabla de contenidos
- Descripción del Conjunto de Datos
- Tecnología Utilizada
- Importancia de los Grandes Conjuntos de Datos
- Contribuciones Clave
- Evaluación de Algoritmos
- Trabajo Relacionado
- Configuración de Grabación
- Proceso de Anotación
- Formato del Conjunto de Datos
- Evaluación Experimental
- Uso de Codificación Voxel
- Pruebas con Redes Neuronales
- Resultados
- Limitaciones
- Conclusión
- Fuente original
- Enlaces de referencia
Se ha creado un nuevo conjunto de datos para ayudar a las máquinas a reconocer y localizar personas y vehículos en áreas urbanas. Este conjunto de datos se llama NU-AIR y es el primero de su tipo que utiliza imágenes aéreas para recopilar información sobre escenas urbanas. Las grabaciones se hicieron con un tipo especial de cámara montada en un dron y se enfocan en capturar diferentes entornos como intersecciones concurridas, caminos peatonales y campus universitarios.
Descripción del Conjunto de Datos
NU-AIR consta de 70.75 minutos de video grabados en un entorno urbano. La cámara utilizada para estas grabaciones tiene una resolución de 640 por 480 píxeles. Las imágenes incluyen varias condiciones de luz y alturas, capturando multitudes de personas y diferentes tipos de vehículos en escenas de la calle. Se realizaron anotaciones manuales en las grabaciones para identificar y etiquetar las ubicaciones de 93,204 vehículos y peatones. Esta información es esencial para entrenar programas informáticos que comprendan e interpreten lo que ven.
Tecnología Utilizada
Las grabaciones se hicieron con un tipo especial de cámara conocida como Cámara de Eventos. A diferencia de las cámaras normales que capturan imágenes a intervalos fijos, las cámaras de eventos detectan cambios en la intensidad de la luz en cada píxel. Cada evento registra el momento del cambio, la posición del píxel, y si la luz se volvió más brillante o más oscura. Esta tecnología permite grabaciones más rápidas y precisas, haciéndola más adecuada para objetos en movimiento rápido como los vehículos.
Importancia de los Grandes Conjuntos de Datos
Tener conjuntos de datos grandes y bien anotados es crucial para crear algoritmos efectivos de visión por computadora. Sin embargo, las cámaras de eventos pueden ser caras, limitando el acceso para muchos investigadores. Actualmente, hay pocos conjuntos de datos neuromórficos disponibles, especialmente aquellos que presentan Entornos Urbanos. NU-AIR llena este vacío al proporcionar imágenes aéreas para análisis. Este conjunto de datos puede ayudar en el diseño y prueba de nuevos algoritmos de visión por computadora enfocados en entornos urbanos.
Contribuciones Clave
Los principales elementos de este conjunto de datos incluyen:
- Una colección de código abierto de 70.75 minutos de imágenes divididas en segmentos de 15 segundos.
- Un total de 283 segmentos disponibles para que los investigadores analicen.
- Grabaciones capturadas de varios entornos urbanos, incluyendo un campus universitario, intersecciones de tráfico y caminos peatonales, tanto de día como de noche.
- Anotaciones para dos clases: personas y vehículos, con un total de 93,204 etiquetas.
Este conjunto de datos permite a los investigadores desarrollar y evaluar nuevos algoritmos específicamente para tareas de visión basadas en eventos en entornos urbanos.
Evaluación de Algoritmos
Para evaluar la efectividad del conjunto de datos NU-AIR, se entrenaron varios tipos de redes neuronales en él. Estos incluyen tres Redes Neuronales Espontáneas (SNN) y diez Redes Neuronales Profundas (DNN). Los resultados mostraron que los modelos entrenados en NU-AIR tuvieron un rendimiento competitivo con otros conjuntos de datos bien conocidos. Esto demuestra que NU-AIR es un recurso valioso para entrenar y probar nuevos modelos de visión por computadora.
Trabajo Relacionado
Ya existen varios conjuntos de datos para la detección de peatones y vehículos, principalmente utilizando cámaras tradicionales basadas en fotogramas. Conjuntos de datos conocidos como ETH y KITTI se han utilizado para propósitos de entrenamiento y evaluación, proporcionando información valiosa para los investigadores. Sin embargo, pocos conjuntos de datos capturan vistas aéreas o entornos urbanos utilizando cámaras de eventos. La mayoría de los conjuntos de datos actuales son interiores o en entornos controlados.
Configuración de Grabación
Las imágenes para NU-AIR se recopilaron utilizando una cámara de eventos Prophesee Gen3.1 de resolución VGA montada en un dron DJI M100. Esta cámara fue cuidadosamente posicionada para capturar el entorno urbano desde diferentes ángulos. El dron se operó de manera segura mientras se capturaba footage en varias ubicaciones en Nueva Jersey, EE. UU. Se grabaron un total de 70.75 minutos de footage a lo largo de una semana, cubriendo diferentes escenarios de luz y clima.
Proceso de Anotación
Las grabaciones se procesaron utilizando los eventos detectados por la cámara para crear imágenes en escala de grises. Se asignó a anotadores humanos la tarea de marcar las ubicaciones de personas y vehículos en las imágenes. Se proporcionaron instrucciones detalladas para minimizar errores, y las anotaciones fueron revisadas cuidadosamente por expertos para asegurar su precisión.
Formato del Conjunto de Datos
El conjunto de datos NU-AIR está estructurado en 14 sesiones de grabación continuas, que se han dividido en segmentos de 15 segundos. Estos segmentos están categorizados en grupos de entrenamiento, validación y prueba. Este enfoque estructurado permite fácil acceso y uso por parte de los investigadores. Cada muestra se almacena en un formato específico para facilitar un análisis posterior.
Evaluación Experimental
Para evaluar la calidad del conjunto de datos, se tomaron varias medidas, incluidas las dimensiones de los cuadros delimitadores para peatones y vehículos. Esta información puede ayudar a los investigadores a comprender la escala y las características de los objetos capturados dentro del conjunto de datos.
Uso de Codificación Voxel
Se introdujo la codificación de cubos voxel para representar los datos de eventos. Este método mantiene tanto el momento como la ubicación de cada evento, permitiendo a los investigadores recopilar información completa sin perder datos críticos. A diferencia de otros métodos que pueden simplificar la representación de datos, los cubos voxel proporcionan una vista más detallada, lo cual es crucial para analizar entornos urbanos complejos.
Pruebas con Redes Neuronales
El conjunto de datos se utilizó para entrenar varios tipos de redes neuronales. Se evaluaron las redes neuronales espinosas (SNN), que operan de manera diferente a los modelos tradicionales de aprendizaje profundo, por su rendimiento. Se probaron tres configuraciones, mostrando resultados competitivos en comparación con estudios anteriores que utilizaron otros grandes conjuntos de datos.
Resultados
El rendimiento de los modelos entrenados en NU-AIR mostró resultados prometedores. Las SNN y DNN que se probaron alcanzaron niveles de precisión competitivos, demostrando la efectividad del entrenamiento en este nuevo conjunto de datos. Los hallazgos sugirieron que modelos más grandes generalmente tienen un mejor rendimiento, pero los modelos más pequeños aún tienen sus ventajas, especialmente en situaciones de bajo consumo de energía.
Limitaciones
Vale la pena mencionar algunas limitaciones. Las SNN se evaluaron en potentes GPUs, lo que puede no reflejar cómo rendirían en los dispositivos de bajo consumo previstos. Además, las DNN no consideraron datos de color o temporales, lo que podría limitar su rendimiento. Por último, los datos se recopilaron solo en una ciudad, lo que puede restringir la aplicabilidad más amplia de los hallazgos.
Conclusión
Esta investigación presenta el conjunto de datos NU-AIR, que se centra en detectar y localizar peatones y vehículos en entornos urbanos. El conjunto de datos ha sido completamente anotado y está disponible de forma abierta para que los investigadores lo utilicen. Los resultados competitivos de las evaluaciones de redes neuronales indican que este nuevo conjunto de datos puede tener un impacto significativo en el desarrollo en el campo de la visión por computadora. Los esfuerzos futuros probablemente extenderán estos hallazgos para abarcar escenas urbanas más variadas y mejorar los algoritmos existentes.
Título: NU-AIR -- A Neuromorphic Urban Aerial Dataset for Detection and Localization of Pedestrians and Vehicles
Resumen: This paper presents an open-source aerial neuromorphic dataset that captures pedestrians and vehicles moving in an urban environment. The dataset, titled NU-AIR, features 70.75 minutes of event footage acquired with a 640 x 480 resolution neuromorphic sensor mounted on a quadrotor operating in an urban environment. Crowds of pedestrians, different types of vehicles, and street scenes featuring busy urban environments are captured at different elevations and illumination conditions. Manual bounding box annotations of vehicles and pedestrians contained in the recordings are provided at a frequency of 30 Hz, yielding 93,204 labels in total. Evaluation of the dataset's fidelity is performed through comprehensive ablation study for three Spiking Neural Networks (SNNs) and training ten Deep Neural Networks (DNNs) to validate the quality and reliability of both the dataset and corresponding annotations. All data and Python code to voxelize the data and subsequently train SNNs/DNNs has been open-sourced.
Autores: Craig Iaboni, Thomas Kelly, Pramod Abichandani
Última actualización: 2024-07-30 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2302.09429
Fuente PDF: https://arxiv.org/pdf/2302.09429
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.