Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Apresentando o NU-AIR: Conjunto de Dados Aéreos para Análise Urbana

A NU-AIR oferece imagens aéreas únicas pra detectar pessoas e veículos nas cidades.

― 7 min ler


Lançamento do DatasetLançamento do DatasetNU-AIRurbanos.capacidades de detecção de objetosNovo conjunto de dados melhora as
Índice

Um novo conjunto de dados foi criado para ajudar as máquinas a reconhecerem e localizarem pessoas e veículos em áreas urbanas. Esse conjunto de dados se chama NU-AIR e é o primeiro do tipo que usa imagens aéreas para coletar informações sobre cenas urbanas. As gravações foram feitas com um tipo especial de câmera montada em um drone e focam em capturar diferentes ambientes, como cruzamentos movimentados, caminhos para pedestres e campi universitários.

Visão Geral do Conjunto de Dados

O NU-AIR consiste em 70,75 minutos de vídeo gravados em um ambiente urbano. A câmera usada para fazer essas gravações tem uma resolução de 640 por 480 pixels. As imagens incluem várias condições de iluminação e altitudes, capturando multidões de pessoas e diferentes tipos de veículos em cenários de rua. Anotações manuais foram feitas nas gravações para identificar e rotular as localizações de 93.204 veículos e pedestres. Essas informações são essenciais para treinar programas de computador para entender e interpretar o que eles veem.

Tecnologia Usada

As gravações foram feitas com uma câmera especial conhecida como Câmera de Eventos. Ao contrário das câmeras comuns que capturam imagens em intervalos fixos, as câmeras de eventos detectam mudanças na intensidade da luz em cada pixel. Cada evento registra o tempo da mudança, a posição do pixel e se a luz ficou mais clara ou mais escura. Essa tecnologia permite gravações mais rápidas e precisas, sendo mais adequada para objetos em movimento rápido, como veículos.

Importância de Grandes Conjuntos de Dados

Ter grandes conjuntos de dados bem anotados é crucial para criar algoritmos de visão computacional eficazes. No entanto, as câmeras de eventos podem ser caras, limitando o acesso para muitos pesquisadores. Atualmente, existem poucos conjuntos de dados neuromórficos disponíveis, especialmente aqueles com Ambientes Urbanos. O NU-AIR preenche essa lacuna ao fornecer gravações aéreas para análise. Esse conjunto de dados pode ajudar no design e teste de novos algoritmos de visão computacional voltados para ambientes urbanos.

Contribuições Chave

Os principais elementos deste conjunto de dados incluem:

  • Uma coleção de código aberto com 70,75 minutos de gravação divididos em segmentos de 15 segundos.
  • Um total de 283 segmentos disponíveis para pesquisadores analisarem.
  • Gravações capturadas de vários ambientes urbanos, incluindo um campus universitário, cruzamentos de tráfego e caminhos para pedestres, tanto de dia quanto à noite.
  • Anotações para duas classes: pessoas e veículos, com 93.204 rótulos no total.

Esse conjunto de dados permite que pesquisadores desenvolvam e avaliem novos algoritmos especificamente para tarefas de visão baseadas em eventos em ambientes urbanos.

Avaliação de Algoritmos

Para avaliar a eficácia do conjunto de dados NU-AIR, vários tipos de redes neurais foram treinados com ele. Isso inclui três Redes Neurais Espinhadas (SNNs) e dez Redes Neurais Profundas (DNNs). Os resultados mostraram que os modelos treinados no NU-AIR tiveram desempenho competitivo com outros conjuntos de dados bem conhecidos. Isso demonstra que NU-AIR é um recurso valioso para treinar e testar novos modelos de visão computacional.

Trabalhos Relacionados

Já existem vários conjuntos de dados para detecção de pedestres e veículos, principalmente usando câmeras tradicionais baseadas em quadros. Conjuntos de dados bem conhecidos, como ETH e KITTI, foram usados para fins de treinamento e avaliação, fornecendo informações valiosas para pesquisadores. No entanto, poucos conjuntos de dados capturam vistas aéreas ou cenários urbanos usando câmeras de eventos. A maioria dos conjuntos de dados atuais são ambientes internos ou controlados.

Configuração da Gravação

As gravações para o NU-AIR foram coletadas usando uma câmera de eventos Prophesee Gen3.1 de resolução VGA montada em um drone DJI M100. Essa câmera foi posicionada cuidadosamente para capturar o ambiente urbano de diferentes ângulos. O drone foi operado de forma segura enquanto capturava imagens em várias locais em New Jersey, EUA. No total, 70,75 minutos de gravações foram feitas ao longo de uma semana, cobrindo diferentes cenários de iluminação e clima.

Processo de Anotação

As gravações foram processadas usando os eventos detectados pela câmera para criar imagens em escala de cinza. Anotadores humanos foram encarregados de marcar as localizações de pessoas e veículos nas imagens. Instruções detalhadas foram fornecidas para minimizar erros, e as anotações foram revisadas minuciosamente por especialistas para garantir precisão.

Formato do Conjunto de Dados

O conjunto de dados NU-AIR é estruturado em 14 sessões de gravação contínuas, que foram divididas em segmentos de 15 segundos. Esses segmentos são categorizados em grupos de treinamento, validação e teste. Essa abordagem estruturada permite fácil acesso e uso pelos pesquisadores. Cada amostra é armazenada em um formato específico para facilitar a análise posterior.

Avaliação Experimental

Para avaliar a qualidade do conjunto de dados, várias medições foram feitas, incluindo dimensões de caixas delimitadoras para pedestres e veículos. Essas informações podem ajudar os pesquisadores a entender a escala e as características dos objetos capturados dentro do conjunto de dados.

Uso de Codificação Voxel

A codificação de cubos voxel foi introduzida para representar os dados de eventos. Esse método mantém tanto o tempo quanto a localização de cada evento, permitindo que os pesquisadores coletem informações abrangentes sem perder dados críticos. Ao contrário de outros métodos que podem simplificar a representação dos dados, os cubos voxel fornecem uma visão mais detalhada, o que é crucial para analisar ambientes urbanos complexos.

Testes com Redes Neurais

O conjunto de dados foi usado para treinar vários tipos de redes neurais. Redes neurais espinhadas (SNNs), que operam de forma diferente em relação aos modelos tradicionais de aprendizado profundo, foram avaliadas quanto ao desempenho. Três configurações foram testadas, mostrando resultados competitivos em comparação com estudos anteriores que usaram outros grandes conjuntos de dados.

Resultados

O desempenho dos modelos treinados no NU-AIR mostrou resultados promissores. As SNNs e DNNs que foram testadas alcançaram níveis de precisão competitivos, demonstrando a eficácia do treinamento nesse novo conjunto de dados. As descobertas sugeriram que modelos maiores geralmente têm um desempenho melhor, mas modelos menores ainda têm suas vantagens, especialmente em situações de baixo consumo de energia.

Limitações

Algumas limitações merecem ser mencionadas. As SNNs foram avaliadas em GPUs poderosas, o que pode não refletir como elas se sairiam em dispositivos de baixo consumo de energia. Além disso, as DNNs não consideraram dados de cor ou temporais, o que poderia limitar seu desempenho. Por último, os dados foram coletados apenas de uma cidade, o que pode restringir a aplicabilidade das descobertas em um contexto mais amplo.

Conclusão

Essa pesquisa apresenta o conjunto de dados NU-AIR, que foca na detecção e localização de pedestres e veículos em ambientes urbanos. O conjunto de dados foi completamente anotado e é de acesso aberto para os pesquisadores usarem. Os resultados competitivos das avaliações de redes neurais indicam que esse novo conjunto de dados pode ter um impacto significativo no desenvolvimento no campo da visão computacional. Futuras iniciativas provavelmente vão ampliar essas descobertas para abranger cenas urbanas mais variadas e melhorar os algoritmos existentes.

Fonte original

Título: NU-AIR -- A Neuromorphic Urban Aerial Dataset for Detection and Localization of Pedestrians and Vehicles

Resumo: This paper presents an open-source aerial neuromorphic dataset that captures pedestrians and vehicles moving in an urban environment. The dataset, titled NU-AIR, features 70.75 minutes of event footage acquired with a 640 x 480 resolution neuromorphic sensor mounted on a quadrotor operating in an urban environment. Crowds of pedestrians, different types of vehicles, and street scenes featuring busy urban environments are captured at different elevations and illumination conditions. Manual bounding box annotations of vehicles and pedestrians contained in the recordings are provided at a frequency of 30 Hz, yielding 93,204 labels in total. Evaluation of the dataset's fidelity is performed through comprehensive ablation study for three Spiking Neural Networks (SNNs) and training ten Deep Neural Networks (DNNs) to validate the quality and reliability of both the dataset and corresponding annotations. All data and Python code to voxelize the data and subsequently train SNNs/DNNs has been open-sourced.

Autores: Craig Iaboni, Thomas Kelly, Pramod Abichandani

Última atualização: 2024-07-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2302.09429

Fonte PDF: https://arxiv.org/pdf/2302.09429

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes