Drones e A Intuição Humana: Uma Parceria que Salva Vidas
Combinar drones com a visão humana melhora as buscas em emergências.
Arturo Miguel Russell Bernal, Jane Cleland-Huang, Walter Scheirer
― 7 min ler
Índice
Em situações de emergência, encontrar uma pessoa perdida ou ferida rapidamente pode fazer toda a diferença entre a vida e a morte. Com o aumento dos sistemas aéreos não tripulados pequenos (sUAS), que a galera costuma chamar de Drones, a possibilidade de buscar de cima pra baixo virou um divisor de águas. Mas encontrar pessoas do céu não é tão simples assim. Essa tarefa é complicada por questões como objetos que bloqueiam a visão, conhecidos como oclusão, e o fato de que as pessoas podem parecer bem pequenas e borradas à distância.
Os operadores humanos que pilotam esses drones podem acabar cansando depois de horas de busca. Essa fadiga, junto com a quantidade limitada de operadores, torna a tecnologia um aliado importante. Equipando drones com capacidades de Visão Computacional, os respondentes podem melhorar seus esforços de busca e liberar recursos humanos para outras tarefas críticas.
Desafios na Detecção Aérea
Embora os drones tenham o potencial de ajudar muito em missões de busca e resgate, seus sistemas de visão computacional costumam ter dificuldades com as condições do mundo real. Por exemplo, quando a visão é bloqueada ou a resolução é baixa, a capacidade dos drones de detectar pessoas diminui. Isso dificulta o Desempenho da tecnologia em ambientes desafiadores, onde é vital tomar decisões rápidas.
Imagina tentar ver um amigo em um parque cheio de gente lá de cima. Pode ser complicado se árvores ou outras pessoas bloquearem sua visão. É praticamente isso que os drones enfrentam quando tentam encontrar alguém em uma emergência de verdade. Os obstáculos podem vir de vários ângulos, como detritos depois de um terremoto, fumaça de um incêndio ou até mesmo a paisagem natural.
A Necessidade de Dados
Para melhorar a capacidade dos drones de encontrar pessoas nessas situações difíceis, os pesquisadores coletaram muitos dados. Eles analisaram imagens específicas e pediram a voluntários pra ajudar participando de um estudo. A ideia era descobrir como os humanos buscam indivíduos em imagens que nem sempre são claras.
Os pesquisadores usaram um conjunto de dados chamado NOMAD, que contém milhares de imagens capturadas por drones de várias distâncias. No estudo, eles criaram um experimento que pedia aos participantes para identificar uma pessoa nessas imagens aéreas. Ao observar como os participantes buscavam, os pesquisadores puderam reunir insights valiosos sobre o comportamento humano em tarefas visuais.
Nesses experimentos, as pessoas moviam o mouse pela tela para indicar onde estavam olhando. Informações como quanto tempo passaram examinando certas áreas foram registradas. Isso foi importante pra entender como os humanos abordam a tarefa de avistar alguém do céu.
A Criação de um Conjunto de Dados Comportamentais
A equipe de pesquisa se dedicou bastante a construir um conjunto de dados chamado Psych-ER para analisar como as pessoas se saem ao procurar indivíduos em imagens aéreas. Eles reuniram mais de 5.000 imagens do conjunto de dados NOMAD, onde cada imagem foi analisada quanto à precisão da busca e tempos de resposta. Por que tantos detalhes? Porque entender como os humanos veem e interpretam imagens pode ajudar a melhorar o desempenho dos sistemas de visão computacional dos drones.
O conjunto de dados Psych-ER inclui:
- Dados do comportamento de busca humano de milhares de imagens, rastreando onde os participantes olharam e quanto tempo se concentraram em áreas específicas.
- Uma comparação das seleções deles com marcadores de caixa reais que indicavam onde a pessoa deveria estar.
- O tempo que cada participante levou para responder a cada imagem.
Esse novo conjunto de dados serve como um guia para os sistemas de visão computacional aprenderem com a forma como os humanos se comportam ao procurar alguém.
Uma Nova Abordagem para Adaptação de Perdas
Na visão computacional, "perda" se refere a uma métrica que mede quão bem um modelo está se saindo. Basicamente, é uma forma de entender quão longe as previsões do computador estão dos resultados reais. Ao adaptar a função de perda com base no comportamento humano observado no conjunto de dados Psych-ER, os pesquisadores queriam melhorar a capacidade de um modelo de localizar pessoas em imagens.
A equipe experimentou com um modelo chamado RetinaNet, usando sua nova função de perda adaptada. Eles descobriram que essa abordagem melhorou o desempenho da detecção, especialmente a maiores distâncias e sob vários níveis de oclusão. Isso significa que o modelo aprendeu a dar mais ênfase aonde deveria olhar, assim como os humanos.
Descobertas e Resultados
Os resultados do estudo destacaram vários pontos importantes sobre o uso de drones com capacidades de visão computacional em situações de emergência.
-
O Desempenho Humano é Melhor com Oclusão: Os humanos costumam conseguir identificar objetos ocluídos melhor do que os modelos de computador. Isso levanta a ideia de que treinar sistemas de visão computacional com a ajuda humana poderia levar a melhores resultados.
-
Importância da Localização em vez de Precisão: Quando os humanos foram convidados a encontrar uma pessoa em uma imagem, eles se concentraram mais em identificar a localização da pessoa do que em desenhar uma caixa perfeita ao seu redor. Esse insight ajudou a moldar a função de perda para o modelo de computador, de modo que prioriza onde a pessoa está em vez de quão justamente deve cercá-la.
O Papel da Tecnologia na Resposta a Emergências
A integração de drones em cenários de resposta a emergências está se tornando cada vez mais importante. Os drones não são apenas para tirar selfies ou entregar pacotes; eles podem ser ferramentas que salvam vidas quando a situação é crítica. A capacidade aprimorada de localizar indivíduos do céu, junto com a compreensão do comportamento humano, pode melhorar significativamente as operações de busca e resgate.
Os respondentes podem usar drones para cobrir grandes áreas rapidamente, permitindo que eles identifiquem possíveis vítimas ou pessoas em apuros. Usando visão computacional que se adapta com base em como os humanos percebem imagens, as chances de sucesso em resgatar indivíduos melhoram muito.
Direções Futuras
A pesquisa não para por aqui. As possibilidades de refinar sistemas de visão computacional usando dados comportamentais humanos são vastas. Os esforços futuros incluirão:
- Analisar todos os dados comportamentais coletados para extrair insights ainda mais úteis.
- Desenvolver modelos de visão computacional personalizados especificamente adaptados para situações de emergência.
- Mais aplicações no mundo real para ver como os modelos aprimorados se saem quando implantados em drones.
À medida que a tecnologia evolui, é crucial que os pesquisadores continuem adaptando e melhorando os sistemas para atender às necessidades dos respondentes de emergência.
Conclusão
Resumindo, o trabalho sendo feito para combinar a tecnologia de drones com a compreensão humana para buscar pessoas em emergências é crucial. A criação do conjunto de dados Psych-ER, junto com o ajuste dos modelos de visão computacional, representa um avanço significativo nesse campo. Ao aproveitar os insights humanos, podemos criar sistemas mais inteligentes que podem, em última análise, levar a salvar vidas. Afinal, quando as coisas ficam complicadas, queremos que nossa tecnologia seja mais afiada do que os olhos cansados da nossa equipe de busca!
Fonte original
Título: Psych-Occlusion: Using Visual Psychophysics for Aerial Detection of Occluded Persons during Search and Rescue
Resumo: The success of Emergency Response (ER) scenarios, such as search and rescue, is often dependent upon the prompt location of a lost or injured person. With the increasing use of small Unmanned Aerial Systems (sUAS) as "eyes in the sky" during ER scenarios, efficient detection of persons from aerial views plays a crucial role in achieving a successful mission outcome. Fatigue of human operators during prolonged ER missions, coupled with limited human resources, highlights the need for sUAS equipped with Computer Vision (CV) capabilities to aid in finding the person from aerial views. However, the performance of CV models onboard sUAS substantially degrades under real-life rigorous conditions of a typical ER scenario, where person search is hampered by occlusion and low target resolution. To address these challenges, we extracted images from the NOMAD dataset and performed a crowdsource experiment to collect behavioural measurements when humans were asked to "find the person in the picture". We exemplify the use of our behavioral dataset, Psych-ER, by using its human accuracy data to adapt the loss function of a detection model. We tested our loss adaptation on a RetinaNet model evaluated on NOMAD against increasing distance and occlusion, with our psychophysical loss adaptation showing improvements over the baseline at higher distances across different levels of occlusion, without degrading performance at closer distances. To the best of our knowledge, our work is the first human-guided approach to address the location task of a detection model, while addressing real-world challenges of aerial search and rescue. All datasets and code can be found at: https://github.com/ArtRuss/NOMAD.
Autores: Arturo Miguel Russell Bernal, Jane Cleland-Huang, Walter Scheirer
Última atualização: 2024-12-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.05553
Fonte PDF: https://arxiv.org/pdf/2412.05553
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.