Sci Simple

New Science Research Articles Everyday

# Informática # Visión por Computador y Reconocimiento de Patrones

Drones y Perspicacia Humana: Una Asociación que Salva Vidas

Combinar drones con la visión humana mejora los esfuerzos de búsqueda en emergencias.

Arturo Miguel Russell Bernal, Jane Cleland-Huang, Walter Scheirer

― 7 minilectura


Los drones mejoran las Los drones mejoran las búsquedas de emergencia. drones. mejorar las capacidades de búsqueda de Aprovechando las ideas humanas para
Tabla de contenidos

En situaciones de emergencia, localizar a una persona perdida o herida rápidamente puede marcar la diferencia entre la vida y la muerte. Con el auge de los pequeños sistemas aéreos no tripulados (sUAS), comúnmente conocidos como Drones, la capacidad de Buscar desde el cielo se ha vuelto un cambio total en el juego. Sin embargo, encontrar personas desde el aire no es tan fácil como parece. Esta tarea se complica por problemas como objetos que obstruyen la vista, conocido como oclusión, y el hecho de que las personas pueden parecer bastante pequeñas y borrosas desde la distancia.

Los operadores humanos que pilotan estos drones pueden cansarse después de largas horas de búsqueda. Esta fatiga, combinada con un número limitado de operadores, hace que la tecnología sea una aliada importante. Al equipar a los drones con capacidades de Visión por computadora, los rescatistas pueden mejorar sus esfuerzos de búsqueda y liberar recursos humanos para otras tareas críticas.

Desafíos en la Detección Aérea

Aunque los drones tienen el potencial de ayudar mucho en misiones de búsqueda y rescate, sus sistemas de visión por computadora a menudo tienen problemas con las condiciones del mundo real. Por ejemplo, cuando la vista está obstruida o la resolución es baja, la capacidad de los drones para detectar personas disminuye. Esto dificulta que la tecnología funcione bien en entornos desafiantes donde la toma de decisiones rápida es vital.

Imagina tratar de encontrar a un amigo en un parque lleno de gente desde el cielo. Te podría costar si los árboles u otras personas bloquean tu vista. Eso es más o menos lo que enfrentan los drones cuando intentan encontrar a alguien en una situación de emergencia real. Los obstáculos pueden venir desde varios ángulos, como escombros después de un terremoto, humo de un incendio, o incluso solo del paisaje natural.

La Necesidad de Datos

Para mejorar la capacidad de los drones para encontrar personas en estas situaciones difíciles, los investigadores recopilaron un montón de datos. Miraron imágenes específicas y pidieron a voluntarios que ayudaran participando en un estudio. La idea era averiguar cómo los humanos buscan individuos en imágenes que no siempre son claras.

Los investigadores usaron un conjunto de datos llamado NOMAD, que contiene miles de imágenes capturadas por drones desde múltiples distancias. En su estudio, crearon un experimento que pedía a los participantes identificar a una persona en estas tomas aéreas. Al observar cómo buscaban los participantes, los investigadores pudieron reunir valiosos conocimientos sobre el comportamiento humano en tareas visuales.

En estos experimentos, las personas movían su mouse por la pantalla para indicar dónde estaban mirando. Se registró información como cuánto tiempo pasaban examinando ciertas áreas. Esto fue importante para entender cómo los humanos abordan la tarea de encontrar a alguien desde el cielo.

La Creación de un Conjunto de Datos de Comportamiento

El equipo de investigación dedicó mucho esfuerzo a construir un conjunto de datos llamado Psych-ER para analizar cómo las personas realizan búsquedas de individuos en imágenes aéreas. Reunieron más de 5,000 imágenes del conjunto de datos NOMAD, donde cada imagen fue analizada para cosas como precisión de búsqueda y tiempos de respuesta. ¿Por qué tanto detalle? Porque entender cómo los humanos ven e interpretan imágenes puede ayudar a mejorar el rendimiento de los sistemas de visión por computadora del drone.

El conjunto de datos Psych-ER incluye:

  1. Datos de comportamiento de búsqueda humana de miles de imágenes, rastreando dónde miraron los participantes y cuánto tiempo se centraron en áreas específicas.
  2. Una comparación de sus selecciones contra los marcadores de caja reales que indicaban dónde se suponía que debía estar la persona.
  3. El tiempo que cada participante tomó para responder a cada imagen.

Este nuevo conjunto de datos actúa como una guía para que los sistemas de visión por computadora aprendan de cómo se comportan los humanos al buscar a alguien.

Un Nuevo Enfoque para la Adaptación de Pérdida

En visión por computadora, "pérdida" se refiere a una métrica que mide qué tan bien se desempeña un modelo. Esencialmente, es una forma de entender qué tan lejos están las predicciones de una computadora de los resultados reales. Al adaptar la función de pérdida en función del comportamiento humano observado en el conjunto de datos Psych-ER, los investigadores buscaron mejorar la capacidad de un modelo para localizar personas en imágenes.

El equipo experimentó con un modelo llamado RetinaNet, utilizando su nueva función de pérdida adaptada. Descubrieron que este enfoque mejoró el rendimiento de detección, especialmente a mayores distancias y bajo varios niveles de oclusión. Esto significa que el modelo aprendió a poner más énfasis en dónde se suponía que debía mirar, justo como lo hicieron los humanos.

Hallazgos y Resultados

Los resultados del estudio destacaron varios puntos importantes sobre el uso de drones con capacidades de visión por computadora en situaciones de emergencia.

  1. El Rendimiento Humano es Mejor con Oclusión: Los humanos a menudo pueden detectar objetos ocluidos mejor que los modelos informáticos. Esto plantea la idea de que entrenar sistemas de visión por computadora con la entrada humana podría llevar a mejores resultados.

  2. Importancia de la Ubicación Sobre la Precisión: Cuando se pidió a los humanos encontrar a una persona en una imagen, se concentraron más en identificar la ubicación de la persona en lugar de dibujar una caja perfecta a su alrededor. Este conocimiento ayudó a dar forma a la función de pérdida del modelo informático para que priorizara dónde estaba la persona en lugar de cuán ajustadamente debía encapsularla.

El Papel de la Tecnología en la Respuesta a Emergencias

La integración de drones en escenarios de respuesta a emergencias se vuelve cada vez más importante. Los drones no son solo para tomar selfies o entregar paquetes; pueden ser herramientas que salvan vidas cuando las vidas están en juego. La mejorada capacidad de localizar individuos desde el cielo, junto con la comprensión del comportamiento humano, puede mejorar significativamente las operaciones de búsqueda y rescate.

Los rescatistas pueden utilizar drones para cubrir grandes áreas rápidamente, permitiéndoles detectar posibles víctimas o personas en apuros. Al usar visión por computadora que se adapta en función de cómo los humanos perciben imágenes, las probabilidades de éxito en el rescate de individuos mejoran enormemente.

Direcciones Futuras

La investigación no se detiene aquí. Las posibilidades para refinar los sistemas de visión por computadora utilizando datos de comportamiento humano son enormes. Los futuros esfuerzos incluirán:

  • Analizar todos los datos de comportamiento recopilados para extraer aún más información útil.
  • Desarrollar modelos de visión por computadora personalizados específicamente diseñados para situaciones de emergencia.
  • Aplicaciones del mundo real adicionales para ver cómo se desempeñan los modelos mejorados cuando se despliegan en drones.

A medida que la tecnología evoluciona, es crucial que los investigadores sigan adaptando y mejorando los sistemas para satisfacer las necesidades de los respondientes de emergencia.

Conclusión

En resumen, el trabajo que se está haciendo para combinar la tecnología de drones con la comprensión humana para buscar personas en emergencias es crucial. La creación del conjunto de datos Psych-ER, junto con el ajuste de los modelos de visión por computadora, representa un paso significativo hacia adelante en este campo. Al aprovechar las ideas humanas, podemos crear sistemas más inteligentes que, en última instancia, podrían salvar vidas. Después de todo, cuando las cosas se complican, queremos que nuestra tecnología sea más aguda que los ojos promedio de nuestro grupo de búsqueda cansado por la falta de café.

Fuente original

Título: Psych-Occlusion: Using Visual Psychophysics for Aerial Detection of Occluded Persons during Search and Rescue

Resumen: The success of Emergency Response (ER) scenarios, such as search and rescue, is often dependent upon the prompt location of a lost or injured person. With the increasing use of small Unmanned Aerial Systems (sUAS) as "eyes in the sky" during ER scenarios, efficient detection of persons from aerial views plays a crucial role in achieving a successful mission outcome. Fatigue of human operators during prolonged ER missions, coupled with limited human resources, highlights the need for sUAS equipped with Computer Vision (CV) capabilities to aid in finding the person from aerial views. However, the performance of CV models onboard sUAS substantially degrades under real-life rigorous conditions of a typical ER scenario, where person search is hampered by occlusion and low target resolution. To address these challenges, we extracted images from the NOMAD dataset and performed a crowdsource experiment to collect behavioural measurements when humans were asked to "find the person in the picture". We exemplify the use of our behavioral dataset, Psych-ER, by using its human accuracy data to adapt the loss function of a detection model. We tested our loss adaptation on a RetinaNet model evaluated on NOMAD against increasing distance and occlusion, with our psychophysical loss adaptation showing improvements over the baseline at higher distances across different levels of occlusion, without degrading performance at closer distances. To the best of our knowledge, our work is the first human-guided approach to address the location task of a detection model, while addressing real-world challenges of aerial search and rescue. All datasets and code can be found at: https://github.com/ArtRuss/NOMAD.

Autores: Arturo Miguel Russell Bernal, Jane Cleland-Huang, Walter Scheirer

Última actualización: 2024-12-07 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.05553

Fuente PDF: https://arxiv.org/pdf/2412.05553

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares