Drones et l'Intuition Humaine : Un Partenariat Qui Sauve Des Vies
Combiner des drones avec la vision humaine améliore les efforts de recherche en cas d'urgence.
Arturo Miguel Russell Bernal, Jane Cleland-Huang, Walter Scheirer
― 7 min lire
Table des matières
- Défis de la Détection Aérienne
- Le Besoin de Données
- La Création d'un Ensemble de Données Comportementales
- Une Nouvelle Approche de l'Adaptation de la Perte
- Conclusions et Résultats
- Le Rôle de la Technologie dans la Réponse aux Urgences
- Directions Futures
- Conclusion
- Source originale
- Liens de référence
Dans des situations d'urgence, retrouver rapidement une personne perdue ou blessée peut faire la différence entre la vie et la mort. Avec l'essor des petits systèmes aériens sans pilote (sUAS), souvent appelés Drones, la capacité de Chercher depuis le ciel a changé la donne. Cependant, trouver des gens depuis les airs n'est pas aussi simple qu'il y paraît. Cette tâche est compliquée par des problèmes tels que des objets obstruant la vue, appelés occlusion, et le fait que les gens peuvent sembler assez petits et flous de loin.
Les opérateurs humains qui pilotent ces drones peuvent se fatiguer après de longues heures de recherche. Cette fatigue, combinée à un nombre limité d'opérateurs, rend la technologie essentielle. En équipant les drones de capacités de Vision par ordinateur, les secouristes peuvent améliorer leurs efforts de recherche et libérer des ressources humaines pour d'autres tâches critiques.
Défis de la Détection Aérienne
Bien que les drones aient le potentiel d'aider grandement dans les missions de recherche et de sauvetage, leurs systèmes de vision par ordinateur ont souvent du mal avec les conditions du monde réel. Par exemple, lorsque la vue est obstruée ou que la résolution est basse, la capacité des drones à détecter des personnes diminue. Cela rend difficile pour la technologie de bien fonctionner dans des environnements difficiles où une prise de décision rapide est vitale.
Imagine essayer de repérer un ami dans un parc bondé depuis le ciel. Ça peut être compliqué si des arbres ou d'autres personnes obstruent ta vue. C'est à peu près ce que les drones rencontrent lorsqu'ils essaient de trouver quelqu'un dans une vraie situation d'urgence. Les obstacles peuvent venir de différents angles, comme des débris après un tremblement de terre, de la fumée d'un feu, ou même juste le paysage naturel.
Le Besoin de Données
Pour améliorer la capacité des drones à retrouver des gens dans ces situations difficiles, les chercheurs ont collecté beaucoup de données. Ils ont examiné des images spécifiques et demandé à des volontaires de participer à une étude. L'idée était de comprendre comment les humains recherchent des individus dans des images qui ne sont pas toujours claires.
Les chercheurs ont utilisé un ensemble de données appelé NOMAD, qui contient des milliers d'images capturées par des drones à différentes distances. Dans leur étude, ils ont créé une expérience demandant aux participants d'identifier une personne dans ces prises de vue aériennes. En observant comment les participants cherchaient, les chercheurs pouvaient recueillir des informations précieuses sur le comportement humain dans les tâches visuelles.
Dans ces expériences, les gens déplaçaient leur souris sur l'écran pour indiquer où ils regardaient. Des informations comme le temps passé à examiner certaines zones étaient enregistrées. C'était important pour comprendre comment les humains abordent la tâche de repérer quelqu'un depuis le ciel.
La Création d'un Ensemble de Données Comportementales
L'équipe de recherche a beaucoup travaillé pour construire un ensemble de données appelé Psych-ER afin d'analyser comment les gens se comportent en cherchant des individus dans des images aériennes. Ils ont rassemblé plus de 5 000 images de l'ensemble de données NOMAD, où chaque image a été analysée pour des éléments comme la précision de la recherche et les temps de réponse. Pourquoi tant de détails ? Parce que comprendre comment les humains voient et interprètent les images peut aider à améliorer les Performances des systèmes de vision par ordinateur des drones.
L'ensemble de données Psych-ER inclut :
- Des données sur le comportement de recherche humaine issues de milliers d'images, suivant où les participants regardaient et combien de temps ils se concentraient sur certaines zones.
- Une comparaison de leurs sélections avec de véritables marqueurs de boîte qui indiquaient où la personne était censée se trouver.
- Le temps que chaque participant a mis pour répondre à chaque image.
Cet nouvel ensemble de données agit comme un guide pour que les systèmes de vision par ordinateur apprennent du comportement humain lors de la recherche de quelqu'un.
Une Nouvelle Approche de l'Adaptation de la Perte
Dans la vision par ordinateur, "perte" fait référence à une métrique qui mesure combien un modèle performe bien. En gros, c'est une façon de comprendre à quel point les prédictions d'un ordinateur sont éloignées des résultats réels. En adaptant la fonction de perte basée sur le comportement humain observé dans l'ensemble de données Psych-ER, les chercheurs visaient à améliorer la capacité d'un modèle à localiser des personnes dans les images.
L'équipe a expérimenté avec un modèle appelé RetinaNet, utilisant leur nouvelle fonction de perte adaptée. Ils ont constaté que cette approche améliorait les performances de détection, surtout à plus grandes distances et sous divers niveaux d'occlusion. Cela signifie que le modèle a appris à accorder plus d'importance à l'endroit où il était censé regarder, tout comme les humains.
Conclusions et Résultats
Les résultats de l'étude ont mis en évidence plusieurs points importants concernant l'utilisation de drones avec des capacités de vision par ordinateur dans les situations d'urgence.
-
La Performance Humaine est Meilleure avec l'Occlusion : Les humains peuvent souvent repérer des objets occlus mieux que les modèles informatiques. Cela soulève l'idée que former les systèmes de vision par ordinateur avec l'apport humain pourrait mener à de meilleurs résultats.
-
Importance de la Localisation sur le Serrage : Quand on demandait aux humains de trouver une personne dans une image, ils se concentraient plus sur l'identification de la localisation de la personne plutôt que de dessiner une boîte parfaite autour d'eux. Cette idée a aidé à façonner la fonction de perte pour que le modèle informatique priorise où la personne se trouve plutôt que de la cerner parfaitement.
Le Rôle de la Technologie dans la Réponse aux Urgences
L'intégration des drones dans les scénarios de réponse aux urgences devient de plus en plus importante. Les drones ne sont pas juste là pour prendre des selfies ou livrer des colis ; ils peuvent être des outils qui sauvent des vies quand la situation l'exige. La capacité améliorée à localiser des individus depuis le ciel, associée à la compréhension du comportement humain, peut considérablement améliorer les opérations de recherche et de sauvetage.
Les secouristes peuvent utiliser des drones pour couvrir de grandes zones rapidement, leur permettant de repérer des victimes potentielles ou des personnes en détresse. En utilisant une vision par ordinateur qui s'adapte en fonction de la façon dont les humains perçoivent les images, les chances de succès pour sauver des individus augmentent considérablement.
Directions Futures
La recherche ne s'arrête pas là. Les possibilités pour affiner les systèmes de vision par ordinateur en utilisant des données comportementales humaines sont vastes. Les efforts futurs incluront :
- Analyser toutes les données comportementales collectées pour en extraire encore plus d'informations utiles.
- Développer des modèles de vision par ordinateur sur mesure spécifiquement adaptés aux situations d'urgence.
- Appliquer davantage ces modèles dans le monde réel pour voir comment ils se comportent lorsqu'ils sont déployés sur des drones.
Au fur et à mesure que la technologie évolue, il est crucial que les chercheurs continuent d'adapter et d'améliorer les systèmes pour répondre aux besoins des intervenants d'urgence.
Conclusion
En résumé, le travail fait pour combiner la technologie des drones avec la compréhension humaine pour chercher des personnes en cas d'urgence est crucial. La création de l'ensemble de données Psych-ER, ainsi que le perfectionnement des modèles de vision par ordinateur, représente un pas en avant significatif dans ce domaine. En tirant parti des insights humains, on peut créer des systèmes plus intelligents qui pourraient finalement sauver des vies. Après tout, quand ça chauffe, on veut que notre technologie soit plus efficace que les yeux fatigués de notre équipe de recherche !
Source originale
Titre: Psych-Occlusion: Using Visual Psychophysics for Aerial Detection of Occluded Persons during Search and Rescue
Résumé: The success of Emergency Response (ER) scenarios, such as search and rescue, is often dependent upon the prompt location of a lost or injured person. With the increasing use of small Unmanned Aerial Systems (sUAS) as "eyes in the sky" during ER scenarios, efficient detection of persons from aerial views plays a crucial role in achieving a successful mission outcome. Fatigue of human operators during prolonged ER missions, coupled with limited human resources, highlights the need for sUAS equipped with Computer Vision (CV) capabilities to aid in finding the person from aerial views. However, the performance of CV models onboard sUAS substantially degrades under real-life rigorous conditions of a typical ER scenario, where person search is hampered by occlusion and low target resolution. To address these challenges, we extracted images from the NOMAD dataset and performed a crowdsource experiment to collect behavioural measurements when humans were asked to "find the person in the picture". We exemplify the use of our behavioral dataset, Psych-ER, by using its human accuracy data to adapt the loss function of a detection model. We tested our loss adaptation on a RetinaNet model evaluated on NOMAD against increasing distance and occlusion, with our psychophysical loss adaptation showing improvements over the baseline at higher distances across different levels of occlusion, without degrading performance at closer distances. To the best of our knowledge, our work is the first human-guided approach to address the location task of a detection model, while addressing real-world challenges of aerial search and rescue. All datasets and code can be found at: https://github.com/ArtRuss/NOMAD.
Auteurs: Arturo Miguel Russell Bernal, Jane Cleland-Huang, Walter Scheirer
Dernière mise à jour: 2024-12-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.05553
Source PDF: https://arxiv.org/pdf/2412.05553
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.