Améliorer la réidentification des personnes avec des caméras aériennes et terrestres
Présentation d'un nouveau dataset et modèle pour associer des individus dans des vues aériennes et au sol.
― 7 min lire
Table des matières
La surveillance aérienne avec des drones et des caméras est devenue super populaire pour surveiller et suivre des gens dans les espaces publics. Un truc important dans ce domaine, c'est la ré-identification des personnes (re-ID), qui consiste à faire correspondre des individus capturés par différentes caméras. La plupart des recherches actuelles se sont concentrées sur la Correspondance d'images prises par des caméras au sol. Cependant, on commence à voir plus d'intérêt pour les images prises par des caméras aériennes, surtout avec la montée en puissance des drones dans les opérations de surveillance. Cet article présente un nouveau dataset et une approche pour relever les défis de la correspondance d'images entre caméras aériennes et au sol.
Le dataset AG-ReID
Pour améliorer la ré-ID des personnes dans des contextes aériens et au sol, on a créé un nouveau dataset appelé AG-ReID. Ce dataset contient au total 21 983 images représentant 388 personnes différentes, avec divers détails sur chacune d'elles. Les images ont été capturées avec un drone volant à des hauteurs de 15 à 45 mètres, ainsi qu'avec une caméra CCTV fixe sur un campus universitaire. Cette combinaison d'images aériennes et au sol met en avant les difficultés à faire correspondre les individus à cause des différents angles de vue et apparences capturés par chaque type de caméra.
Le dataset AG-ReID offre un défi unique pour la ré-ID des personnes. Les images aériennes montrent souvent les gens d'un point de vue plus élevé, ce qui peut changer leur apparence en termes de taille, de pose et de clarté comparé aux images au sol. De plus, on a inclus 15 Attributs doux pour chaque identité, qui servent de détails supplémentaires sur les gens des images. Ces attributs peuvent aider à améliorer la précision de la ré-ID en fournissant plus de contexte sur les individus.
Défis dans la ré-ID des personnes aériennes-au sol
Faire correspondre des gens entre les caméras aériennes et au sol pose des défis uniques. Un des plus gros soucis, c'est la différence de perspective. Quand les drones prennent des images d'en haut, les gens ont tendance à sembler plus petits, et leurs poses peuvent avoir l'air différentes de celles prises au niveau du sol. Donc, les techniques de correspondance conventionnelles utilisées pour les images au sol ou aériennes entre elles ne fonctionnent pas aussi bien dans ce nouveau cadre.
La variabilité de l'éclairage, de l'arrière-plan et du mouvement ajoute aussi de la complexité à la tâche. Les gens peuvent changer leur apparence en portant des vêtements ou des accessoires différents, et les images peuvent être affectées par des facteurs comme le flou de mouvement ou des obstructions causées par d'autres objets ou personnes dans la scène.
Approche proposée pour relever les défis
Pour résoudre ces problèmes, on a développé un modèle explicable à deux flux pour la ré-ID des personnes. Ce modèle combine deux flux d'information différents. Le premier flux se concentre sur l'identification des caractéristiques clés des images, tandis que le second flux utilise les attributs doux associés à chaque personne pour aider à améliorer le processus de correspondance.
L'aspect explicable de notre modèle permet aux chercheurs de visualiser quels attributs influencent les résultats de la correspondance. Par exemple, si deux personnes ont l'air similaires en général mais ont des attributs différents, notre modèle peut mettre en avant ces différences et expliquer pourquoi elles ne sont peut-être pas la même personne.
Notre approche consiste en un modèle basé sur le transformateur pour le premier flux, qui apprend des caractéristiques importantes à partir des images. Le second flux, le modèle explicable, se concentre sur les attributs et génère des cartes d'attention qui montrent comment chaque attribut contribue au processus de correspondance. Cette approche double aide à établir un lien entre les images aériennes et au sol, facilitant ainsi l'identification de la même personne sous différents angles.
Travaux connexes en ré-ID des personnes
La plupart des datasets existants pour la ré-ID des personnes se sont concentrés sur la correspondance d'images capturées par des caméras au sol ou aériennes seules. Des datasets populaires comme Market-1501 et DukeMTMC-reID se concentrent principalement sur les images de caméras au sol, tandis que d'autres comme PRAI-1581 et UAV-Human sont dédiés aux images aériennes.
On a découvert qu'il n'existe pas de dataset à grande échelle pour faire correspondre des images entre caméras aériennes et au sol. Notre dataset AG-ReID comble cette lacune et est le premier dataset disponible au public pour ce défi.
De plus, les méthodes Explicables dans la ré-ID des personnes sont limitées, surtout dans les contextes aériens. Notre travail souligne le besoin accru d'explicabilité dans les cas où l'apparence d'une personne peut différer significativement entre les vues aériennes et au sol.
Processus de collecte de données
Les données pour le dataset AG-ReID ont été collectées sur un campus universitaire en utilisant à la fois un drone et une caméra CCTV. La caméra CCTV a capturé des images au niveau du sol, tandis que le drone a pris des images aériennes à différentes altitudes, créant un ensemble varié de vues et d'arrière-plans.
En tout, on a rassemblé des images pendant plusieurs jours et sous différentes conditions climatiques, garantissant une riche variété de situations pouvant affecter la qualité des images. Le dataset résultant contient des images avec un large éventail de scénarios, comme des gens marchant, faisant du vélo ou participant à d'autres activités.
Le processus d'annotation pour le dataset a impliqué trois annotateurs qui ont soigneusement étiqueté les images et vérifié leur précision, assurant un haut niveau de fiabilité dans les données fournies.
Évaluation des performances
Pour évaluer les performances de notre modèle proposé, on l'a testé en utilisant le dataset AG-ReID. On a comparé nos résultats avec des modèles existants populaires. Les métriques d'évaluation utilisées incluent la moyenne de la précision moyenne (mAP) et les caractéristiques de correspondance cumulatives (CMC), qui mesurent à quel point les modèles peuvent identifier la même personne à travers différentes images.
Nos résultats expérimentaux montrent que notre approche a surpassé plusieurs modèles de référence, notamment dans le cadre aérien-au sol. Cela indique que notre modèle explicable à deux flux est efficace pour relever les défis posés par la ré-ID des personnes aériennes-au sol.
Conclusion et travaux futurs
En conclusion, le dataset AG-ReID et le modèle explicable à deux flux proposé marquent un pas significatif vers l'avancement des capacités de ré-ID des personnes dans des contextes aériens-au sol. Les défis posés par les perspectives et apparences variées sont considérables, mais notre travail a montré des résultats prometteurs pour améliorer la précision d'identification.
Les futures recherches peuvent s'appuyer sur nos résultats, en espérant que le dataset AG-ReID servira de précieuse ressource pour d'autres chercheurs dans ce domaine. On vise à continuer d'améliorer le dataset en publiant des pistes vidéo supplémentaires et en perfectionnant les algorithmes de correspondance pour s'attaquer aux défis persistants dans la surveillance aérienne.
La ré-ID des personnes aériennes-au sol est un domaine en évolution avec un grand potentiel alors que les systèmes de surveillance aérienne continuent de se développer. Notre travail encourage davantage d'études et de développements dans ce domaine, conduisant à des outils améliorés pour une surveillance efficace et un suivi des individus dans divers environnements.
Titre: Aerial-Ground Person Re-ID
Résumé: Person re-ID matches persons across multiple non-overlapping cameras. Despite the increasing deployment of airborne platforms in surveillance, current existing person re-ID benchmarks' focus is on ground-ground matching and very limited efforts on aerial-aerial matching. We propose a new benchmark dataset - AG-ReID, which performs person re-ID matching in a new setting: across aerial and ground cameras. Our dataset contains 21,983 images of 388 identities and 15 soft attributes for each identity. The data was collected by a UAV flying at altitudes between 15 to 45 meters and a ground-based CCTV camera on a university campus. Our dataset presents a novel elevated-viewpoint challenge for person re-ID due to the significant difference in person appearance across these cameras. We propose an explainable algorithm to guide the person re-ID model's training with soft attributes to address this challenge. Experiments demonstrate the efficacy of our method on the aerial-ground person re-ID task. The dataset will be published and the baseline codes will be open-sourced at https://github.com/huynguyen792/AG-ReID to facilitate research in this area.
Auteurs: Huy Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes
Dernière mise à jour: 2023-08-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.08597
Source PDF: https://arxiv.org/pdf/2303.08597
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.