Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la ré-identification de personnes visible-infrarouge

Une nouvelle méthode améliore l'appariement entre les images visibles et infrarouges.

― 6 min lire


Percée de la méthode V-IPercée de la méthode V-IReIDimages visibles et infrarouges.AGPI améliore l'identification dans les
Table des matières

La ré-identification des personnes (ReID) consiste à associer des images ou des vidéos d'une même personne capturées par différentes caméras sans point de vue commun. Ça peut être compliqué à cause de plusieurs facteurs, comme les changements d'apparence de la personne ou les conditions d'éclairage au moment de la prise de vue. Une méthode plus récente, la Ré-identification de personnes visible-infrarouge (V-I ReID), vise à matcher des individus à partir d'images en lumière visible et en infrarouge. Cette méthode est plus difficile, car elle gère deux types d'images qui se ressemblent pas du tout.

Le défi

Dans la V-I ReID, les images visibles fournissent des détails colorés qui aident à identifier les gens, tandis que les images infrarouges peuvent capter la chaleur et sont moins influencées par les variations d'éclairage. Le gros défi ici, c'est que les distributions de données des images visibles et infrarouges sont très différentes, ce qui complique leur association. Bien que certaines stratégies récentes aient été mises en place pour améliorer ce matching, il reste encore besoin de meilleures façons de générer ou de sélectionner des images utiles pour aider le processus.

La solution proposée

L'approche de formation AGPI (Génération Adaptative d'Informations Intermédiaires Privilégiées) a été introduite pour créer un espace virtuel qui relie les données visibles et infrarouges. Cela se fait en générant des images spéciales qui incluent des détails importants partagés entre les images visibles et infrarouges, ce qui aide à entraîner le système de reconnaissance de manière plus efficace. En utilisant ces images générées, le système peut apprendre à identifier les individus plus précisément, même quand les images originales se ressemblent pas.

L'AGPI fonctionne en entraînant une composante qui génère des images à partir de la lumière visible qui ressemblent aux images infrarouges. En même temps, une autre partie du système veille à ce que les caractéristiques extraites des images visibles et générées soient le plus similaires possible. Cette approche double aide à construire un système de reconnaissance plus robuste.

Importance du domaine intermédiaire

Les Images intermédiaires générées via la méthode AGPI font office de pont entre les données visibles et infrarouges. Elles aident à réduire les écarts causés par des différences significatives entre les deux types d'images. En favorisant un espace de caractéristiques commun, le système peut tirer parti des forces des deux modalités, améliorant ainsi la précision de la ré-identification.

Avantages de l'AGPI

  1. Formation améliorée : Les images générées fournissent des informations détaillées supplémentaires qui aident le système à mieux apprendre.

  2. Espace non spécifique à la modalité : Le processus de formation se concentre sur les aspects communs entre les images visibles et infrarouges, permettant au modèle de mieux généraliser.

  3. Pas de charge supplémentaire pendant l'inférence : Bien que l'AGPI nécessite un traitement supplémentaire pendant l'entraînement pour générer ces images intermédiaires, une fois le modèle entraîné, il n'a pas besoin de les générer lors de son utilisation réelle. Cette efficacité est cruciale pour des applications en temps réel.

Travaux connexes

Beaucoup de stratégies existantes pour la V-I ReID ont essayé de s'attaquer au défi principal des différentes distributions de données en utilisant diverses approches. Certaines explorent l'utilisation de modèles génératifs pour créer des images qui peuvent aider à combler le fossé entre les données visibles et infrarouges, tandis que d'autres se concentrent sur la recherche de caractéristiques communes des deux modalités via un entraînement conjoint. Cependant, malgré ces efforts, atteindre un système d'identification véritablement efficace entre modalités reste un défi.

Ce qui rend l'AGPI différent

L'AGPI se distingue car elle crée directement des images intermédiaires qui aident à définir un terrain d'entente pour les images visibles et infrarouges. Au lieu de juste se fier à des images existantes, l'AGPI génère de manière innovante de nouvelles données conçues spécifiquement pour améliorer le processus d'identification. L'approche repose sur un entraînement adversarial, où le générateur doit créer des images qui ressemblent non seulement aux images infrarouges, mais qui conservent aussi des caractéristiques d'identification importantes des images visibles.

Conception du système

Le modèle AGPI inclut trois composants principaux :

  1. Module d'Incrustation de Caractéristiques : Cette partie extrait les caractéristiques des images visibles et intermédiaires. L'objectif est de rendre les caractéristiques aussi similaires que possible entre ces deux types de données.

  2. Module de Génération : Ce module se concentre sur la création d'images intermédiaires à partir des images visibles, permettant au modèle d'apprendre comment combler les différences entre les deux modalités.

  3. Discriminateur ID-Modalité : Ce composant s'assure que les images intermédiaires générées sont classées correctement, aidant le générateur à améliorer sa production au fil du temps.

Méthodologie expérimentale

L'efficacité de la méthode AGPI a été testée en utilisant deux ensembles de données bien connus, SYSU-MM01 et RegDB. Ces ensembles contiennent une gamme d'images visibles et infrarouges d'individus. Plusieurs tests ont été réalisés pour mesurer la performance d'AGPI par rapport aux méthodes existantes. Les métriques d'évaluation utilisées incluent les Caractéristiques de correspondance cumulative (CMC) et la Précision Moyenne (mAP), qui évaluent l'exactitude du processus d'identification.

Résultats de performance

Les résultats expérimentaux ont montré qu'AGPI surpassait constamment les méthodes actuelles pour la V-I ReID. Même si elle inclut une génération d'image supplémentaire pendant l'entraînement, ça n'ajoute aucune charge computationnelle pendant la phase d'identification. Les améliorations en précision et exactitude étaient significatives, démontrant le potentiel d'AGPI pour des applications pratiques dans des situations réelles.

Conclusion

La méthode AGPI représente une avancée significative dans le domaine de la ré-identification des personnes, surtout quand on travaille à travers différentes modalités d'imagerie. En générant efficacement des images intermédiaires qui comblent le fossé entre les données visibles et infrarouges, AGPI améliore l'entraînement et la performance des systèmes de reconnaissance, les rendant plus efficaces pour identifier des individus dans des environnements variés. La capacité de faire cela sans coûts computationnels supplémentaires pendant le processus d'identification réel souligne son potentiel pour les applications réelles.

Source originale

Titre: Adaptive Generation of Privileged Intermediate Information for Visible-Infrared Person Re-Identification

Résumé: Visible-infrared person re-identification seeks to retrieve images of the same individual captured over a distributed network of RGB and IR sensors. Several V-I ReID approaches directly integrate both V and I modalities to discriminate persons within a shared representation space. However, given the significant gap in data distributions between V and I modalities, cross-modal V-I ReID remains challenging. Some recent approaches improve generalization by leveraging intermediate spaces that can bridge V and I modalities, yet effective methods are required to select or generate data for such informative domains. In this paper, the Adaptive Generation of Privileged Intermediate Information training approach is introduced to adapt and generate a virtual domain that bridges discriminant information between the V and I modalities. The key motivation behind AGPI^2 is to enhance the training of a deep V-I ReID backbone by generating privileged images that provide additional information. These privileged images capture shared discriminative features that are not easily accessible within the original V or I modalities alone. Towards this goal, a non-linear generative module is trained with an adversarial objective, translating V images into intermediate spaces with a smaller domain shift w.r.t. the I domain. Meanwhile, the embedding module within AGPI^2 aims to produce similar features for both V and generated images, encouraging the extraction of features that are common to all modalities. In addition to these contributions, AGPI^2 employs adversarial objectives for adapting the intermediate images, which play a crucial role in creating a non-modality-specific space to address the large domain shifts between V and I domains. Experimental results conducted on challenging V-I ReID datasets indicate that AGPI^2 increases matching accuracy without extra computational resources during inference.

Auteurs: Mahdi Alehdaghi, Arthur Josi, Pourya Shamsolmoali, Rafael M. O. Cruz, Eric Granger

Dernière mise à jour: 2023-07-06 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.03240

Source PDF: https://arxiv.org/pdf/2307.03240

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires