Avancées dans la recherche sur le ReID texte-à-image
Un nouveau dataset améliore la précision du matching texte-image.
― 7 min lire
Table des matières
- Ensembles de Données Actuels
- Le Besoin d'un Nouvel Ensemble de Données
- Problèmes dans le Matching Texte et Images
- Comment Fonctionnent les Ensembles de Données Existants
- Comment le Nouvel Ensemble de Données est Créé
- Amélioration avec des Données Synthétiques
- Évaluation de l'Ensemble de Données
- Découvertes des Expériences
- Avantages du Nouvel Ensemble de Données
- Tendances de Recherche Connexes
- Conclusion
- Source originale
- Liens de référence
Le Text-to-Image ReID, c'est quand les gens essaient de faire correspondre une description textuelle d'une personne avec des Images de cette personne. C'est plus compliqué que juste matcher des images entre elles parce que les descriptions peuvent être vagues et ne capturent pas toujours tous les détails d'une image. Du coup, les chercheurs cherchent toujours des moyens de rendre cette tâche plus facile et plus précise.
Ensembles de Données Actuels
Avant, il y a eu quelques ensembles de données pour encourager la recherche dans ce domaine. Certains d'entre eux sont CUHK-PEDES, RSTPReid, et ICFG-PEDES.
- CUHK-PEDES a environ 13,003 personnes différentes et 40,206 images, mais les descriptions sont souvent courtes et moins détaillées.
- RSTPReid et ICFG-PEDES utilisent des images d'un autre ensemble de données appelé MSMT17 mais n'ont pas autant d'identités uniques.
Ces ensembles ont été collectés dans des environnements limités, en utilisant peu de caméras, ce qui limite la variété des situations où les images ont été prises.
Le Besoin d'un Nouvel Ensemble de Données
Pour améliorer la situation actuelle, un nouvel ensemble de données appelé IIITD-20K a été créé. Cet ensemble comprend 20,000 identités uniques avec des images prises dans des contextes réels. Chaque image a au moins 26 mots la décrivant, offrant des informations plus riches.
Cet ensemble est super important parce qu'il inclut une grande variété de personnes capturées dans divers environnements. Avec des descriptions plus détaillées, l'ensemble soutient des recherches plus profondes en text-to-image ReID, rendant ça un meilleur outil pour comprendre comment faire correspondre le Texte avec les images.
Problèmes dans le Matching Texte et Images
Matcher le texte avec les images, c'est pas simple. Les descriptions textuelles peuvent être générales, tandis que les images contiennent des infos visuelles détaillées. Ce décalage crée un grand écart entre ce que les mots capturent et ce qui est montré dans les images.
Quand une description textuelle est vague, ça peut créer de la confusion. Par exemple, différentes images peuvent avoir des descriptions similaires, rendant difficile pour les modèles de déterminer quelle image correspond au texte.
Comment Fonctionnent les Ensembles de Données Existants
Voilà comment certains ensembles de données existants ont été formés :
- CUHK-PEDES a été créé en utilisant des images de plusieurs autres ensembles. Il fournit deux Légendes pour chaque image mais manque souvent de profondeur.
- RSTPReid et ICFG-PEDES visaient à augmenter la diversité en utilisant des images de MSMT17, prises dans différentes conditions. Mais, ils sont toujours limités à cause de moins d'identités uniques et de descriptions textuelles plus courtes en moyenne.
L'ensemble de données IIITD-20K corrige ces problèmes en rassemblant des images de sources publiques et en s'assurant qu'elles aient des légendes adéquates avec des détails suffisants.
Comment le Nouvel Ensemble de Données est Créé
L'ensemble de données IIITD-20K est construit en grattant des images sur le web, en s'assurant qu'elles soient claires et centrées sur la personne entière. Les images couvrent diverses villes et proviennent des années 2012 à 2022.
Chacune des 20,000 images est accompagnée de deux légendes - ces légendes sont riches, contenant entre 20 et 60 mots chacune. Ça fait environ 1.4 million de mots et plus de 53,000 phrases. Cette profondeur dans les descriptions permet un meilleur matching avec les images.
Amélioration avec des Données Synthétiques
Pour améliorer encore l'entraînement des modèles, des images et légendes synthétiques sont créées en utilisant des méthodes avancées. Par exemple, des modèles génératifs comme LDM (Latent Diffusion Model) et BLIP (Bootstrapping Language-Image Pre-training) aident à créer de nouvelles images et les légendes correspondantes.
En entraînant ces modèles sur le dataset IIITD-20K, des images et légendes supplémentaires sont produites. Ces données synthétiques servent de matériel d'entraînement supplémentaire pour aider les modèles à mieux performer quand il s'agit de matcher le texte avec les images.
Évaluation de l'Ensemble de Données
Pour tester les performances de l'ensemble IIITD-20K, les chercheurs le divisent en trois parties : entraînement, validation, et test. Le jeu d'entraînement est large, contenant la majorité des données, tandis que les ensembles de validation et test sont plus petits pour assurer l'exactitude dans la mesure du succès des modèles.
L'analyse implique plusieurs méthodes populaires pour mesurer à quel point les modèles peuvent trouver des images correspondantes basées sur des descriptions textuelles. Les métriques utilisées incluent Rank-k et mean Average Precision (mAP). Ça aide les chercheurs à comprendre l'efficacité de leurs modèles dans des situations réelles.
Découvertes des Expériences
Des expériences sont menées en utilisant l'ensemble original et les données synthétiques, révélant des résultats importants. Par exemple, il a été constaté que l'utilisation de données synthétiques durant l'entraînement améliore significativement les performances des modèles.
Utiliser des images originales avec des légendes synthétiques donne une performance correcte, montrant que même avec des inexactitudes dans les légendes synthétiques, elles ajoutent de la valeur à l'entraînement.
Avantages du Nouvel Ensemble de Données
L'ensemble de données IIITD-20K offre plein d'avantages :
- Descriptions Riches : L'ensemble a des légendes plus longues et détaillées qui aident à un meilleur matching.
- Grande Diversité : Avec 20,000 identités uniques, il fournit une large gamme d'exemples pour l'entraînement.
- Données Réelles : Les images sont prises dans des contextes quotidiens, ce qui les rend plus applicables aux situations de la vie réelle.
Ces facteurs font de l'IIITD-20K une ressource précieuse pour faire avancer la recherche en text-to-image ReID.
Tendances de Recherche Connexes
Ces dernières années, il y a eu beaucoup d'intérêt pour la reconnaissance cross-médiale, qui implique d'utiliser différents types de données (comme le texte et les images) ensemble. Beaucoup de chercheurs se concentrent sur deux approches principales :
- Global Feature Embedding : Les méthodes plus anciennes se concentraient sur la recherche de caractéristiques globales à partir des images et du texte, mais elles manquaient souvent de détails plus fins.
- Modèles Basés sur l'Attention : Les nouvelles approches utilisent des mécanismes d'attention pour améliorer la relation entre le texte et les images, capturant des détails plus spécifiques.
Les chercheurs explorent aussi des modèles avancés comme les Transformers qui intègrent le texte et les images pour améliorer les performances dans diverses tâches comme la récupération d'images et le captioning.
Conclusion
L'ensemble de données IIITD-20K représente une avancée significative dans la recherche en text-to-image ReID. En offrant un grand ensemble diversifié d'identités et des légendes étendues, ça fournit un excellent benchmark pour d'autres études. L'intégration de données synthétiques augmente le potentiel pour de meilleures performances des modèles.
Au fur et à mesure que la technologie évolue, l'objectif est de réduire encore l'écart entre le texte et les images, rendant le processus de matching de ces deux modalités plus efficace et précis. Cet ensemble et les résultats des expériences posent une base solide pour de futures avancées dans le domaine.
Titre: IIITD-20K: Dense captioning for Text-Image ReID
Résumé: Text-to-Image (T2I) ReID has attracted a lot of attention in the recent past. CUHK-PEDES, RSTPReid and ICFG-PEDES are the three available benchmarks to evaluate T2I ReID methods. RSTPReid and ICFG-PEDES comprise of identities from MSMT17 but due to limited number of unique persons, the diversity is limited. On the other hand, CUHK-PEDES comprises of 13,003 identities but has relatively shorter text description on average. Further, these datasets are captured in a restricted environment with limited number of cameras. In order to further diversify the identities and provide dense captions, we propose a novel dataset called IIITD-20K. IIITD-20K comprises of 20,000 unique identities captured in the wild and provides a rich dataset for text-to-image ReID. With a minimum of 26 words for a description, each image is densely captioned. We further synthetically generate images and fine-grained captions using Stable-diffusion and BLIP models trained on our dataset. We perform elaborate experiments using state-of-art text-to-image ReID models and vision-language pre-trained models and present a comprehensive analysis of the dataset. Our experiments also reveal that synthetically generated data leads to a substantial performance improvement in both same dataset as well as cross dataset settings. Our dataset is available at https://bit.ly/3pkA3Rj.
Auteurs: A V Subramanyam, Niranjan Sundararajan, Vibhu Dubey, Brejesh Lall
Dernière mise à jour: 2023-05-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.04497
Source PDF: https://arxiv.org/pdf/2305.04497
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://bit.ly/3pkA3Rj
- https://dl.acm.org/ccs.cfm
- https://huggingface.co/CompVis/stable-diffusion-v1-4
- https://www.acm.org/publications/proceedings-template
- https://capitalizemytitle.com/
- https://www.acm.org/publications/class-2012
- https://dl.acm.org/ccs/ccs.cfm
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://www.acm.org/publications/taps/describing-figures/
- https://github.com/borisveytsman/acmart