Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Améliorer l'apprentissage métrique avec des embeddings mis à jour

Ce travail améliore la récupération d'images grâce à une mise à jour adaptative des embeddings accumulés.

― 9 min lire


Adapter des embeddingsAdapter des embeddingspour une meilleurerécupérationprécision de la recherche d’images.Une nouvelle méthode pour améliorer la
Table des matières

Dans le domaine de la vision par ordinateur, l'Apprentissage métrique est une tâche cruciale où les modèles apprennent à représenter les données de manière à ce que les éléments similaires soient rapprochés, tandis que les éléments différents sont éloignés. Ce processus est particulièrement important dans des applications comme la recherche d'images, où on veut trouver les images qui sont les plus semblables à une image de requête donnée. Pour y parvenir, les modèles apprennent à créer des Embeddings ou des représentations vectorielles d'images.

Un défi rencontré dans l'apprentissage métrique est que la qualité de la sortie du modèle peut varier en fonction de la taille du lot d'entraînement. Le lot d'entraînement est un petit sous-ensemble de l'ensemble de données utilisé pour mettre à jour le modèle. En raison des limitations matérielles, on est souvent contraints d'utiliser des lots plus petits, ce qui peut limiter la capacité du modèle à apprendre efficacement.

Récemment, des techniques permettant d'accumuler des embeddings provenant de lots précédents ont été suggérées. Cela aide à fournir un ensemble de référence plus large pour la comparaison, ce qui peut améliorer les performances du modèle. Cependant, ces embeddings accumulés peuvent devenir obsolètes à mesure que le modèle continue d'apprendre et de changer pendant l'entraînement.

Pour résoudre ce problème, il est important de s'assurer que les embeddings accumulés restent pertinents et reflètent l'état actuel du modèle. On peut penser à cela comme à un alignement des anciens embeddings avec les nouveaux, ce qui peut aider le modèle à mieux apprendre.

Le problème des embeddings obsolètes

Au fur et à mesure que le modèle s'entraîne, il met à jour ses paramètres en fonction des données qu'il voit. Si on se contente de garder les embeddings des itérations précédentes, ces embeddings peuvent ne plus représenter avec précision la compréhension actuelle du modèle. C'est ce qu'on appelle le "Dérive Représentationnelle", où les statistiques des embeddings collectés changent au fil du temps à mesure que le modèle évolue. Par conséquent, lorsque le modèle compare de vieux embeddings avec de nouvelles données, cela peut entraîner des décisions incorrectes qui nuisent à l'apprentissage.

On peut penser à cela comme essayer d'utiliser de vieilles cartes pour naviguer dans une ville en constante évolution. Plus les cartes sont inexactes, plus il devient difficile de trouver le bon chemin. De même, des embeddings obsolètes peuvent induire en erreur le modèle et affecter négativement ses performances.

Solution proposée : mise à jour des embeddings accumulés

Pour aborder le problème de la dérive représentationnelle, nous proposons une méthode qui adapte les embeddings accumulés pour mieux correspondre à l'état actuel du modèle. L'objectif est de s'assurer que ces embeddings restent alignés avec l'apprentissage du modèle.

L'idée clé est d'ajuster les embeddings stockés afin que leurs caractéristiques - spécifiquement leur valeur moyenne et leur écart-type - soient en phase avec les embeddings actuels générés pendant l'entraînement. De cette façon, lorsque le modèle compare des éléments, il le fait avec un ensemble de référence plus précis et pertinent.

La méthodologie : Filtre de Kalman

Pour mettre en œuvre le processus de mise à jour des embeddings, nous pouvons appliquer une technique appelée filtre de Kalman. C'est une méthode couramment utilisée pour estimer des variables inconnues à partir d'observations bruitées. Dans notre cas, nous considérons les embeddings comme les variables inconnues que nous souhaitons estimer.

En utilisant le filtre de Kalman, nous pouvons continuellement mettre à jour nos estimations de la moyenne et de l'écart-type des embeddings à mesure que de nouvelles données arrivent, plutôt que de nous fier à des valeurs précédentes fixes qui peuvent être devenues inutiles.

En faisant ces ajustements de manière itérative à chaque étape d'entraînement, nous créons un système qui garde les embeddings actuels et réfléchis à la compréhension évolutive du modèle. Cette approche est non seulement efficace, mais permet également des ajustements en temps réel, ce qui peut améliorer significativement les performances du modèle dans des tâches comme la recherche d'images.

Configuration expérimentale

Pour tester notre approche, nous l'avons évaluée sur trois ensembles de données de recherche d'images bien connus. Chaque ensemble de données consiste en une collection d'images avec des étiquettes correspondantes indiquant leurs catégories. Les ensembles de données utilisés incluent :

  1. Stanford Online Products (SOP) : Cet ensemble de données contient des images de produits organisées en plusieurs catégories. Avec des images disponibles pour chaque catégorie allant de 2 à 10, l'objectif est d'apprendre à récupérer efficacement des éléments de la même classe.

  2. Recherche de vêtements en magasin : Cet ensemble de données se compose d'images de vêtements de diverses classes, avec pour but d'associer les requêtes des clients avec les bons articles dans une galerie d'images.

  3. DeepFashion2 (DF2) : Un ensemble de données plus grand que les autres, incluant des images de vêtements avec une structure claire pour l'entraînement et les tests.

Processus d'entraînement

Dans le processus d'entraînement, nous avons utilisé un modèle pré-entraîné comme base pour développer nos embeddings. Des ajustements spécifiques ont été effectués pour s'assurer que le modèle pouvait apprendre efficacement à travers les ensembles de données. L'entraînement a impliqué des techniques standards telles que l'augmentation des données, ce qui augmente la diversité des données d'entraînement sans avoir besoin de collecter des données supplémentaires.

Lors de l'entraînement, nous avons créé des lots d'images pour mettre à jour le modèle et utilisé les embeddings générés à partir de ces lots pour le processus de récupération. Nous avons comparé les performances de notre méthode proposée avec celles des méthodes traditionnelles pour mettre en évidence comment la mise à jour des embeddings peut améliorer les résultats.

Résultats et observations

Nos résultats ont montré que la méthode proposée de mise à jour des embeddings améliore significativement les performances sur les trois ensembles de données. Les améliorations étaient particulièrement notables dans des scénarios où les tailles de lot plus petites étaient utilisées. Cela suggère que l'adaptation des embeddings pour rester actuels est particulièrement bénéfique lorsque moins de points de données sont impliqués dans chaque mise à jour de lot.

Comparaison avec les méthodes existantes

Une des méthodes standard utilisées dans des scénarios similaires est connue sous le nom de mémoire inter-lots (XBM). Bien que cette méthode permette l'accumulation d'embeddings provenant d'itérations précédentes, elle ne garantit pas nécessairement que ces embeddings restent alignés avec l'état actuel du modèle. Notre approche, qui combine les avantages de l'accumulation d'embeddings avec l'étape cruciale de leur mise à jour, a abouti à de meilleures métriques de performance lors des tests côte à côte.

Lors de nombreuses expériences, nous avons démontré que notre méthode non seulement surpasse XBM, mais elle s'avère également plus stable pendant l'entraînement. L'utilisation d'embeddings obsolètes peut introduire de l'instabilité, entraînant une performance variable dans les modèles. En veillant à ce que les mises à jour soient cohérentes avec l'apprentissage du modèle, nous atténuons ce risque et présentons un processus d'apprentissage plus fiable.

Analyse détaillée de la dérive des caractéristiques

En surveillant comment notre méthode fonctionnait, nous avons analysé de près ce qu'on appelle la dérive des caractéristiques. Cela implique d'observer à quel point les embeddings varient au fil du temps et de s'assurer qu'ils restent dans une plage de changements acceptable. Notre méthode a pu maintenir la dérive des caractéristiques à un minimum, ce qui signifie que les embeddings étaient stables et fiables tout au long de l'entraînement.

En comparant le montant de la dérive des caractéristiques entre notre méthode et les systèmes traditionnels, il est devenu clair que notre méthode maintenait des niveaux de dérive beaucoup plus bas. Cela signifie qu'à mesure que le modèle s'entraînait, les embeddings de référence sur lesquels il s'appuyait restaient pertinents et précis pour effectuer des comparaisons.

Conclusion

En résumé, nous avons abordé un défi important dans l'apprentissage métrique pour la vision par ordinateur. En nous concentrant sur l'adaptation des embeddings accumulés pour rester actuels, nous améliorons considérablement les performances des tâches de recherche d'images. Notre méthode se distingue car elle utilise non seulement des données passées, mais elle veille également à ce que ces données restent pertinentes à mesure que le modèle évolue.

Cette approche offre un outil précieux pour améliorer l'efficacité de l'apprentissage métrique dans une gamme d'applications. À mesure que les besoins en données continuent de croître, la capacité à utiliser efficacement les embeddings accumulés tout en les maintenant à jour sera essentielle pour maintenir des niveaux de performance élevés dans les modèles d'apprentissage automatique.

Directions futures

En regardant vers l'avenir, une exploration supplémentaire est nécessaire pour affiner les techniques que nous avons proposées. Par exemple, l'ajustement automatique des hyperparamètres dans le filtre de Kalman pourrait améliorer l'adaptabilité de notre modèle. De plus, tester notre méthode sur des ensembles de données plus grands et dans des conditions variables aidera à confirmer sa fiabilité et sa robustesse dans des scénarios plus complexes.

En améliorant la façon dont nous gérons et utilisons les embeddings dans l'apprentissage automatique, nous pouvons améliorer les performances et favoriser les avancées futures dans des applications telles que la recherche d'images et au-delà. L'interaction entre l'accumulation de données et l'apprentissage adaptatif représente une voie prometteuse pour la recherche et le développement dans ce domaine important.

Source originale

Titre: Adaptive Cross Batch Normalization for Metric Learning

Résumé: Metric learning is a fundamental problem in computer vision whereby a model is trained to learn a semantically useful embedding space via ranking losses. Traditionally, the effectiveness of a ranking loss depends on the minibatch size, and is, therefore, inherently limited by the memory constraints of the underlying hardware. While simply accumulating the embeddings across minibatches has proved useful (Wang et al. [2020]), we show that it is equally important to ensure that the accumulated embeddings are up to date. In particular, it is necessary to circumvent the representational drift between the accumulated embeddings and the feature embeddings at the current training iteration as the learnable parameters are being updated. In this paper, we model representational drift as distribution misalignment and tackle it using moment matching. The result is a simple method for updating the stored embeddings to match the first and second moments of the current embeddings at each training iteration. Experiments on three popular image retrieval datasets, namely, SOP, In-Shop, and DeepFashion2, demonstrate that our approach significantly improves the performance in all scenarios.

Auteurs: Thalaiyasingam Ajanthan, Matt Ma, Anton van den Hengel, Stephen Gould

Dernière mise à jour: 2023-03-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.17127

Source PDF: https://arxiv.org/pdf/2303.17127

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires