Avancées dans l'apprentissage auto-supervisé pour les données visuelles
Une nouvelle méthode améliore l'apprentissage d'images en utilisant le raisonnement spatial.
― 12 min lire
Table des matières
Alors que l'apprentissage profond passe de la recherche à l'utilisation concrète, les méthodes de pré-entraînement auto-supervisé deviennent de plus en plus importantes. Ces méthodes, surtout pour les images, aident à bien utiliser les grandes quantités de données d'images non étiquetées disponibles, ce qui à son tour aide à améliorer les performances dans d'autres tâches. Cet article présente une nouvelle méthode de pré-entraînement auxiliaire qui se concentre sur le Raisonnement spatial.
La méthode proposée utilise une version flexible de l'Apprentissage contrastif en ajoutant le raisonnement spatial comme une tâche supplémentaire. Le raisonnement spatial consiste à faire prédire au réseau les distances entre des Patches échantillonnés d'une image qui ne se chevauchent pas. Cette approche encourage le réseau à apprendre des représentations plus détaillées des objets et comment leurs parties se rapportent les unes aux autres. Les expériences montrent un boost significatif des performances pour les tâches par rapport à des méthodes similaires, et cela ouvre des possibilités de recherche supplémentaires dans le raisonnement spatial.
Alors que les modèles d'apprentissage profond continuent de grossir, certains contenant des millions de paramètres, la quantité croissante de données non étiquetées appelle à des moyens efficaces de réduire l'annotation manuelle. Le pré-entraînement auto-supervisé aide les modèles à apprendre des fonctionnalités importantes avant de les ajuster sur des ensembles de données étiquetées plus petits.
Il existe deux types principaux de méthodes d'apprentissage auto-supervisé pour les images : génératives et discriminatives. Les méthodes génératives se concentrent sur la reconstruction des parties manquantes d'une image, ce qui conduit généralement à de meilleures performances mais nécessite des réseaux plus grands et plus de données. D'un autre côté, les méthodes discrimatives auto-supervisées entraînent le modèle à faire la différence entre diverses fonctionnalités dans les données sans avoir besoin d'étiquettes explicites. En raison de leur taille plus réduite et de leur efficacité dans l'utilisation des données, les méthodes discrimatives sont au centre de cette attention.
L'apprentissage contrastif est une approche discriminaire courante dans l'apprentissage d'images auto-supervisées. Il s'efforce de créer des représentations significatives en différenciant les versions augmentées de la même image et d'images différentes. Les modèles d'apprentissage profond doivent comprendre le sens des images pour créer ces représentations. Une tête de classification est utilisée pour transformer l'objectif contrastif en un but de classification, permettant à la méthode de fonctionner sans grandes tailles de lot tout en maintenant un signal de supervision solide.
Le processus d'augmentation des images a été élargi en sélectionnant et en redimensionnant des patches d'images. Après que les représentations des patches et des images sont prédites par le même réseau encodeur, elles sont ensuite combinées en paires par des méthodes spécifiques. L'agrégation de patches ne nécessite pas d'échantillons négatifs et par défaut attribue une étiquette positive pour l'objectif contrastif. L'agrégation d'images utilise des pseudo-étiquettes pour la distance, en fonction de si la paire est positive ou négative.
En utilisant bien cette formulation flexible, la tête de classification prédit la distance relative entre deux patches choisis au hasard de la même image. Cette tâche permet au réseau de mieux reconnaître l'objet principal et les relations spatiales entre ses parties, menant à des représentations significatives. En fusionnant les représentations basées sur les patches et sur l'image complète, une représentation élargie est créée qui surpasse les autres dans les évaluations linéaires, même lorsqu'il y a des limites sur les images d'entraînement et les Augmentations.
Bien que des calculs supplémentaires de patches pendant la phase d'inférence nécessitent plus de ressources informatiques, le nombre de représentations de patches peut être ajusté pour des tâches plus difficiles. Une approche alternative, appelée utilisation de patches additifs, évite un calcul supplémentaire durant l'inférence. Le code de ce travail sera partagé sur GitHub après publication.
En résumé, les contributions sont les suivantes :
- Une nouvelle méthode appelée Raisonnement Spatial, facilement intégrable dans des cadres existants.
- Des représentations visuelles améliorées dans divers scénarios d'évaluation, nécessitant moins de calculs pendant l'entraînement.
- Une performance qui s'adapte aux différents besoins computationnels durant l'inférence.
- Une méthode alternative appelée utilisation de patches additifs qui réduit le besoin de calculs supplémentaires pendant l'inférence, avec seulement une légère perte de performance.
- Des suggestions sur les meilleures tailles de patches et le nombre de patches à utiliser pendant l'entraînement.
Travaux Connexes
Des progrès significatifs ont été réalisés pour créer de meilleures représentations grâce au pré-entraînement auto-supervisé. Ces méthodes peuvent être catégorisées en approches génératives et discriminatives. Avec les architectures modernes de Vision Transformer (ViT), de bons résultats ont été obtenus en utilisant des méthodes génératives. Par exemple, les modèles ViT peuvent reconstruire diverses transformations des mêmes images. Cependant, les méthodes génératives nécessitent généralement une grande puissance de calcul, en particulier pendant l'entraînement.
D'un autre côté, les méthodes discrimatives modernes, comme MoCo v3 combiné avec les architectures ViT, montrent également de grandes performances, mais nécessitent des ressources de calcul considérables. Par exemple, un modèle ViT de base a 86 millions de paramètres, d'autres allant jusqu'à 300 millions et utilisant de grandes tailles de lot. Le processus d'entraînement pour les modèles ViT dans des tâches génératives peut être instable. Il est donc beaucoup plus efficace d'entraîner des modèles de transformateur plus petits qui peuvent utiliser les données efficacement. Les Réseaux de Neurones Convolutifs (CNN), comme les architectures ResNet, offrent des performances compétitives, même lorsqu'ils travaillent avec des ensembles de données plus petits. Les CNN sont mieux adaptés aux scénarios avec des données limitées ou des ressources de calcul à cause de leur conception, qui leur permet de se concentrer sur les caractéristiques locales et les relations.
Des recherches antérieures ont examiné l'utilisation d'informations spatiales provenant de patches pour améliorer les représentations dans l'apprentissage auto-supervisé. Certaines approches ont utilisé des puzzles et entraîné des réseaux de neurones pour déterminer le bon agencement des pièces. Notre méthode se distingue en utilisant un réseau qui ne reçoit qu'une information limitée sur l'image, lui permettant de viser un raisonnement plus profond sur la structure des objets partiellement invisibles.
Dans les tâches de reconnaissance d'objets, se concentrer uniquement sur un petit détail, comme un motif, peut ne pas fournir une vue d'ensemble. Utiliser des méthodes traditionnelles comme le recadrage peut aider à régler cela. Le Raisonnement Spatial vise à créer de meilleurs signaux de supervision et des représentations plus significatives qui incluent les informations nécessaires sur l'objet et les relations spatiales entre les parties de l'objet. L'objectif est de prédire les distances entre des patches sélectionnés au hasard de la même image.
Génération de Patches et d'Étiquettes
Dans les procédures standard pour le raisonnement relationnel, une image est augmentée plusieurs fois, et toutes les versions sont envoyées au réseau avec d'autres images dans le lot. La taille globale du lot est ensuite multipliée par le nombre d'augmentations. Notre méthode va plus loin en créant des positions aléatoires pour les patches, en s'assurant que les deux premiers patches ne se chevauchent pas. Cela réduit les solutions triviales. Les patches sont redimensionnés pour s'adapter à la taille d'entrée standard et sauvegardés avec leurs emplacements cibles. Chaque patch subit des transformations comme le jittering de couleur et la mise en niveaux de gris, tandis que les images en taille complète conservent leur schéma d'augmentation.
Une fois les patches et leurs emplacements générés, ils sont combinés avec les augmentations d'images standard. Une version différente de notre méthode remplit les patches sélectionnés de nouveau à la taille originale sur une image noire, appelée utilisation de patches additifs.
Prédiction de Position de Patch
Pendant l'entraînement, les patches alimentent l'encodeur avec des images augmentées. Le nombre de représentations dépend du nombre d'augmentations, de patches générés pour chaque image, et de la taille du mini-lot. Après agrégation, deux représentations sont combinées pour être entrées dans la tête de classification. Le nombre de paires générées dépend de la taille du mini-lot, des augmentations et des patches. Une fonction d'agrégation standard crée des paires, et pour chaque paire positive, une négative est considérée.
Le module de relation, adapté des conceptions antérieures, est élargi pour inclure plusieurs neurones. Un neurone classe les échantillons positifs et négatifs, tandis que d'autres prédisent les coordonnées des distances. L'accent principal est de permettre aux gradients de circuler même lorsque seules des paires d'images augmentées de taille complète sont utilisées.
Exigences de Calcul Dynamiques en Évaluation
Pendant l'inférence, l'image est divisée en patches de la même taille utilisée pendant l'entraînement. Les patches choisis sont combinés avec la représentation de l'image complète. Bien que la plupart des expériences utilisent neuf patches, le coût computationnel augmente avec le nombre de patches. Utiliser seulement deux patches générés pendant l'entraînement et moins d'augmentations mène tout de même à de meilleures performances comparé aux méthodes utilisant plus d'augmentations et de patches.
L'objectif du raisonnement spatial est de s'assurer que le réseau génère des représentations à partir des patches d'une manière qui aide à prédire les distances avec précision. Le réseau encodeur doit comprendre quelle partie de l'objet est représentée dans chaque patch. Cette information améliore la représentation combinée finale, menant à des résultats plus significatifs.
Taille de Patch et Nombre de Patches
Des découvertes antérieures indiquent que la taille de patch et le nombre de patches influencent significativement les performances. Les meilleurs résultats pour tiny-imagenet ont été trouvés avec des patches de 23 à 24 pixels. Des patches plus petits ne capturaient pas assez d'informations sur l'objet, menant à de mauvais résultats, tandis que des patches plus grands facilitaient les tâches, réduisant l'efficacité du signal de supervision.
Cette section discute de la manière dont le nombre de patches extraits pendant l'entraînement affecte les performances. Le nombre optimal de patches était de trois, ce qui permet d'équilibrer le contenu d'information et le niveau de défi.
Utilisation de Patches Additifs
Les expériences ont montré certaines limites avec le raisonnement spatial, soulignant la nécessité de contrôler le nombre de patches pendant l'entraînement pour réduire le décalage de domaine. Pour résoudre cela, une approche alternative appelée utilisation de patches additifs a été testée. Cette méthode remplit les patches de nouveau à la taille de l'image, permettant un entraînement sans redimensionnement, ce qui peut aider à réduire les effets de décalage de domaine. La nouvelle approche permet de traiter une image en un seul passage vers l'avant, simplifiant le processus tout en conservant des informations essentielles.
Les résultats ont montré qu'avec l'utilisation de patches additifs, il y avait une augmentation de la performance pendant l'évaluation. Cependant, à mesure que plus de patches entraînaient un chevauchement, il devenait plus difficile de maintenir l'efficacité. Dans l'ensemble, ajouter cette méthode fournit une manière simple d'améliorer les représentations. Bien qu'elle ait des limitations par rapport à la méthode originale de raisonnement spatial, elle réduit les besoins en calcul pendant l'inférence et est moins sensible aux choix d'hyperparamètres.
Conclusion
Ce travail démontre qu'une tête de relation peut être utilisée pour concevoir l'apprentissage du raisonnement spatial comme un objectif de pré-entraînement auxiliaire. La méthode mène à de meilleures représentations visuelles tout en réduisant la charge computationnelle pendant l'entraînement. Les résultats montrent que le raisonnement spatial améliore significativement la qualité des représentations à travers diverses évaluations.
Bien que l'entraînement soit moins exigeant en calcul, il y a toujours des coûts plus élevés durant l'inférence, et le réglage du nombre de patches nécessite une attention particulière. La méthode alternative d'utilisation de patches additifs réduit l'impact des décalages de domaine et élimine les calculs supplémentaires pendant l'inférence. Les efforts futurs pourraient explorer de meilleures techniques d'échantillonnage pour les tailles de patches et intégrer le raisonnement spatial dans des cadres plus standard.
Informations Supplémentaires
Nous avons réalisé des expériences sur deux nœuds différents en utilisant divers ensembles de données. Un nœud contient un seul GPU RTX3080 pour des comptes de patches plus petits, tandis que l'autre a un puissant GPU A100. Les temps d'entraînement, les taux d'apprentissage et les stratégies d'augmentation sont restés constants, les seuls ajustements étant la suppression de certaines augmentations pour les patches. Chaque ensemble de données a offert différents défis pour évaluer la performance et l'efficacité de la méthode proposée.
Les ensembles de données utilisés dans les expériences incluent CIFAR-100, CIFAR-10, tiny-ImageNet et STL-10, chacun présentant des caractéristiques et des difficultés uniques pour les tâches de reconnaissance d'images. Cette variété permet une évaluation complète des capacités de la méthode dans des scénarios réels.
Titre: From Patches to Objects: Exploiting Spatial Reasoning for Better Visual Representations
Résumé: As the field of deep learning steadily transitions from the realm of academic research to practical application, the significance of self-supervised pretraining methods has become increasingly prominent. These methods, particularly in the image domain, offer a compelling strategy to effectively utilize the abundance of unlabeled image data, thereby enhancing downstream tasks' performance. In this paper, we propose a novel auxiliary pretraining method that is based on spatial reasoning. Our proposed method takes advantage of a more flexible formulation of contrastive learning by introducing spatial reasoning as an auxiliary task for discriminative self-supervised methods. Spatial Reasoning works by having the network predict the relative distances between sampled non-overlapping patches. We argue that this forces the network to learn more detailed and intricate internal representations of the objects and the relationships between their constituting parts. Our experiments demonstrate substantial improvement in downstream performance in linear evaluation compared to similar work and provide directions for further research into spatial reasoning.
Auteurs: Toni Albert, Bjoern Eskofier, Dario Zanca
Dernière mise à jour: 2023-05-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.12384
Source PDF: https://arxiv.org/pdf/2305.12384
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.