Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Apprentissage automatique

Avancer les techniques de préformation pour les Transformers de vision

Présentation de l'Embedding Positionnel Adversarial et de MAE+ pour améliorer l'entraînement des modèles d'images.

― 7 min lire


Transformers améliorésTransformers améliorésgrâce à AdPEvision.carrément la perf des transformers deDe nouvelles méthodes boostent
Table des matières

Le préentraînement des modèles en vision par ordinateur est devenu super important, surtout avec l'essor des transformers. Ces modèles peuvent apprendre à partir de beaucoup de données sans avoir besoin d'infos étiquetées. Un moyen efficace de faire ça, c'est avec une méthode appelée Modélisation d'Image Masquée (MIM). Dans cette méthode, des parties de l'image sont cachées, et le modèle doit prédire ces parties en se basant sur les sections visibles. Le but est de former le modèle à apprendre des caractéristiques utiles des images qui peuvent ensuite être appliquées à d'autres tâches comme la classification ou la détection.

Qu'est-ce que les Vision Transformers ?

Les vision transformers sont un type de modèle qui traite les images de manière similaire à celle des transformers qui s'attaquent au texte. Ils divisent les images en petits morceaux, appelés patches, et traitent chaque patch comme un mot dans une phrase. Cette approche permet au modèle d'apprendre les relations entre différentes parties de l'image de manière efficace.

Importance du Préentraînement

Le préentraînement aide les modèles à comprendre les caractéristiques générales des images sans avoir besoin de grandes quantités de données étiquetées. Ça permet au modèle de devenir bon pour reconnaître des motifs, ce qui peut être utile pour une variété de tâches en traitement d'images.

Parmi les méthodes de préentraînement, le MIM se démarque parce qu'il permet au modèle d'apprendre de la structure inhérente des images elles-mêmes. Cette méthode a montré un grand potentiel mais fait encore face à des défis pour s'assurer que le modèle ne se concentre pas trop sur des caractéristiques simples et faciles à apprendre.

Embedding Positif Adversarial (AdPE)

Pour surmonter certains des défis rencontrés dans le MIM, on introduit l'Embedding Positif Adversarial (AdPE). L'idée principale derrière l'AdPE est de rendre la tâche de prédire les parties masquées d'une image plus difficile en distordant l'information positionnelle des patches. Ça pousse le modèle à apprendre des caractéristiques plus complexes et générales, au lieu de se fier uniquement à des motifs locaux.

Comment fonctionne l'AdPE ?

L'AdPE introduit des changements dans la façon dont on représente la position de chaque patch. Il y a deux façons principales de faire cela : en modifiant les embeddings positionnels ou en changeant les coordonnées spatiales des patches. Les deux méthodes visent à créer un scénario où le modèle ne peut pas compter sur des corrélations simples entre les patches voisins.

Embeddings Positionnels

Les embeddings positionnels sont utilisés pour informer le modèle de l'emplacement de chaque patch dans l'image. En perturbant ces embeddings, on empêche le modèle de prédire facilement les patches masqués en se basant sur leur relation locale avec les patches voisins.

Coordonnées Spatiales

Au lieu de simplement modifier les embeddings, des changements peuvent également être faits directement sur les coordonnées des patches. Cela a un impact plus direct sur la façon dont le modèle perçoit la disposition spatiale de l'image, le poussant à apprendre davantage de contexte global plutôt que juste des caractéristiques locales.

Avantages de l'AdPE

L'introduction de l'AdPE permet au vision transformer de se concentrer davantage sur l'arrangement global des différentes parties de l'image. Ça aide le modèle à trouver et à apprendre des caractéristiques complexes qui sont utiles pour des tâches en aval, comme la classification d'images ou la détection d'objets. En conséquence, il performe mieux quand on l'affine pour des tâches spécifiques après le préentraînement.

MAE+ Baseline

Pour améliorer encore plus les résultats, on propose aussi une nouvelle baseline appelée MAE+. Cette nouvelle approche s'appuie sur les méthodes standards de l'Autoencodeur Masqué (MAE) en intégrant la tokenisation multicrop. L'idée ici est de prendre plusieurs crops d'une image pendant l'entraînement, ce qui aide le modèle à apprendre de différentes perspectives de la même image.

Comment MAE+ améliore-t-il MAE ?

MAE+ permet au modèle d'utiliser à la fois des patches masqués et non masqués pendant le préentraînement, ce qui mène à une meilleure précision lors de la phase de fine-tuning. En utilisant des crops qui varient en échelle, le modèle peut apprendre d'une plus grande variété de caractéristiques présentes dans les images.

Expériences et Résultats

On réalise des expériences avec plusieurs datasets, comme Imagenet1K, pour évaluer la performance de l'AdPE et de MAE+ par rapport aux méthodes traditionnelles.

Performance sur Imagenet1K

Dans nos expériences, on a constaté que l'AdPE et MAE+ surpassaient significativement les méthodes traditionnelles comme MAE. Les améliorations sont évidentes dans la précision des modèles testés sur diverses tâches après la phase de préentraînement.

Résultats du Transfert Learning

En plus des tests sur Imagenet1K, on évalue les modèles sur d'autres datasets comme ADE20K et COCO, ce qui nous permet de voir combien les modèles préentraînés se généralisent bien à de nouvelles tâches. Les résultats montrent que les modèles préentraînés avec AdPE surpassent constamment leurs homologues, démontrant leur efficacité à conserver des caractéristiques utiles.

Visualisation des Cartes d'attention

Pour comprendre combien le modèle apprend avec l'AdPE, on peut visualiser ses cartes d'attention. Ces cartes montrent où le modèle se concentre quand il fait des prédictions.

Comparaison des Cartes d'Attention

En comparant les cartes d'attention des modèles entraînés avec des techniques MIM standard à celles entraînées avec l'AdPE, il devient clair que ce dernier a un focus plus large. Plutôt que de se contenter d'examiner des patches locaux, le modèle entraîné avec l'AdPE apprend à prêter attention à un contexte plus vaste. C'est bénéfique pour comprendre les plus grandes caractéristiques et motifs d'une image.

Conclusion

En résumé, l'utilisation des Embeddings Positionnels Adversariaux (AdPE) avec la nouvelle baseline MAE+ offre une méthode robuste pour le préentraînement des vision transformers. En défiant le modèle à apprendre des caractéristiques globales plus complexes, on s'assure qu'il est mieux équipé pour les tâches en aval. Les résultats démontrent que l'AdPE améliore efficacement les capacités des vision transformers, menant à une meilleure performance sur plusieurs datasets et tâches.

Future Work

En regardant vers l'avenir, d'autres recherches peuvent explorer comment l'AdPE peut être intégré avec d'autres types de réseaux neuronaux et comment il peut bénéficier à des domaines au-delà de la vision par ordinateur. Des ajustements dans la façon dont on formule les embeddings positionnels et les systèmes de coordonnées peuvent ouvrir de nouvelles voies pour améliorer la performance des modèles dans divers domaines.

Des efforts peuvent aussi se concentrer sur l'optimisation de l'efficacité computationnelle des méthodes d'entraînement pour permettre des applications plus larges dans des scénarios réels. En perfectionnant ces idées, on peut travailler à la création de modèles encore plus puissants et polyvalents pour la compréhension et l'analyse des images.

Cette exploration de l'AdPE et de ses applications souligne l'importance de l'innovation en apprentissage automatique, notamment pour améliorer la façon dont les modèles apprennent et se généralisent à partir de données complexes. Alors qu'on continue de voir des avancées dans ce domaine, le potentiel pour de nouvelles techniques et méthodologies reste vaste.

Source originale

Titre: AdPE: Adversarial Positional Embeddings for Pretraining Vision Transformers via MAE+

Résumé: Unsupervised learning of vision transformers seeks to pretrain an encoder via pretext tasks without labels. Among them is the Masked Image Modeling (MIM) aligned with pretraining of language transformers by predicting masked patches as a pretext task. A criterion in unsupervised pretraining is the pretext task needs to be sufficiently hard to prevent the transformer encoder from learning trivial low-level features not generalizable well to downstream tasks. For this purpose, we propose an Adversarial Positional Embedding (AdPE) approach -- It distorts the local visual structures by perturbing the position encodings so that the learned transformer cannot simply use the locally correlated patches to predict the missing ones. We hypothesize that it forces the transformer encoder to learn more discriminative features in a global context with stronger generalizability to downstream tasks. We will consider both absolute and relative positional encodings, where adversarial positions can be imposed both in the embedding mode and the coordinate mode. We will also present a new MAE+ baseline that brings the performance of the MIM pretraining to a new level with the AdPE. The experiments demonstrate that our approach can improve the fine-tuning accuracy of MAE by $0.8\%$ and $0.4\%$ over 1600 epochs of pretraining ViT-B and ViT-L on Imagenet1K. For the transfer learning task, it outperforms the MAE with the ViT-B backbone by $2.6\%$ in mIoU on ADE20K, and by $3.2\%$ in AP$^{bbox}$ and $1.6\%$ in AP$^{mask}$ on COCO, respectively. These results are obtained with the AdPE being a pure MIM approach that does not use any extra models or external datasets for pretraining. The code is available at https://github.com/maple-research-lab/AdPE.

Auteurs: Xiao Wang, Ying Wang, Ziwei Xuan, Guo-Jun Qi

Dernière mise à jour: 2023-03-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.07598

Source PDF: https://arxiv.org/pdf/2303.07598

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires