DeiT-LT : Avancées des Vision Transformers pour l'apprentissage à longue traîne
Une nouvelle méthode améliore les performances des Vision Transformers sur des ensembles de données déséquilibrés.
― 10 min lire
Table des matières
Dans le monde de la vision par ordinateur, une nouvelle architecture appelée Vision Transformer (ViT) est devenue super populaire pour une grande variété de tâches. L'idée de base derrière ViT, c'est de décomposer les images en morceaux plus petits, appelés patches, et ensuite de traiter ces patches avec une méthode connue sous le nom d'auto-attention. Cette méthode aide le modèle à faire attention à différentes parties de l'image tout en faisant des prédictions.
Contrairement aux réseaux de neurones convolutifs traditionnels (CNN), qui s'appuient beaucoup sur certaines hypothèses concernant les images (comme l'importance des pixels voisins), ViT n'a pas ces hypothèses. Ça veut dire que ViT a besoin de beaucoup de données pour apprendre efficacement. Il y a eu des efforts pour faire en sorte que ViT fonctionne mieux avec des ensembles de données plus petits, mais la plupart de ces méthodes se concentrent sur des ensembles de données équilibrés, où toutes les classes ont un nombre similaire d'exemples.
Cependant, de nombreux ensembles de données du monde réel ne sont pas équilibrés. Dans ces ensembles de données à longue queue, certaines classes ont beaucoup d'exemples, tandis que d'autres en ont très peu. Ça crée un challenge pour les modèles, car ils ont souvent du mal à apprendre des Classes minoritaires. Pour remédier à cela, nous avons développé une nouvelle méthode appelée DeiT-LT, qui est spécialement conçue pour entraîner des ViTs sur des ensembles de données à longue queue.
C'est quoi DeiT-LT ?
DeiT-LT signifie "Transformateurs d'Images Économes en Données pour les Données à Longue Queue." Cette méthode se concentre sur comment entraîner des Vision Transformers depuis le début sans avoir besoin de grands ensembles de données préexistants. Le but est d'améliorer la capacité du modèle à apprendre à partir de classes qui ont moins d'exemples.
Une des innovations clés de DeiT-LT est un processus appelé Distillation. Dans la distillation, un modèle plus petit (l'élève) apprend d'un modèle plus grand (le professeur). Dans notre cas, l'élève est un Vision Transformer, et le professeur est un CNN. Le professeur aide l'élève à comprendre les caractéristiques importantes des données.
Dans DeiT-LT, on utilise un token de distillation spécial qui apprend du professeur CNN, en mettant l'accent sur les images qui ne correspondent pas aux exemples d'entraînement typiques. Ça permet au modèle de se concentrer davantage sur les classes minoritaires, améliorant ainsi sa capacité à faire des prédictions précises pour ces classes.
Le défi des données à longue queue
Les ensembles de données à longue queue sont courants dans de nombreux domaines, de la reconnaissance d'images au traitement du langage naturel. Ces ensembles de données ont quelques classes avec de nombreux exemples, et beaucoup de classes avec juste quelques. Cet équilibre fait qu'il est difficile pour les modèles d'apprendre correctement. Alors que le modèle peut bien performer sur des classes avec beaucoup d'exemples, il échoue souvent sur des classes sous-représentées.
Pour s'attaquer à ce problème, les chercheurs ont développé diverses stratégies. Certains se concentrent sur l'ajustement de la fonction de perte, ce qui aide à guider le modèle dans l'apprentissage des classes minoritaires. D'autres emploient plusieurs modèles plus petits, chacun spécialisé dans différentes parties de l'ensemble de données, et combinent leurs prédictions.
Cependant, la plupart de ces techniques ont été appliquées principalement aux CNN, laissant un vide dans la littérature concernant leur efficacité pour les architectures Transformer. Avec l'introduction de DeiT-LT, nous visons à combler cette lacune en montrant comment les modèles Transformer peuvent également bien performer sur des ensembles de données à longue queue.
Innovations clés de DeiT-LT
DeiT-LT introduit plusieurs composants importants pour améliorer l'entraînement des Vision Transformers sur des ensembles de données à longue queue :
Distillation depuis le CNN : Nous distillons des connaissances d'un professeur CNN afin que le Vision Transformer puisse apprendre des caractéristiques locales qui sont importantes pour des prédictions précises, surtout dans les classes avec moins d'exemples.
Utilisation d'images hors distribution : En introduisant des images qui n'apparaissent pas typiquement dans les données d'entraînement, nous créons un environnement d'apprentissage plus difficile. Ça aide le modèle à devenir robuste et lui permet de mieux généraliser, particulièrement pour les classes minoritaires.
Perte de re-poids différée : Cette stratégie aide à souligner l'importance des classes minoritaires pendant l'entraînement, en s'assurant que le modèle prête plus d'attention à ces classes.
Apprentissage des caractéristiques de faible rang : En entraînant le professeur CNN avec une méthode appelée Minimisation de la Sensibilité (SAM), nous pouvons dériver des caractéristiques qui sont moins complexes et plus faciles à apprendre pour le Vision Transformer. Ça aide à améliorer la performance du modèle sur les classes avec moins d'exemples d'entraînement.
Ces innovations permettent collectivement à DeiT-LT de se concentrer efficacement sur les classes principales (majoritaires) et les classes à queue (minoritaires) dans le même cadre de modèle.
Comment fonctionne DeiT-LT ?
Le processus d'entraînement de DeiT-LT peut être décomposé en plusieurs étapes :
Préparation des données : L'entraînement commence avec un ensemble de données contenant des images de diverses classes. Cet ensemble de données est souvent déséquilibré, certaines classes étant beaucoup plus représentées que d'autres.
Entraînement du modèle professeur : Un plus petit CNN est entraîné sur cet ensemble de données en utilisant des techniques standard. Le modèle professeur est conçu pour apprendre efficacement les caractéristiques importantes des données.
Génération d'échantillons hors distribution : Pendant la phase de distillation, nous générons de nouveaux échantillons en utilisant de fortes augmentations. Ces images augmentées servent d'exemples hors distribution, ce qui pousse le modèle élève à mieux apprendre du professeur.
Processus de distillation : Le Vision Transformer (l'élève) apprend du CNN (le professeur) à travers le processus de distillation. L'accent est mis à la fois sur les classifications globales et sur les détails plus fins des caractéristiques.
Ajustement de la perte : La fonction de perte est ajustée pour donner plus de poids aux prédictions faites sur les classes minoritaires. C'est crucial, car cela favorise un meilleur apprentissage à partir des exemples moins fréquents.
Prédictions finales : Après l'entraînement, le modèle peut faire des prédictions sur de nouvelles images. Les prédictions intègrent les connaissances apprises des classes principales et des classes à queue, conduisant à une performance globale améliorée.
Expérimentations et résultats
Pour valider l'efficacité de DeiT-LT, nous avons mené des expériences sur divers ensembles de données. Ces expériences allaient des ensembles de données à petite échelle comme CIFAR-10 et CIFAR-100 à de grands ensembles de données comme ImageNet et iNaturalist-2018.
Ensembles de données à petite échelle
CIFAR-10 LT et CIFAR-100 LT : Ces ensembles de données sont spécifiquement conçus pour tester les techniques d'apprentissage à longue queue. Ils contiennent des images catégorisées en 10 et 100 classes, respectivement, avec beaucoup de classes ayant un nombre limité d'exemples.
- Les résultats ont montré que DeiT-LT peut surpasser significativement les modèles existants sans aucune pré-formation. Le modèle a atteint une meilleure précision, notamment sur les classes minoritaires, par rapport à d'autres méthodes conventionnelles.
Performance des classes principales, intermédiaires et à queue : Les résultats indiquaient que le token CLS de DeiT-LT a excellé sur les classes principales, atteignant plus de 90% de précision, tandis que le token DIST a excellé sur les classes à queue. Ça montre la capacité du modèle à se spécialiser en fonction de la distribution des classes.
Ensembles de données à grande échelle
ImageNet-LT : Un benchmark bien connu pour l'apprentissage à longue queue. Nous avons comparé DeiT-LT avec d'autres modèles de référence. Notre méthode a clairement surpassé les modèles traditionnels entraînés sur le même ensemble de données à longue queue, montrant des améliorations surtout dans la reconnaissance des classes minoritaires.
iNaturalist-2018 : Cet ensemble de données du monde réel présente divers défis en raison des déséquilibres dans la représentation des classes. Ici, DeiT-LT a réussi à atteindre une précision louable, renforçant encore sa position comme une option robuste pour l'apprentissage à longue queue.
Comprendre les résultats
Les expériences ont révélé plusieurs insights sur la dynamique d'entraînement de DeiT-LT :
Efficacité de la distillation : L'utilisation d'un professeur CNN pour guider le Vision Transformer s'est avérée bénéfique. Le modèle élève pouvait apprendre des caractéristiques essentielles qui étaient cruciales pour faire des prédictions précises, surtout dans les classes à queue.
Concentration sur les classes minoritaires : Les ajustements effectués dans la fonction de perte ont montré des améliorations marquées dans la capacité du modèle à apprendre à partir de classes avec moins d'exemples, soulignant l'importance des stratégies d'entraînement adaptées.
Gestion de la diversité des sorties : Les rôles distincts des tokens CLS et DIST ont permis au modèle d'exceller à la fois dans les classes majoritaires et minoritaires. Cette diversité dans les sorties a conduit à une compréhension équilibrée de l'ensemble de données.
Directions futures
Bien que DeiT-LT démontre des avancées significatives, il y a des domaines à explorer à l'avenir :
Techniques d'apprentissage adaptatives : Développer des méthodes qui peuvent passer de manière adaptative de la rétroaction du CNN à un véritable apprentissage par étiquette aiderait à améliorer encore les performances sur les classes à queue.
Explorer d'autres modèles de professeurs : Bien que nous ayons principalement utilisé des professeurs CNN, évaluer l'impact de différentes architectures sur le processus de distillation pourrait donner plus d'insights.
Applications en temps réel : Enquêter sur comment déployer ces modèles dans des scénarios en temps réel tout en maintenant leurs performances est une zone de recherche précieuse.
Atténuation des biais : S'assurer que le modèle n'hérite pas de biais issus des ensembles de données de pré-entraînement ou des méthodes d'augmentation serait également crucial pour les applications d'IA éthiques.
Conclusion
DeiT-LT représente un progrès prometteur dans le domaine des Vision Transformers, particulièrement pour faire face aux défis posés par les ensembles de données à longue queue. Grâce à une distillation efficace à partir de modèles CNN et à des stratégies d'entraînement innovantes, il a démontré la capacité d'améliorer la performance à travers différentes classes sans avoir besoin de grands ensembles de données pré-entraînés.
Alors que la vision par ordinateur continue d'évoluer, des méthodes comme DeiT-LT ouvrent la voie à des modèles plus robustes qui peuvent s'épanouir dans des scénarios réels divers et déséquilibrés.
Titre: DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets
Résumé: Vision Transformer (ViT) has emerged as a prominent architecture for various computer vision tasks. In ViT, we divide the input image into patch tokens and process them through a stack of self attention blocks. However, unlike Convolutional Neural Networks (CNN), ViTs simple architecture has no informative inductive bias (e.g., locality,etc. ). Due to this, ViT requires a large amount of data for pre-training. Various data efficient approaches (DeiT) have been proposed to train ViT on balanced datasets effectively. However, limited literature discusses the use of ViT for datasets with long-tailed imbalances. In this work, we introduce DeiT-LT to tackle the problem of training ViTs from scratch on long-tailed datasets. In DeiT-LT, we introduce an efficient and effective way of distillation from CNN via distillation DIST token by using out-of-distribution images and re-weighting the distillation loss to enhance focus on tail classes. This leads to the learning of local CNN-like features in early ViT blocks, improving generalization for tail classes. Further, to mitigate overfitting, we propose distilling from a flat CNN teacher, which leads to learning low-rank generalizable features for DIST tokens across all ViT blocks. With the proposed DeiT-LT scheme, the distillation DIST token becomes an expert on the tail classes, and the classifier CLS token becomes an expert on the head classes. The experts help to effectively learn features corresponding to both the majority and minority classes using a distinct set of tokens within the same ViT architecture. We show the effectiveness of DeiT-LT for training ViT from scratch on datasets ranging from small-scale CIFAR-10 LT to large-scale iNaturalist-2018.
Auteurs: Harsh Rangwani, Pradipto Mondal, Mayank Mishra, Ashish Ramayee Asokan, R. Venkatesh Babu
Dernière mise à jour: 2024-04-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.02900
Source PDF: https://arxiv.org/pdf/2404.02900
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.