Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Calcul et langage

MetaCLIP : Une nouvelle approche de la curation des données

Présentation de MetaCLIP pour une meilleure collecte de données image-texte.

― 11 min lire


MetaCLIP : InnovationMetaCLIP : Innovationdans la curation dedonnéespour les modèles d'IA.Révolutionner la curation des données
Table des matières

CLIP (Pré-entrainement Contrastif Langage-Image) est une méthode qui a amélioré notre façon de reconnaître les images et de générer des modèles en vision par ordinateur. La clé du succès de CLIP réside dans les données qu'il utilise, pas seulement dans la structure de son modèle. Cependant, les détails sur ces données et leur collecte ne sont pas disponibles publiquement. Cela a poussé certains chercheurs à essayer de recréer les données de CLIP en utilisant les paramètres de son modèle comme filtres.

Dans cet article, on va expliquer comment les données de CLIP sont rassemblées. On va aussi introduire une nouvelle méthode appelée MetaCLIP, qui se concentre sur la transparence et l'accessibilité de la Collecte de données.

C'est quoi MetaCLIP ?

MetaCLIP offre une nouvelle façon de prendre des données brutes et des métadonnées, qui viennent des concepts de CLIP, et de créer un ensemble équilibré qui suit la distribution de ces métadonnées. Cette nouvelle méthode se distingue en se concentrant entièrement sur les données elles-mêmes, plutôt que sur le modèle ou le processus d'entraînement.

Dans nos tests, MetaCLIP, appliqué à un grand jeu de données appelé CommonCrawl, a montré de meilleures performances que les données originales de CLIP dans divers tests. Par exemple, pour une tâche de classification zero-shot sur ImageNet, MetaCLIP a atteint une précision de 70,8 %, surpassant les 68,3 % de CLIP avec le même type de modèle. Quand on a augmenté la taille des données à 1 milliard d'entrées, la précision est montée à 72,4 %. Ces résultats étaient cohérents à travers différentes tailles de modèles, montrant des améliorations même pour des modèles plus grands.

Le besoin de données d'entraînement de qualité

L'apprentissage profond a changé le paysage de l'intelligence artificielle. L'utilisation de modèles pré-entraînés a rendu la technologie de pointe plus accessible. Cependant, les données d'entraînement utilisées pour créer ces modèles sont souvent cachées.

À mesure que de plus en plus de modèles pré-entraînés deviennent disponibles, le manque de transparence autour de leurs données d'entraînement devient encore plus évident. Des facteurs comme des problématiques de droits d'auteur peuvent aussi restreindre l'accès aux sources originales de données. Cela met en avant l'importance de créer de nouvelles méthodes pour rassembler des données de haute qualité qui peuvent être partagées librement.

Dans la vision par ordinateur, les modèles CLIP dominent le domaine grâce à leur jeu de données de haute qualité connu sous le nom de WIT400M, qui consiste en des Paires image-texte collectées sur Internet. Malgré sa popularité, le processus par lequel CLIP a été élaboré reste flou.

Certains chercheurs ont essayé de reproduire le jeu de données de CLIP mais avec des méthodes différentes dans leur élaboration. Alors que CLIP rassemble des données avec une source et une méthode inconnues, d'autres études ont filtré les données à travers le modèle CLIP, ce qui limite la qualité des données recréées.

Avantages de l'élaboration des données de CLIP

La façon dont CLIP collecte ses données a ses avantages. D'abord, il part de zéro, ce qui aide à prévenir les biais qui peuvent se produire lorsqu'on utilise des filtres. Ensuite, la méthode de CLIP crée une distribution de données équilibrée sur les métadonnées, préservant des informations précieuses tout en réduisant le bruit. Par exemple, filtrer les chiffres peut enlever des données inutiles mais aussi des éléments importants pour des tâches comme la reconnaissance de caractères.

Cette approche équilibrée pose les bases de données d'entraînement de haute qualité utilisées dans divers modèles.

Une étude sur l'élaboration des données de CLIP

Ce travail vise à clarifier la méthode de CLIP pour rassembler ses données d'entraînement. On a mené des expériences détaillées centrées uniquement sur les données, excluant d'autres éléments qui pourraient influencer les résultats. Notre étude a révélé plusieurs facteurs clés qui contribuent à une bonne qualité de données et a permis de mettre en place une méthode simple pour améliorer le processus d'élaboration de CLIP.

On a aussi mis en lumière la stratégie d'élaboration et la distribution des données d'entraînement résultantes. Notre approche permet aux utilisateurs de s'adapter facilement à différents jeux de données sans compter sur des filtres externes.

Notre méthode, appelée MetaCLIP, utilise une combinaison de données brutes et de métadonnées dérivées des requêtes initiales de CLIP. L'objectif est de créer un sous-ensemble équilibré basé sur ces métadonnées.

Résultats expérimentaux

Quand on a testé sur le jeu de données CommonCrawl de 400 millions de paires image-texte, MetaCLIP a surpassé CLIP sur plusieurs benchmarks. Dans des tâches de classification zero-shot, on a trouvé que MetaCLIP atteignait une plus grande précision que CLIP parmi différents types de modèles.

En augmentant les données à 2,5 milliards d'entrées tout en gardant le même budget d'entraînement, on a obtenu des résultats encore meilleurs, atteignant une précision de 79,2 % pour une taille de modèle et 80,5 % pour une autre.

Recherches connexes

Les données d'entraînement de CLIP se distinguent des ensembles de données supervisées traditionnels. Contrairement aux ensembles de données normaux qui reposent sur des images catégorisées avec des annotations humaines, CLIP utilise un volume plus important de paires image-texte de qualité mixte pour l'entraînement. De plus, la phase de pré-entraînement de CLIP part du principe qu'il n'existe pas de modèles préexistants disponibles pour guider le processus.

Élagage des données et données bruyantes d'internet

Les chercheurs explorent des méthodes pour améliorer la qualité des données, certains se concentrant sur l'élagage d'ensembles de données établis en utilisant des modèles pré-entraînés. Ces méthodes, bien qu'utiles pour affiner les données, ne traitent pas forcément les problèmes de qualité des données initiales. Gérer des données bruyantes d'internet est un autre défi. Les techniques traditionnelles impliquent souvent de nettoyer manuellement les ensembles de données pour supprimer des échantillons indésirables.

Efforts pour répliquer les données d'entraînement de CLIP

Des initiatives récentes, comme LAION, ont cherché à répliquer les données d'entraînement de CLIP. Cependant, leurs méthodes diffèrent sur plusieurs aspects clés. Leurs données proviennent souvent d'une source filtrée, ce qui peut engendrer des biais invisibles.

Comprendre comment CLIP recueille ses données est essentiel pour la recherche future, car cela peut aider à développer des techniques plus efficaces pour entraîner des modèles vision-langage.

Éclaircissements sur le processus d'élaboration de CLIP

Les informations limitées disponibles dans l'article original de CLIP rendent difficile la réplique précise de l'ensemble de données. On va clarifier les choix faits dans notre approche, se concentrant sur la préservation des signaux précieux tout en minimisant le bruit.

WIT400M est créé à l'aide de méthodes qui rassemblent 400 millions de paires image-texte provenant de diverses sources publiques sur internet. L'objectif est de couvrir un large éventail de concepts visuels en utilisant un ensemble de requêtes. Les résultats recueillis sont ensuite équilibrés pour garantir une représentation diversifiée.

Construction de métadonnées

Pour construire les métadonnées, on commence par reconstruire une liste de requêtes à partir de sources disponibles publiquement. Cette liste inclut des mots et des phrases courants qui apparaissent fréquemment.

Les métadonnées utilisées pour cette étude consistent en des éléments rassemblés à partir de WordNet et de Wikipedia, garantissant un large éventail de couverture pour nos requêtes.

Correspondance de sous-chaînes et pool de paires image-texte

Une fois qu'on a les métadonnées, on aligne un pool de paires image-texte avec ces entrées grâce à un processus appelé correspondance de sous-chaînes. Cette étape est cruciale pour filtrer le texte de basse qualité et l'associer efficacement à des requêtes de haute qualité.

Après la correspondance, on crée un index inversé qui nous permet de regrouper les entrées de texte selon les métadonnées associées. Cela offre une vue claire sur les entrées bien représentées et celles qui manquent.

Équilibrage de la distribution des données

Une étape essentielle dans la stratégie d'élaboration de CLIP est de garantir que les comptes des entrées appariées soient équilibrés. En échantillonnant des paires de texte selon les entrées de métadonnées, on peut créer une distribution de données plus uniforme.

Ce processus réduit la dominance des termes courants et introduit une plus grande diversité dans le jeu de données, le rendant plus adapté à diverses tâches.

Un algorithme d'élaboration simple

On présente un algorithme conçu pour formaliser le processus d'élaboration. Cet algorithme vise à simplifier les opérations et à améliorer l'évolutivité en réduisant la quantité de données stockées durant les étapes d'élaboration.

L'algorithme se compose de deux parties principales : une pour compter les entrées appariées et une autre pour équilibrer les paires de texte échantillonnées.

Pools de données et configuration d'entraînement

Dans nos expériences, on a travaillé avec deux pools de données. Le premier pool contient un nombre significatif de paires image-texte collectées à partir de CommonCrawl, tandis que le second pool est plus grand et provient de multiples sources.

La configuration d'entraînement était alignée avec les méthodes CLIP existantes, en utilisant des GPUs puissants et en respectant un nombre strict d'époques d'entraînement à travers différentes échelles de modèles.

Évaluation et benchmarking de la performance

On a benchmarké MetaCLIP contre CLIP et OpenCLIP pour évaluer les performances sur plusieurs tâches. Les résultats ont montré que notre méthode surpassait systématiquement à la fois CLIP et OpenCLIP dans de nombreuses catégories, particulièrement en ce qui concerne des jeux de données spécifiques.

Effet de l'échelle des données

En augmentant les données à 1 milliard et 2,5 milliards d'entrées, on a observé des améliorations significatives de la précision sans augmenter les coûts computationnels.

Les différences dans les ensembles d'entraînement ont montré que des jeux de données plus équilibrés conduisaient à de meilleurs résultats dans les tâches de classification par rapport à des ensembles de données plus grands et moins ciblés.

Conclusions

Pour résumer, ce travail a souligné l'importance de l'élaboration de données et de la transparence pour obtenir des matériaux d'entraînement de haute qualité pour les modèles. En créant MetaCLIP, on a fait des progrès pour améliorer le processus d'élaboration, montrant de fortes performances dans les benchmarks par rapport aux méthodes existantes.

On encourage les futures recherches à s'appuyer sur ces découvertes, en mettant l'accent sur l'importance de la qualité des données tout en promouvant un accès ouvert à des ensembles de données précieux. Nos résultats soulignent aussi que l'élaboration attentive et l'attention portée à la distribution peuvent améliorer significativement la performance des modèles dans diverses tâches.

Le travail réalisé ici ouvre des possibilités pour mieux comprendre et appliquer les méthodes d'élaboration de données en intelligence artificielle, favorisant l'innovation et une plus grande collaboration dans le domaine.

Source originale

Titre: Demystifying CLIP Data

Résumé: Contrastive Language-Image Pre-training (CLIP) is an approach that has advanced research and applications in computer vision, fueling modern recognition systems and generative models. We believe that the main ingredient to the success of CLIP is its data and not the model architecture or pre-training objective. However, CLIP only provides very limited information about its data and how it has been collected, leading to works that aim to reproduce CLIP's data by filtering with its model parameters. In this work, we intend to reveal CLIP's data curation approach and in our pursuit of making it open to the community introduce Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP takes a raw data pool and metadata (derived from CLIP's concepts) and yields a balanced subset over the metadata distribution. Our experimental study rigorously isolates the model and training settings, concentrating solely on data. MetaCLIP applied to CommonCrawl with 400M image-text data pairs outperforms CLIP's data on multiple standard benchmarks. In zero-shot ImageNet classification, MetaCLIP achieves 70.8% accuracy, surpassing CLIP's 68.3% on ViT-B models. Scaling to 1B data, while maintaining the same training budget, attains 72.4%. Our observations hold across various model sizes, exemplified by ViT-H achieving 80.5%, without any bells-and-whistles. Curation code and training data distribution on metadata is made available at https://github.com/facebookresearch/MetaCLIP.

Auteurs: Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer

Dernière mise à jour: 2024-12-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.16671

Source PDF: https://arxiv.org/pdf/2309.16671

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires