Approches innovantes dans les réseaux de filtrage de données
Découvre l'impact des réseaux de filtrage de données sur les ensembles de données en machine learning et la performance des modèles.
― 9 min lire
Table des matières
De grands ensembles de données d'entraînement sont devenus essentiels en apprentissage automatique. Ils sont super importants pour les nouvelles avancées dans la compréhension du langage et la combinaison de différents types d'infos, comme les images et le texte. Souvent, l'organisation des données pour l'entraînement se fait un peu au hasard, mais une méthode courante est de rassembler une énorme quantité de données sur internet pour ensuite les affiner et créer un ensemble d'entraînement utilisable. Ce processus peut être amélioré grâce à un réseau de filtrage de données (DFN) qui aide à la deuxième étape de cette finesse des données brutes.
Réseaux de filtrage de données
Les DFNs sont des outils spéciaux conçus pour filtrer de grands volumes de données. Ils aident à trier des milliers d’exemples pour trouver ceux qui sont utiles. Nos recherches ont révélé que la façon dont un DFN filtre les données n'est pas forcément liée aux performances d'un modèle dans des tâches réelles. Par exemple, un modèle efficace en reconnaissance d’images pourrait donner de moins bonnes données d’entraînement qu’un modèle moins précis mais entraîné sur un petit ensemble de données de haute qualité. À partir de ce constat, on a créé de nouveaux DFNs qui peuvent produire des jeux de données image-texte incroyables.
Un jeu de données notable qu'on a créé, appelé DFN-5B, nous a permis d'entraîner des modèles avancés qui ont bien fonctionné malgré leurs limites informatiques. Par exemple, un modèle ViT-H entraîné sur notre dataset a montré plus de 80 % de précision lors de transferts zéro-shot sur ImageNet, ce qui était mieux que des modèles entraînés sur d'autres datasets populaires. Pour soutenir plus de recherches dans ce domaine, on a aussi sorti un autre dataset, le DFN-2B, qui contient 2 milliards d'exemples, et on a montré que des DFNs efficaces peuvent être construits en utilisant uniquement des données accessibles au public.
Importance des jeux de données bien organisés
Des jeux de données bien organisés ont aidé à faire avancer l'apprentissage automatique pendant des années, depuis les premiers projets jusqu'aux innovations d'aujourd'hui comme GPT-4. Malgré leur importance, ces jeux de données ne reçoivent souvent pas beaucoup d'attention dans la recherche par rapport aux algorithmes eux-mêmes. Beaucoup de méthodes pour améliorer les performances de l'apprentissage automatique se sont concentrées sur l'augmentation de la taille ou de la capacité des modèles plutôt que sur les jeux de données.
Bien que le redimensionnement des modèles ait montré comment des modèles plus gros et plus de données peuvent mener à de meilleures performances, il y a peu de conseils sur comment augmenter efficacement ces dimensions. Tester différentes tailles de modèles, couches et réglages d'entraînement est assez simple, mais le processus pour les datasets n'est pas aussi clair. La plupart des grands ensembles de données d'entraînement ne sont pas partagés publiquement, ce qui rend difficile la reproduction des résultats. Des initiatives récentes aident en fournissant des structures pour l'évaluation et la reproduction des jeux de données.
Conception et filtrage des jeux de données
On pense que la conception des jeux de données devrait utiliser les mêmes méthodes que la conception de modèles. Presque toute construction de grands jeux de données implique deux étapes : la collecte de données non filtrées et leur filtrage. Notre focus est sur cette deuxième étape, en supposant qu'il y a un grand pool de données non filtrées disponible. Les DFNs, qui sont des réseaux de neurones spécifiquement conçus pour filtrer des données, peuvent créer des jeux de données de pré-entraînement de haute qualité en travaillant avec ce pool.
Contrairement aux méthodes plus anciennes qui reposaient sur des règles spécifiques et une compréhension approfondie des données, les DFNs peuvent produire d'énormes ensembles de données de qualité sans intervention humaine. On a prouvé que les DFNs peuvent être entraînés depuis le début et peuvent être ajustés en utilisant les mêmes stratégies que les modèles d'apprentissage automatique classiques.
DFNs en action
Le DFN-2B, une sélection d'un vaste dataset, a surpassé tous les autres jeux de données, y compris celui d'OpenAI, WIT. Notre meilleur modèle, ViT-L, a fait mieux avec moins de ressources informatiques comparé aux autres modèles. On note aussi que notre modèle ViT-B/16 a surpassé un modèle d'OpenAI tout en utilisant 4 fois moins de puissance de calcul.
Les DFNs montrent la capacité de filtrer efficacement, permettant l’induction de jeux de données très performants même quand les données initiales sont de qualité mixte. Le processus de filtrage qu'on a développé mène à des jeux de données permettant aux modèles d'améliorer leurs performances sur diverses tâches comme la Reconnaissance d'images et le questionnement-réponse.
Infos sur les DFNs
Notre enquête a confirmé que l'efficacité d'un DFN n'est pas corrélée avec la performance des modèles entraînés dessus. On s'est concentré sur la qualité des données utilisées pour entraîner les DFNs, ce qui a eu un impact significatif sur la performance de ces réseaux. Utiliser uniquement des données de haute qualité pour l'entraînement a nettement amélioré la performance de filtrage, tandis que l'incorporation de données de moins bonne qualité a freiné les résultats.
En utilisant des DFNs, on a pu créer des jeux de données supérieurs, ce qui a conduit à de meilleurs modèles. De plus, les DFNs pourraient être modifiés en utilisant des techniques d'entraînement standard pour obtenir des jeux de données encore plus robustes. Ces techniques incluent l'augmentation de données et les ajustements de poids, qui ont montré qu'ils améliorent la performance sans augmenter les coûts.
Performance des DFNs
Notre dataset DFN-2B a obtenu des résultats supérieurs sur divers benchmarks comparé aux ensembles de données précédents. Par exemple, quand on a évalué un modèle entraîné sur DFN-2B par rapport à d'autres construits sur des ensembles précédents, notre modèle les a surpassés, indiquant que des données d'entraînement de haute qualité peuvent faire une différence critique.
Les modèles entraînés sur des DFNs n'ont pas seulement excédé en termes de métriques de performance, mais ont aussi utilisé moins de puissance de calcul. Cela veut dire qu'on a pu obtenir des résultats qui nécessitaient auparavant de plus grands modèles avec des modèles plus petits, ce qui est un gros avantage en apprentissage automatique.
Élargissement au-delà des tâches de vision
Nos découvertes suggèrent que les jeux de données entraînés avec des DFNs peuvent aussi bien fonctionner dans des tâches au-delà de la reconnaissance d'images traditionnelle. Quand on a examiné comment les modèles se comportaient dans le questionnement visuel (VQA), les modèles utilisant DFN-2B ont constamment surpassé ceux entraînés sur d'autres jeux de données, confirmant la polyvalence et la force des DFNs.
En appliquant ces techniques avancées, on a démontré que de meilleurs jeux de données pouvaient mener à de meilleurs modèles conçus pour une gamme d'applications, y compris les tâches VQA.
Reproductibilité publique
Pour s'assurer que ces avancées profitent à la communauté de recherche au sens large, on a rendu notre DFN disponible pour une utilisation publique. On a entraîné nos modèles en utilisant des sources de données accessibles, prouvant que des jeux de données de haute qualité peuvent être créés sans dépendre d'informations propriétaires ou difficiles à obtenir.
Notre méthode simple pour créer des DFNs leur permet de s'intégrer facilement dans les flux de travail existants. Comme les DFNs traitent les données individuellement, cette approche permet de développer des jeux de données beaucoup plus grands que ceux produits habituellement. Ces petits réseaux de neurones peuvent filtrer efficacement les données pendant l'entraînement du modèle, réduisant ainsi les défis liés à la préparation des données.
Directions futures
Bien que les DFNs soient un outil puissant pour construire de meilleurs jeux de données, plusieurs questions restent sans réponses. On ne sait toujours pas comment optimiser directement la qualité des datasets, s'appuyant plutôt sur des indicateurs indirects comme l'alignement. Il y a aussi beaucoup à apprendre sur comment les DFNs pourraient s'appliquer à d'autres domaines, comme l'audio et la vidéo.
Dans l'ensemble, les DFNs créent un pont entre la recherche sur les modèles et celle sur les jeux de données et pourraient ouvrir de nouvelles portes pour de futures études en apprentissage automatique. En se concentrant à la fois sur la qualité des données et sur les méthodes de filtrage, on peut continuer à améliorer la performance des modèles et leur accessibilité dans divers domaines.
Conclusion
En introduisant et utilisant des réseaux de filtrage de données, on a montré une nouvelle manière de créer des jeux de données de haute qualité. Ces jeux de données peuvent améliorer les performances de divers modèles tout en étant plus efficaces dans leur utilisation des ressources informatiques. Les DFNs symbolisent un pas en avant significatif en apprentissage automatique, facilitant le développement de modèles avancés capables de mieux performer sur une gamme de tâches.
Titre: Data Filtering Networks
Résumé: Large training sets have become a cornerstone of machine learning and are the foundation for recent advances in language modeling and multimodal learning. While data curation for pre-training is often still ad-hoc, one common paradigm is to first collect a massive pool of data from the Web and then filter this candidate pool down to an actual training set via various heuristics. In this work, we study the problem of learning a data filtering network (DFN) for this second step of filtering a large uncurated dataset. Our key finding is that the quality of a network for filtering is distinct from its performance on downstream tasks: for instance, a model that performs well on ImageNet can yield worse training sets than a model with low ImageNet accuracy that is trained on a small amount of high-quality data. Based on our insights, we construct new data filtering networks that induce state-of-the-art image-text datasets. Specifically, our best performing dataset DFN-5B enables us to train state-of-the-art CLIP models for their compute budgets: among other improvements on a variety of tasks, a ViT-H trained on our dataset achieves 84.4% zero-shot transfer accuracy on ImageNet, out-performing models trained on other datasets such as LAION-2B, DataComp-1B, or OpenAI's WIT. In order to facilitate further research in dataset design, we also release a new 2 billion example dataset DFN-2B and show that high performance data filtering networks can be trained from scratch using only publicly available data.
Auteurs: Alex Fang, Albin Madappally Jose, Amit Jain, Ludwig Schmidt, Alexander Toshev, Vaishaal Shankar
Dernière mise à jour: 2023-11-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.17425
Source PDF: https://arxiv.org/pdf/2309.17425
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.