Présentation de FineWeb : un nouveau jeu de données pour les modèles de langage
FineWeb propose 15 trillions de jetons pour améliorer l'entraînement des modèles linguistiques.
― 10 min lire
Table des matières
- Contexte sur les Modèles Linguistiques
- Qu'est-ce que FineWeb ?
- L'Importance des Données de Qualité
- Construction de FineWeb
- Processus d'Extraction de Données
- Étapes de Filtrage Initiales
- Techniques de Filtrage Avancées
- Développement de Filtres Personnalisés
- Finalisation de FineWeb
- Introduction à FineWeb-Edu
- Entraînement du Classificateur
- Aborder le biais dans les Ensembles de Données
- Conclusions
- Source originale
- Liens de référence
Les grands modèles linguistiques (LLMs), qui sont des programmes informatiques capables de comprendre et de générer le langage humain, dépendent beaucoup des données sur lesquelles ils sont entraînés. La qualité et la quantité de ces données jouent un rôle important dans la manière dont ces modèles réalisent leurs tâches. Malheureusement, de nombreux ensembles de données utilisés pour entraîner des modèles avancés comme Llama 3 et Mixtral ne sont pas accessibles au public, et nous savons très peu de choses sur leur composition.
Cet article présente FineWeb, un grand ensemble de données contenant 15 trillions de tokens, ou morceaux de texte, collectés à partir de 96 instantanés de Common Crawl. FineWeb est conçu pour aider à créer des modèles linguistiques plus performants par rapport à d'autres ensembles de données ouverts. En partageant comment FineWeb a été créé, ainsi que les méthodes utilisées pour filtrer et supprimer le contenu de faible qualité, nous visons à fournir des informations utiles sur la constitution d'ensembles de données d'entraînement de haute qualité.
Contexte sur les Modèles Linguistiques
Les modèles linguistiques sont devenus des outils essentiels car ils peuvent gérer un large éventail de tâches textuelles. L'augmentation de la taille de ces modèles a conduit à un besoin d'ensembles de données plus importants pour l'entraînement. Cependant, il ne s'agit pas seulement de taille ; la manière dont les données sont traitées et filtrées compte également. La suppression de texte de mauvaise qualité et des doublons est cruciale.
Les décisions prises lors de la création d'un ensemble de données peuvent grandement influencer la performance subséquente du modèle linguistique en cours d'entraînement. Malgré leur importance, de nombreuses entreprises gardent secrètes leurs stratégies de création d'ensembles de données, créant un fossé de connaissance entre les ensembles de données privés et publics.
Qu'est-ce que FineWeb ?
FineWeb vise à combler ce fossé. Il contient une vaste collection de données pouvant être utilisées pour entraîner des modèles linguistiques compétitifs. L'ensemble de données dispose de 15 trillions de tokens de texte provenant de 96 instantanés de Common Crawl. C'est suffisamment de données pour entraîner un modèle puissant avec plus de 500 milliards de paramètres.
La création de FineWeb a impliqué des choix soigneux concernant la manière de filtrer et de traiter les données. Elle a également inclus un travail approfondi sur la dé-duplication, qui est le processus de suppression de texte dupliqué pour améliorer la qualité des données d'entraînement.
L'Importance des Données de Qualité
La qualité des données d'entraînement est essentielle. Le texte web comprend souvent un langage non naturel, ce qui peut nuire à la performance des modèles linguistiques. Un texte mal structuré, tel que du contenu standard ou du gibberish, peut amener les modèles à apprendre moins efficacement. D'autre part, filtrer trop peut laisser trop peu de données, ce qui est également un problème car les modèles ont besoin de données suffisantes pour apprendre correctement.
La duplication dans les données d'entraînement peut également nuire à la performance du modèle. Bien qu'il semble simple de supprimer le texte dupliqué, le processus implique de nombreuses décisions, telles que la question de savoir s'il faut dédupliquer au niveau de la ligne, du paragraphe ou du document. Les méthodes utilisées dans le processus de Filtrage et de dé-duplication d'un ensemble de données affectent significativement les résultats de l'entraînement du modèle.
Construction de FineWeb
Notre méthode de création de FineWeb était principalement basée sur l'expérimentation. Nous avons effectué divers tests pour comparer différentes stratégies de filtrage et de dé-duplication, tout en visant à garantir que la performance du modèle linguistique reste élevée.
Nous avons entraîné de nombreux modèles, tous configurés de la même manière mais différant par les données sur lesquelles ils ont été entraînés. Cela nous a permis de comparer leur performance en fonction de la qualité et des caractéristiques des données d'entraînement.
Nous avons utilisé une série d'ensembles de données de référence pour évaluer les modèles. En maintenant les conditions constantes tout en testant les modèles sur différents ensembles de données, nous avons pu évaluer avec précision l'impact de la qualité des données sur la performance.
Processus d'Extraction de Données
Les données avec lesquelles nous avons travaillé provenaient de Common Crawl et étaient disponibles dans deux formats : WARC et WET. Les fichiers WARC contiennent le contenu HTML complet des pages web explorées, tandis que les fichiers WET fournissent une vue uniquement textuelle. Dans nos études, nous avons découvert que les fichiers WET contenaient souvent un texte standard excessif qui ne fournissait pas beaucoup de valeur.
Par conséquent, nous avons décidé d'extraire le texte de manière plus efficace en utilisant les fichiers WARC et un outil appelé trafilatura. Cette méthode a conduit à un texte plus clair et plus pertinent, améliorant ainsi la performance du modèle.
Étapes de Filtrage Initiales
Pour commencer à filtrer nos données extraites, nous avons appliqué un ensemble de règles de base. Cela incluait la suppression de contenu pour adultes, en veillant à ce que le texte soit en anglais, et le filtrage de tout ce qui était jugé de faible qualité ou répétitif. Après avoir appliqué ces étapes de filtrage, nous avions encore environ 36 trillions de tokens, une quantité énorme à exploiter.
La duplication a été gérée en utilisant des techniques pour identifier le contenu répété, contribuant à améliorer l'expérience d'entraînement du modèle. Nous avons mené plusieurs expériences pour trouver la meilleure manière de dédupliquer, découvrant finalement une méthode qui fonctionnait bien pour l'ensemble de données.
Techniques de Filtrage Avancées
Alors que nous ajustions nos méthodes, nous visions à égaler ou dépasser la performance d'autres ensembles de données établis. Nous avons étudié des règles de filtrage supplémentaires qui avaient été appliquées avec succès dans des ensembles de données passés.
Nous avons tenté d'adopter des filtres de l'ensemble de données C4, connu pour sa forte performance. Notre filtrage incluait des règles telles que la suppression des lignes qui ne se terminaient pas par une ponctuation appropriée et l'élimination du contenu qui était trop court ou non pertinent à des fins éducatives.
Nous avons soigneusement évalué ces filtres pour nous assurer qu'ils amélioraient notre ensemble de données sans supprimer trop de données précieuses. Finalement, nous avons pu affiner notre processus, obtenant de meilleurs résultats grâce à un filtrage réfléchi.
Développement de Filtres Personnalisés
En plus des filtres établis, nous avons développé notre propre ensemble de filtres heuristiques. Nous avons recueilli des métriques à partir d'ensembles de données de haute qualité et de faible qualité pour définir ce qui rendait le contenu précieux. Cela a impliqué d'examiner les caractéristiques des documents comme la longueur des mots et la répétition.
Nous avons expérimenté avec différents seuils pour déterminer la meilleure limite pour filtrer le contenu de faible qualité. En appliquant ces nouveaux filtres, nous avons pu améliorer encore FineWeb et le rendre plus aligné avec les besoins de l'entraînement des modèles linguistiques.
Finalisation de FineWeb
Après avoir subi de multiples améliorations et stratégies, l'ensemble de données final de FineWeb a été formé. Chaque étape du traitement des données, de l'extraction au filtrage et à la dé-duplication, a contribué à sa qualité globale.
L'ensemble de données a également été soigneusement préparé pour supprimer les informations personnellement identifiables, augmentant son utilité tout en protégeant la vie privée individuelle. Au final, FineWeb s'est imposé comme un ensemble de données impressionnant pour l'entraînement des modèles linguistiques.
Introduction à FineWeb-Edu
Reconnaissant l'intérêt croissant pour les matériaux éducatifs, nous avons également créé FineWeb-Edu. Cet ensemble de données comprend 1,3 trillion de tokens spécifiquement filtrés pour du texte éducatif de haute qualité. L'objectif était non seulement de fournir un meilleur contenu, mais aussi d'améliorer les performances du modèle sur des tâches nécessitant l'application des connaissances et le raisonnement.
FineWeb-Edu dépasse d'autres ensembles de données publiques dans plusieurs évaluations, en particulier dans les repères éducatifs. Nous avons utilisé un classificateur pour déterminer la qualité éducative du texte, le filtrant en fonction de cette évaluation.
Entraînement du Classificateur
Pour créer FineWeb-Edu, nous avons généré des annotations synthétiques en scorant des échantillons de FineWeb. Cela a été réalisé en utilisant un modèle linguistique avancé entraîné sur une vaste quantité de contenu éducatif. En appliquant ces scores, nous avons pu filtrer FineWeb vers un contenu véritablement bénéfique à des fins éducatives.
L'ensemble de données résultant améliore considérablement les performances sur des benchmarks nécessitant une pensée critique et l'application des connaissances.
biais dans les Ensembles de Données
Aborder leUne préoccupation majeure dans les modèles linguistiques est le biais. Comme les modèles apprennent à partir des données qui leur sont fournies, si ces données contiennent un langage biaisé, il est probable que les modèles reflètent ces biais. Nous avons examiné FineWeb pour détecter des biais liés à des sous-groupes sensibles ou protégés dans la société.
Notre analyse a révélé que certains groupes étaient sur-représentés dans des contextes spécifiques. Cependant, FineWeb-Edu a montré une réduction des biais, indiquant que le filtrage éducatif a contribué à créer un ensemble de données plus équilibré.
Conclusions
En résumé, nous avons développé FineWeb et FineWeb-Edu comme des ressources significatives pour l'entraînement de grands modèles linguistiques. FineWeb, avec ses 15 trillions de tokens, est conçu pour améliorer la performance et la compréhension du langage des modèles, tandis que FineWeb-Edu se concentre sur la fourniture de contenu éducatif de haute qualité.
Les deux ensembles de données ont subi des tests et un perfectionnement approfondis, garantissant qu'ils respectent des normes élevées de qualité. Nous espérons qu'en partageant ces ensembles de données, ainsi que nos méthodes et nos résultats, nous pourrons contribuer positivement au domaine de la modélisation du langage et ouvrir la voie à de futures recherches et avancées.
Titre: The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale
Résumé: The performance of a large language model (LLM) depends heavily on the quality and size of its pretraining dataset. However, the pretraining datasets for state-of-the-art open LLMs like Llama 3 and Mixtral are not publicly available and very little is known about how they were created. In this work, we introduce FineWeb, a 15-trillion token dataset derived from 96 Common Crawl snapshots that produces better-performing LLMs than other open pretraining datasets. To advance the understanding of how best to curate high-quality pretraining datasets, we carefully document and ablate all of the design choices used in FineWeb, including in-depth investigations of deduplication and filtering strategies. In addition, we introduce FineWeb-Edu, a 1.3-trillion token collection of educational text filtered from FineWeb. LLMs pretrained on FineWeb-Edu exhibit dramatically better performance on knowledge- and reasoning-intensive benchmarks like MMLU and ARC. Along with our datasets, we publicly release our data curation codebase and all of the models trained during our ablation experiments.
Auteurs: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf
Dernière mise à jour: 2024-10-31 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.17557
Source PDF: https://arxiv.org/pdf/2406.17557
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://huggingface.co/datasets/HuggingFaceFW/fineweb
- https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
- https://opendatacommons.org/licenses/by/1-0/
- https://github.com/huggingface/datatrove/blob/main/examples/fineweb.py
- https://github.com/huggingface/nanotron
- https://github.com/huggingface/lighteval/
- https://huggingface.co/datasets/HuggingFaceFW/fineweb/blob/main/lighteval_tasks.py
- https://huggingface.co/collections/HuggingFaceFW/ds-662457b0d213e8c14fe47f32
- https://allrecipes.co.uk
- https://commoncrawl.org/terms-of-use
- https://huggingface.co/
- https://hf.co/datasets/HuggingFaceFW/fineweb
- https://hf.co/api/datasets/HuggingFaceFW/fineweb/croissant
- https://hf.co/datasets/HuggingFaceFW/fineweb-edu
- https://hf.co/api/datasets/HuggingFaceFW/fineweb-edu/croissant
- https://hf.co/collections/HuggingFaceFW/comparison-models-662457b0d213e8c14fe47f32
- https://hf.co/collections/HuggingFaceFW/data-experiments-665ed849020d8b66a5d9896f
- https://hf.co/datasets/HuggingFaceFW/fineweb/blob/main/lighteval_tasks.py