Simple Science

La science de pointe expliquée simplement

# Statistiques# Calcul et langage# Apprentissage automatique# Apprentissage automatique

Une nouvelle méthode pour choisir des données de pré-entraînement

Cette approche facilite le choix des ensembles de données de préentraînement efficaces pour les modèles de langue.

Tristan Thrush, Christopher Potts, Tatsunori Hashimoto

― 12 min lire


Optimiser la sélectionOptimiser la sélectiondes données depréentraînementmodèles de langue.l'efficacité de l'entraînement desDes méthodes simplifiées améliorent
Table des matières

De bonnes données de préentraînement sont cruciales pour créer des modèles linguistiques efficaces. Mais, c'est galère et cher de déterminer quelles données sont les meilleures, car ça demande souvent beaucoup de ressources informatiques pour les tests. Cet article propose un nouveau moyen de choisir les données de préentraînement sans avoir besoin de faire des entraînements extensifs sur nos modèles.

Notre approche repose sur une idée simple : les pertes des modèles de langue sur différents textes de préentraînement peuvent nous indiquer comment ces textes vont performer sur diverses tâches par la suite. Si on choisit des textes qui montrent de bonnes corrélations avec le succès dans les tests, on peut créer des ensembles de données de préentraînement efficaces.

Dans nos recherches, on a développé un cadre statistique qui estime à quel point les pertes sont corrélées avec des benchmarks de Performance. On a analysé un échantillon de 90 modèles de langue du Open LLM Leaderboard, en regardant des textes provenant de dizaines de milliers de domaines web. Cette méthode s'est révélée supérieure quand on l'a testée dans des expériences de préentraînement contrôlées sur différents benchmarks.

Alors que les ensembles de données pour entraîner les modèles de langue ont beaucoup grossi - passant de moins de 200 milliards de tokens en 2020 à 240 trillions maintenant - il est devenu essentiel de cerner les meilleures données. De nombreuses méthodes ont vu le jour pour aider à cette sélection de données. Cependant, les méthodes traditionnelles impliquent souvent des étapes de réentraînement coûteuses qui limitent leur utilité.

La grande question est de savoir si on doit entraîner de nouveaux modèles pour trier les données. Plutôt que de faire ça, que diriez-vous de profiter des nombreux modèles existants performants ? Ça permettrait d'économiser des coûts et de bénéficier d'une grande variété d'architectures et de distributions de données.

Utiliser des modèles disponibles publiquement présente ses défis. Les données d'entraînement de ces modèles sont souvent inconnues et variées. Cependant, on a remarqué deux choses clés : d'abord, tous les modèles à poids ouverts produisent une valeur de perte quand on leur donne un texte, et ensuite, on peut les évaluer par rapport à des benchmarks. Des recherches antérieures ont suggéré qu'il y a un lien mesurable entre ces valeurs de perte et la performance des modèles sur les tâches.

On a exploré ce lien plus en profondeur et trouvé une méthode simple mais efficace. En observant l'universalité des corrélations entre les valeurs de perte et la performance des tâches, on a décidé de sélectionner des données dans les domaines où on a trouvé cette corrélation plus forte.

Avec ce cadre, on peut sélectionner des données d'entraînement basées sur ces connexions. Nos premiers résultats ont montré que notre méthode surpasse celles couramment utilisées pour la sélection de données tout en égalant les meilleures des classificateurs conçus manuellement.

L'Importance de la Curation des Ensembles de Données

Alors que les ensembles de préentraînement ont pris de la taille, trouver les bons sous-ensembles devient de plus en plus crucial pour des modèles linguistiques de haute qualité. Même si de nombreuses techniques existent pour cette tâche, la plupart dépendent d'un réentraînement coûteux.

La recherche a indiqué qu'il n'est peut-être pas nécessaire de réaliser de nouveaux cycles d'entraînement pour le processus de sélection. Exploiter des modèles performants déjà disponibles pourrait être la solution. Cette approche permet d'utiliser les ressources investies dans la construction de ces modèles et nous donne une large gamme de frameworks existants qui diffèrent par leur taille et leurs sources de données de préentraînement.

Malgré ces avantages, sélectionner des données à partir de modèles existants est délicat, car on ne sait souvent pas sur quelles données ils ont été initialement entraînés. Cependant, on a découvert deux facteurs clés qui peuvent guider notre processus de sélection. On peut utiliser la perte générée par chaque modèle lors de l'évaluation d'un texte et comment chaque modèle se situe par rapport à des benchmarks établis.

Des études précédentes ont identifié qu'il existe un lien systématique entre la perte provenant des évaluations de corpus web et la performance en aval. On peut utiliser ces corrélations pour affiner notre sélection de données de préentraînement.

Une Nouvelle Méthode de Sélection de Données

Dans notre travail, on s'est concentré sur la sélection de données basée sur les corrélations entre les scores de Perplexité et les métriques de performance. Cela signifie qu'on a sélectionné des domaines où les probabilités logarithmiques du modèle de langue (la probabilité que le modèle attribue à un texte spécifique) étaient fortement corrélées avec la façon dont le modèle a performé sur les benchmarks.

Pour rendre notre méthode efficace, on l'a complétée par un cadre statistique qui estime les corrélations. On a dérivé des estimateurs qui fonctionnent bien à travers divers modèles de langue, nous permettant de cibler quels domaines choisir pour les données de préentraînement.

À travers une validation extensive sur un grand échantillon de modèles pré-entraînés, on a confirmé que les corrélations de perplexité peuvent souvent prédire la performance d'un modèle sur les benchmarks. De plus, on a constaté que ces corrélations restent suffisamment robustes pour créer un processus de sélection fiable visant à améliorer la performance sur les tâches en aval.

On a validé notre approche à travers des expériences contrôlées à l'échelle des 160 millions de paramètres sur huit benchmarks. Notre méthode a surpassé les techniques traditionnelles, comme le DSIR, qui repose sur des statistiques de n-grammes, tout en correspondant systématiquement aux résultats des meilleures méthodes précédemment validées à grande échelle.

Expérimenter avec les Données de Préentraînement

Dans nos expériences, on a spécifiquement choisi les domaines où une perte plus faible était corrélée avec une meilleure performance en aval. On a effectué des tests en se concentrant sur des domaines (comme Wikipedia ou StackOverflow) connus pour leur qualité. À travers ce processus, on a sélectionné des domaines qui montraient les corrélations les plus fortes, en intégrant même un classificateur qui a aidé à différencier les domaines sélectionnés des autres.

Cette méthodologie a produit des résultats de performance compétitifs parmi les méthodes de sélection de données connues. En évaluant principalement les modèles sur leur précision et leur classement sur divers benchmarks, on a trouvé que notre processus de sélection améliorait la performance.

Travaux Connexes sur les Techniques de Sélection de Données

On a constaté que de nombreuses approches existantes pour sélectionner des données de préentraînement reposent souvent sur des techniques simples comme la dé-duplication et le filtrage par perplexité. Bien que certaines méthodes recherchent des chevauchements de n-grammes ou des similarités dans les embeddings, elles échouaient généralement face à des techniques plus ciblées.

La plupart des techniques traditionnelles de sélection de données nécessitent un réentraînement des modèles, ce qui est lourd et coûteux. Notre approche, basée sur des études d'observation existantes, repose principalement sur les relations connues entre la performance des modèles de langue sur des ensembles de données non contrôlés, établissant une base plus affinée pour la sélection.

Le Problème de la Prédiction de Performance

Notre objectif ultime est de créer des modèles capables de prédire comment les variations dans les distributions de données de préentraînement impactent la performance sur les tâches de benchmark. Les méthodologies connues impliquent souvent d'obtenir différentes distributions, d'entraîner de nouveaux modèles sur celles-ci, et de mesurer leur performance. Ces processus peuvent être coûteux et longs.

On a formulé une approche plus observationnelle, en s'appuyant sur les données de performance de modèles de haute qualité existants plutôt que sur des réentraînements étendus. En substituant la politique de sélection de données non observée de ces modèles par des données de perte observables, on a pu construire un modèle prédictif plus efficace.

L'Hypothèse de Perplexité-Performance

La tâche de prédire la performance peut être établie comme un modèle à un seul indice. En reliant les mesures de perplexité avec la performance en aval, on utilise des modèles non linéaires qui gardent la relation simple tout en évitant des complexités dans la détermination du mappage fonctionnel exact.

Sélection de Données à partir des Métriques de Perplexité

La prochaine étape est de comprendre comment nos mesures de performance prédites correspondent à l'efficacité réelle des modèles. Même avec une forte corrélation entre la perte et la performance, on n'a toujours pas une compréhension claire de l'impact de la sélection sur la performance.

On propose une méthode de sélection simplifiée, en se concentrant sur des distributions d'échantillonnage qui alignent perte et performance en aval. Si on peut identifier des poids non négatifs corrélés avec les pertes, on améliore encore notre méthode de sélection de données en choisissant des distributions d'échantillonnage qui minimisent la perte de préentraînement.

Projection des Données dans de Utiles Distributions d'Échantillonnage

Alors qu'on peaufine notre approche, on a aussi besoin de méthodes pour projeter les classements de domaines dans une distribution d'échantillonnage appropriée. L'objectif est de maximiser l'utilisation des domaines performants tout en minimisant les redondances, évitant des scénarios où des données répétées nuisent à la performance.

En fin de compte, notre processus décrit un algorithme simple, sans paramètre. Cet algorithme calcule efficacement les coefficients de corrélation et identifie les domaines par ordre de pertinence pour améliorer la performance des tâches en aval.

Robustesse de la Méthode Proposée

Notre méthode a également montré une performance robuste à travers divers benchmarks. On a comparé nos résultats avec plusieurs techniques de référence et confirmé que notre approche surpassait systématiquement les autres.

De plus, on a exploité des classificateurs fastText existants pour filtrer les données plus efficacement, suggérant que notre approche non seulement a surpassé les méthodes conventionnelles, mais l'a fait sans avoir besoin d'une supervision humaine étendue.

Analyse des Pertes des Modèles

Tout au long de nos expériences, on a réalisé des analyses approfondies sur la matrice de perte générée à partir des évaluations des modèles. On a utilisé des techniques comme l'ACP pour identifier les relations et les groupements potentiels entre différents domaines.

Notre analyse a révélé une solide corrélation entre les attributs linguistiques et les scores de performance moyens à travers différents domaines. Cette validation soutient notre hypothèse que les pertes contiennent des informations significatives vitales pour sélectionner des données de préentraînement de haute qualité.

La Voie à Suivre avec la Préréservation

Étant donné les résultats préliminaires positifs, on vise à assurer la fiabilité et la robustesse de notre méthode à travers des expériences de mise à l'échelle préenregistrées. Ces expériences impliquent l'évaluation d'un éventail plus large de données de préentraînement dans divers contextes, assurant que nos découvertes s'étendent au-delà du champ initial.

Utiliser le cadre DataComp-LM pour ces expériences préenregistrées nous permet de réaliser des tests en conditions réelles avec des benchmarks connus. On peut évaluer la performance de nos techniques sur des ensembles de données plus larges tout en restant engagés dans la transparence concernant à la fois les succès et les échecs.

Conclusion

Notre travail met en avant une alternative prometteuse aux méthodes actuelles pour sélectionner des données pour entraîner des modèles de langue. En utilisant des modèles existants comme sources d'information et en se concentrant sur des corrélations observables, on peut créer des processus plus efficaces pour rassembler des données de préentraînement de haute qualité.

À travers une expérimentation systématique et une validation, on a ouvert une nouvelle voie pour explorer davantage ce sujet. Les insights collectés de notre travail posent les bases de futures innovations dans la curation des ensembles de données et la prédiction de performance.

Avec les avancées continues en IA et en apprentissage automatique, on espère que nos méthodes suggérées contribueront à une meilleure compréhension de comment optimiser les données de préentraînement et améliorer l’efficacité générale des modèles linguistiques.

Source originale

Titre: Improving Pretraining Data Using Perplexity Correlations

Résumé: Quality pretraining data is often seen as the key to high-performance language models. However, progress in understanding pretraining data has been slow due to the costly pretraining runs required for data selection experiments. We present a framework that avoids these costs and selects high-quality pretraining data without any LLM training of our own. Our work is based on a simple observation: LLM losses on many pretraining texts are correlated with downstream benchmark performance, and selecting high-correlation documents is an effective pretraining data selection method. We build a new statistical framework for data selection centered around estimates of perplexity-benchmark correlations and perform data selection using a sample of 90 LLMs taken from the Open LLM Leaderboard on texts from tens of thousands of web domains. In controlled pretraining experiments at the 160M parameter scale on 8 benchmarks, our approach outperforms DSIR on every benchmark, while matching the best data selector found in DataComp-LM, a hand-engineered bigram classifier.

Auteurs: Tristan Thrush, Christopher Potts, Tatsunori Hashimoto

Dernière mise à jour: 2024-09-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.05816

Source PDF: https://arxiv.org/pdf/2409.05816

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires