Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

OR : Une nouvelle approche des petits modèles de langue

GOLD propose un cadre pour générer des données d'entraînement variées pour les petits modèles de langage.

― 9 min lire


GOLD améliore les petitsGOLD améliore les petitsmodèles de langagemodèle efficace.des données pour un entraînement deUn nouveau cadre améliore la diversité
Table des matières

Les grands modèles de langage (LLM) ont changé notre façon de voir la compréhension et l'utilisation de la langue. Ces modèles peuvent accomplir différentes tâches linguistiques avec juste quelques exemples. Cependant, ces modèles sont complexes et demandent pas mal de puissance de calcul, ce qui les rend difficiles à utiliser dans des applications du quotidien. De plus, beaucoup de LLM ne sont pas ouverte, ce qui pose des problèmes de confidentialité vu que les utilisateurs doivent partager leurs données pour les utiliser. C'est là que les petits modèles de langage (SLM) entrent en jeu. Ils sont plus faciles à gérer et répondent aux préoccupations de confidentialité sans avoir besoin de partager des informations sensibles.

Pour créer ces modèles plus petits, les chercheurs utilisent un processus appelé Distillation de connaissances (KD). Ce processus prend les connaissances du grand modèle et les transfère à un plus petit. Il y a deux types principaux de KD : les méthodes informées par les données, qui utilisent des données d'exemple étiquetées par le LLM, et les méthodes sans données, qui ne nécessitent pas de données existantes. Certaines méthodes existantes, comme ZeroGen et ProGen, se concentrent sur ces approches sans données.

Défis liés à la génération de données et aux SLM

Un problème avec l'utilisation des LLM pour générer des données est qu'ils tendent à créer des échantillons qui ressemblent trop au contenu existant. Cela entraîne un manque de variété dans les données générées, surtout dans les domaines sous-représentés, ce qui peut impacter la capacité des petits modèles à apprendre efficacement. Quand les données générées sont essentiellement similaires à ce que le gros modèle a déjà vu, le petit modèle passe à côté de l'apprentissage d'exemples moins courants. Ça peut poser des problèmes, surtout pour les groupes marginalisés ou les situations moins courantes.

Les méthodes précédentes, comme ZeroGen et ProGen, ont essayé d'améliorer la qualité des données générées en se concentrant sur les échantillons les plus pertinents. Cependant, elles ne traitent pas le problème de la garantie d'une variété dans les données générées. En conséquence, des opportunités d'apprentissage importantes peuvent être perdues. Il est crucial de préserver la capacité des LLM à modéliser des événements rares, car ils peuvent être importants pour des prédictions équitables.

Augmenter la quantité de données générées n'améliore pas nécessairement la performance des petits modèles. En fait, parfois, plus de données peuvent conduire à de moins bons résultats. Cela indique que la façon dont la génération de données est effectuée joue un rôle significatif dans l'efficacité des modèles.

Présentation de GOLD

Pour relever ces défis, un nouveau cadre appelé GOLD a été proposé. Cette méthode se concentre sur la génération de données qui incluent un plus large éventail d'exemples, surtout ceux sous-représentés. GOLD fonctionne en utilisant des retours d'information sur la performance du petit modèle pour aider le grand modèle à créer de meilleures données plus diverses.

Dans ce cadre, les utilisateurs fournissent une définition de tâche avec quelques exemples. Le LLM est ensuite utilisé pour créer un lot de données d'entraînement pour cette tâche, ce qui met à jour le petit modèle. Après la génération des données d'entraînement, le cadre cherche à créer un second lot de données diverses qui est différent en sujet et style du premier lot. Ce second lot est utilisé pour tester la performance du petit modèle et mettre en lumière ses faiblesses, ce qui informe le prochain cycle de génération de données.

GOLD utilise une méthode appelée évaluation énergétique pour évaluer la qualité des échantillons générés. Cette évaluation ne repose pas sur des étiquettes exactes, ce qui rend moins probable le choix de données de mauvaise qualité. Les échantillons OOD (hors distribution) générés dans ce processus sont ensuite utilisés pour affiner le prochain cycle d'entraînement.

Contributions de GOLD

GOLD offre plusieurs contributions importantes au domaine de la modélisation du langage :

  1. Cadre sans dépendance à la tâche : Il fournit un système pour générer des données applicables à n'importe quelle tâche de traitement du langage naturel (NLP), même les nouvelles.

  2. Mécanisme de retour d'information itératif : Il intègre des retours qui permettent au modèle d'apprendre de ses erreurs et d'améliorer à chaque itération.

  3. Évaluation basée sur l'énergie : Cette approche aide à gérer le bruit dans les données produites par les LLM en se concentrant sur les scores d'énergie des échantillons, ce qui améliore la fiabilité des données.

  4. Performance : Des premiers tests indiquent que GOLD obtient des résultats au top dans diverses tâches en NLP.

Travaux connexes

GOLD s'appuie sur les méthodes de distillation de connaissances informées par les données et sans données. Les méthodes informées par les données fonctionnent en faisant intervenir le LLM pour fournir des annotations pour des données réelles, tandis que les méthodes sans données visent à créer des modèles plus petits spécifiques à des tâches sans nécessiter de jeux de données annotés existants. Les techniques sans données existantes, comme ZeroGen et ProGen, se concentrent sur la génération de jeux de données synthétiques pour des tâches spécifiques mais ne traitent pas suffisamment la généralisabilité des petits modèles résultants.

En revanche, GOLD permet d'intégrer des exemples plus divers et pertinents dans le processus d'apprentissage, ce qui améliore la performance des petits modèles. De plus, il sélectionne intelligemment les échantillons à générer en fonction de leur valeur potentielle pour le processus d'apprentissage, en utilisant les retours des itérations précédentes.

Le cadre GOLD

Processus de génération de données

Dans la première itération de GOLD, l'utilisateur définit la tâche et fournit quelques échantillons de données étiquetés. Le LLM génère un lot de données d'entraînement à partir de ce prompt. Cependant, plutôt que de se fier uniquement aux échantillons à haute probabilité, GOLD vise à créer un ensemble de validation distinct qui est intentionnellement différent des données d'entraînement. Cet ensemble inclut des échantillons divers qui posent des défis au petit modèle, le poussant à s'améliorer.

Le système itère en continu, générant de nouvelles données d'entraînement basées sur les retours des résultats de l'ensemble de validation. Ce processus permet de raffiner les données d'entraînement au fil du temps, conduisant finalement à un modèle qui peut mieux se généraliser à différentes tâches.

Mécanisme de retour d'information

Le mécanisme de retour d'information itératif de GOLD joue un rôle crucial dans l'amélioration de l'apprentissage du petit modèle. En analysant les sorties du petit modèle sur l'ensemble de validation OOD, le cadre identifie quels types d'échantillons posent problème au modèle. Ce retour est ensuite renvoyé au LLM pour guider la génération de futures données d'entraînement.

La fonction de retour peut sélectionner efficacement les échantillons OOD en fonction de leurs scores d'énergie. L'objectif ici est de trouver des échantillons qui défient le petit modèle tout en évitant les données excessivement bruyantes ou non pertinentes.

Résultats et évaluation

Configuration expérimentale

GOLD a été testé dans diverses tâches de classification et de séquence à séquence. Le cadre a été appliqué à différents jeux de données pour évaluer son efficacité à améliorer la performance des petits modèles. Ces évaluations prennent en compte divers indicateurs comme l'exactitude et les scores de correspondance exacte.

Comparaison avec des travaux antérieurs

Dans des comparaisons directes, GOLD montre des améliorations significatives par rapport à d'autres méthodes comme ZeroGen, ProGen et les performances classiques en few-shot des LLM. Par exemple, sur plusieurs tâches de classification, GOLD a surpassé de manière notable les modèles plus petits pré-entraînés.

Diversité lexicale

Un autre aspect évalué était la diversité lexicale des données générées. GOLD a été comparé à des cadres existants en ce qui concerne l'unicité du langage qu'il génère. Il a été constaté que GOLD produit des échantillons plus variés par rapport à d'autres méthodes, permettant aux petits modèles d'apprendre d'un plus large éventail de possibilités linguistiques.

Conclusion

GOLD représente un développement prometteur dans le domaine de la modélisation du langage. En abordant les limites des méthodes précédentes et en mettant en œuvre un système qui souligne la génération d'échantillons d'entraînement divers, GOLD ouvre la voie à des modèles de langage plus efficaces.

À mesure que le domaine du NLP évolue, les leçons tirées de GOLD peuvent être appliquées à d'autres domaines et potentiellement à différents types de données au-delà du langage. Les recherches futures viseront probablement à élargir le cadre pour intégrer encore plus de dimensions d'apprentissage et évaluer davantage son efficacité sur un large éventail de nouvelles tâches.

Avec son utilisation innovante des retours d'information et de la génération de données OOD, GOLD pourrait établir une nouvelle norme sur la façon dont les petits modèles sont développés et déployés dans des applications réelles, leur permettant de gérer une plus grande variété de tâches et d'améliorer leur performance de manière significative.

Dans l'ensemble, ce travail ouvre de nouvelles perspectives pour utiliser les LLM et faire avancer les technologies de traitement du langage.

Source originale

Titre: GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation

Résumé: Knowledge distillation from LLMs is essential for the efficient deployment of language models. Prior works have proposed data generation using LLMs for preparing distilled models. We argue that generating data with LLMs is prone to sampling mainly from the center of original content distribution. This limitation hinders the distilled model from learning the true underlying data distribution and to forget the tails of the distributions (samples with lower probability). To this end, we propose GOLD, a task-agnostic data generation and knowledge distillation framework, which employs an iterative out-of-distribution-guided feedback mechanism for the LLM. As a result, the generated data improves the generalizability of distilled models. An energy-based OOD evaluation approach is also introduced to deal with noisy generated data. Our extensive experiments on 10 different classification and sequence-to-sequence tasks in NLP show that GOLD respectively outperforms prior arts and the LLM with an average improvement of 5% and 14%. We will also show that the proposed method is applicable to less explored and novel tasks. The code is available.

Auteurs: Mohsen Gholami, Mohammad Akbari, Cindy Hu, Vaden Masrani, Z. Jane Wang, Yong Zhang

Dernière mise à jour: 2024-03-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.19754

Source PDF: https://arxiv.org/pdf/2403.19754

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires