Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Une nouvelle méthode pour mettre à jour les modèles de langage

Cet article présente une méthode pour intégrer de nouvelles connaissances dans les modèles de langage.

― 8 min lire


Mises à jour efficacesMises à jour efficacesdes connaissances pourl'IAlangue efficacement.pour mettre à jour les modèles dePrésentation d'une nouvelle méthode
Table des matières

Les modèles de langage, qui sont des programmes informatiques conçus pour comprendre et générer le langage humain, ont une connaissance énorme sur le monde. Mais, il peut être compliqué de garder ces infos à jour quand de nouvelles arrivent. Les méthodes classiques pour ajouter de nouveaux faits à ces modèles ne leur permettent souvent pas d'utiliser ces infos de manière efficace pour faire des inférences ou tirer des conclusions.

Dans cet article, on décrit une nouvelle méthode qui aide les modèles de langage à apprendre de nouvelles connaissances et à les utiliser pour faire des inférences plus larges. Cette méthode implique deux étapes principales : créer un ensemble de nouvelles infos (Ensemble de transfert) et utiliser cet ensemble pour mettre à jour le modèle.

Le besoin de mises à jour

Comme les modèles de langage sont utilisés dans diverses applications, c'est essentiel qu'ils aient des infos à jour. Simplement les réentraîner de zéro peut coûter cher et prendre beaucoup de temps. Donc, développer une manière efficace de mettre à jour leurs connaissances est crucial. Une façon dont les chercheurs ont essayé de faire cela est d'ajouter des textes récupérés au contexte du modèle pendant l'utilisation. Mais, cette méthode peut devenir coûteuse, surtout quand on traite de grandes quantités d'infos.

Notre objectif est de trouver une meilleure approche en incorporant directement de nouvelles connaissances dans le modèle par des mises à jour de ses paramètres.

Efforts précédents

D'autres chercheurs ont montré que les modèles peuvent apprendre des faits spécifiques, comme identifier une personne par son rôle. Cependant, ils ont souvent du mal à faire des inférences basées sur ces nouvelles connaissances. Cela pose un défi pour garder la connaissance du modèle exacte et utile.

Des méthodes précédentes, comme la génération augmentée par récupération et l'utilisation de prompts, ont eu un certain succès pour faire des inférences quand l'infos est disponible dans le contexte. Néanmoins, elles n'ont pas réussi à bien combiner l'injection de connaissances et la prise de décision.

Notre approche

Notre méthode se concentre sur l'apprentissage du modèle à agir comme s'il avait les nouvelles connaissances basées sur le contexte fourni, même quand ce contexte n'est pas présenté directement. Elle implique les étapes suivantes :

  1. Créer un ensemble de transfert : On génère des phrases qui continuent à partir de la définition d'une entité. Ça aide le modèle à apprendre différentes manières d'exprimer ou de comprendre cette entité.

  2. Mettre à jour le modèle : On modifie le modèle pour que ses prédictions correspondent à celles d'un modèle qui a les nouvelles connaissances.

En suivant ces étapes, on s'assure que le modèle peut utiliser efficacement les infos ajoutées.

Génération de l'ensemble de transfert

Pour créer un ensemble de transfert, on demande à un modèle de langage de produire des phrases basées sur la définition d'une entité. Chacune de ces phrases inclut une référence à l'entité. On s'assure que seules les parties de la phrase après la référence à l'entité sont utilisées pendant le processus de mise à jour pour éviter des changements inutiles à la connaissance existante du modèle.

Par exemple, si on veut que le modèle apprenne sur "ChatGPT", on donne une définition et on demande au modèle de générer des continuations qui utilisent cette définition.

Propagation des connaissances et évaluation

On évalue l'efficacité de notre méthode de deux manières principales :

  1. Succès de la propagation : On vérifie si le modèle reflète précisément les nouvelles connaissances. Cela signifie évaluer s'il peut utiliser les nouvelles infos pour faire des prédictions correctes basées dessus.

  2. Spécificité : Cela mesure si les prédictions du modèle sur d'autres sujets ont changé. Il est important que la mise à jour des connaissances n'impacte pas négativement la performance du modèle sur le contenu non lié.

Comparaison des méthodes précédentes

Différentes méthodes ont été utilisées pour mettre à jour des modèles, comme le fine-tuning ou l'utilisation de réseaux spécialisés pour des modifications rapides. Cependant, ces méthodes ont leurs propres limites, surtout quand il s'agit de mettre à jour plusieurs faits en même temps.

Comparé à ces méthodes, notre approche vise à fournir une solution plus efficace en garantissant que les connaissances peuvent être intégrées dans le cadre existant du modèle sans compromettre la performance ailleurs.

Configuration expérimentale

On a testé notre méthode en utilisant trois modèles de langage de tailles différentes. Pour l'évaluation, on s'est concentré sur deux ensembles de données spécifiques conçus pour examiner comment bien les modèles peuvent faire des inférences basées sur de nouvelles connaissances.

  • Inférences d'entités : Cet ensemble de données présente des situations dans lesquelles le modèle doit choisir la bonne réponse basée sur des définitions nouvellement fournies.

  • Cloze d'entités par date : Cet ensemble de données consiste en des phrases à remplir qui testent si le modèle connaît certaines infos sur des entités spécifiques.

Résultats sur l'apprentissage des inférences

Quand on a testé notre méthode sur l'ensemble de données Inférences d'entités, on a trouvé des résultats prometteurs qui ont montré l'efficacité de notre approche. Pour un de nos modèles plus petits, les résultats ont montré une amélioration notable de la performance en utilisant le processus de distillation plutôt que de se fier uniquement aux méthodes classiques de fine-tuning.

Dans les cas où le modèle plus grand a été testé, on a découvert que même si la distillation ne surpassait pas toujours le fine-tuning, elle réussissait quand même à apporter d'importantes améliorations dans l'apprentissage de nouvelles entités.

Analyse de la spécificité

En évaluant la spécificité, on a constaté que notre méthode menait à seulement de légères réductions de précision dans les prédictions d'infos sur des sujets non liés. C'est un constat important, car cela indique que notre approche intègre efficacement de nouvelles connaissances sans nuire à la performance du modèle sur les infos apprises précédemment.

En revanche, d'autres méthodes comme le fine-tuning ont souvent entraîné des baisses de performance significatives dans différents contextes, ce qui montre que notre méthode est supérieure en termes de maintien de performance.

Mise à l'échelle de la méthode

Un des principaux avantages de notre approche est sa capacité à évoluer. On a exploré la possibilité de mettre à jour plusieurs entités en un seul processus. Les résultats de ces expériences montrent que notre méthode peut gérer avec succès jusqu'à 150 entités différentes sans entraîner une dégradation sévère de la performance.

C'est une amélioration significative par rapport aux méthodes passées, qui avaient du mal à gérer plusieurs modifications en une seule fois sans nuire à la performance du modèle.

Conclusions et directions futures

On a introduit une méthode qui permet une intégration efficace de nouvelles connaissances dans les modèles de langage. Notre recherche montre que l'utilisation d'une approche de distillation pour mettre à jour les connaissances est plus efficace que les méthodes classiques de fine-tuning.

Malgré nos résultats prometteurs, il y a encore des limitations à adresser. Par exemple, les expériences actuelles ont été réalisées sur des modèles de moins de 10 milliards de paramètres. Les études futures devraient explorer si notre méthode peut être appliquée efficacement à des modèles plus grands.

On reconnaît aussi le besoin de plus d'évaluation dans différents domaines et langues. De plus, les tests devraient inclure des scénarios où les modèles ont besoin de mises à jour liées à de nombreux entités pour mieux comprendre les limites de la méthode.

Dans l'ensemble, nos résultats suggèrent que mettre à jour les modèles de langage avec de nouvelles infos peut être fait de manière efficace et efficiente, ouvrant la voie à de futures avancées dans les techniques de mise à jour des connaissances.

Source originale

Titre: Propagating Knowledge Updates to LMs Through Distillation

Résumé: Modern language models have the capacity to store and use immense amounts of knowledge about real-world entities, but it remains unclear how to update such knowledge stored in model parameters. While prior methods for updating knowledge in LMs successfully inject atomic facts, updated LMs fail to make inferences based on injected facts. In this work, we demonstrate that a context distillation-based approach can both impart knowledge about entities and propagate that knowledge to enable broader inferences. Our approach consists of two stages: transfer set generation and distillation on the transfer set. We first generate a transfer set by prompting a language model to generate continuations from the entity definition. Then, we update the model parameters so that the distribution of the LM (the student) matches the distribution of the LM conditioned on the definition (the teacher) on the transfer set. Our experiments demonstrate that this approach is more effective at propagating knowledge updates than fine-tuning and other gradient-based knowledge-editing methods. Moreover, it does not compromise performance in other contexts, even when injecting the definitions of up to 150 entities at once.

Auteurs: Shankar Padmanabhan, Yasumasa Onoe, Michael J. Q. Zhang, Greg Durrett, Eunsol Choi

Dernière mise à jour: 2023-10-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.09306

Source PDF: https://arxiv.org/pdf/2306.09306

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires