Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Calcul et langage# Recherche d'informations

Améliorer les modèles de langue avec une récupération de données de qualité

De nouvelles techniques améliorent les performances des modèles de langage grâce à une meilleure évaluation des données.

― 7 min lire


Améliorer les modèles deAméliorer les modèles delangue avec des donnéesrécupération de données de qualité.précision des modèles en utilisant laDes techniques pour améliorer la
Table des matières

Les grands modèles de langage, qui sont des programmes informatiques capables de comprendre et de générer du langage humain, peuvent être améliorés en ajoutant des infos externes. Cette méthode s'appelle l'augmentation par récupération. Ça aide ces modèles à mieux répondre à des questions ou à compléter des données manquantes. Mais l'efficacité de cette méthode dépend de la qualité des infos récupérées.

L'importance de la Qualité des données

La performance des modèles augmentés par récupération est étroitement liée à la qualité des données qu'ils utilisent. Dans de nombreux cas, si les données récupérées sont inexactes ou mal rédigées, le modèle risque de donner des réponses incorrectes. Par exemple, si un modèle doit répondre à qui a écrit un livre en particulier et qu'il récupère une page web qui dit mal le nom de l'auteur, il donnera aussi la mauvaise réponse.

Les données du monde réel peuvent souvent être bruitées ou défectueuses. Ce bruit peut venir de diverses sources, comme un mauvais étiquetage ou des erreurs dans le contenu original. Une étude montre qu'une part importante des données dans de véritables ensembles de données peut contenir des erreurs. Ce problème est particulièrement prononcé dans le traitement du langage, où la variété et la quantité de texte disponible conduisent souvent à des données de moindre qualité.

Évaluer l'importance des données

À cause des problèmes de qualité des données, il est crucial de trouver des moyens d'évaluer leur qualité lors de la récupération d'infos. Notre approche se concentre sur l'apprentissage de l'importance de chaque source de données. Plutôt que de considérer toutes les données comme égales, on analyse quelles sources fournissent des infos fiables.

L'objectif est d'identifier les morceaux d'infos les plus bénéfiques et de rejeter ou de donner moins de poids à celles qui ne sont pas utiles. En faisant ça, on peut améliorer la performance globale du modèle sans avoir à le réentraîner.

Le processus d'évaluation des données

Pour évaluer l'importance des données, on calcule une fonction d'utilité, qui mesure à quel point le modèle se débrouille avec les données récupérées. Le but est de trouver un sous-ensemble de données qui maximise cette fonction d'utilité.

On veut aussi rendre ce processus efficace. Au lieu de vérifier chaque combinaison possible de sources de données-ce qui peut être impraticable-on utilise une méthode qui nous permet de calculer ces évaluations rapidement. Ça implique de créer une fonction qui estime la qualité de toute la source de données sur la base d'un plus petit échantillon.

Configuration expérimentale

On a réalisé plusieurs expériences pour voir comment notre méthode fonctionne sur des tâches spécifiques comme répondre à des questions et remplir des données manquantes. Pour répondre aux questions, on a utilisé un ensemble de données qui prend des questions de Wikipedia et les associe avec des réponses qu'on peut trouver sur le même site. Pour l'imputation de données, on a utilisé des ensembles de données où certaines valeurs étaient manquantes, nécessitant que le modèle prédit ce que ces valeurs devraient être sur la base des infos disponibles.

Résultats des expériences

Nos résultats montrent que l'ajout de l'augmentation par récupération améliore significativement la performance des modèles de langage. Dans nos tests, un petit modèle de langage amélioré avec des données externes a performé aussi bien, voire mieux, que des modèles beaucoup plus grands qui comptaient uniquement sur leur formation interne.

Par exemple, dans les tâches de réponse à des questions, un petit modèle pouvait répondre correctement à des questions plus précisément quand il avait accès à de bonnes données externes. Pendant ce temps, les modèles plus grands peinaient avec certaines requêtes, surtout si elles impliquaient des connaissances moins courantes qui n'étaient pas incluses dans leur formation initiale.

Impact de la réduction et du réajustement

On a aussi testé comment réajuster ou réduire le corpus de récupération sur la base de nos métriques d'importance des données apprises pouvait aider à améliorer encore la précision du modèle. En filtrant les données inutiles, on a pu rendre le modèle plus fiable.

Les résultats expérimentaux ont confirmé qu'après avoir appliqué ces techniques, la précision du modèle a considérablement augmenté. En supprimant une grande partie des données inutiles tout en conservant des sources de haute qualité, on a obtenu de meilleures performances sans avoir besoin d'une formation supplémentaire.

Gestion des données bruitées

Une de nos expériences clés a impliqué d'introduire délibérément du bruit dans les données pour voir à quel point nos méthodes pouvaient gérer ça. On a créé des versions du corpus de récupération où certaines réponses contenaient des infos incorrectes.

Quand on a testé comment notre modèle performait avec ce corpus bruité, on a vu une forte chute de la précision. Cependant, quand on a appliqué nos techniques d'évaluation des données apprises, on a pu améliorer la précision du modèle de manière significative, la ramenant même à des niveaux comparables à ceux utilisant des données propres.

S'adapter à de nouvelles informations

Enfin, on a montré que nos méthodes permettent aux modèles de s'adapter rapidement à de nouvelles informations. En introduisant des données générées par un modèle d'IA, on a découvert que les poids d'importance appris aidaient le système de récupération à tirer le meilleur parti de ces nouvelles données, assurant que le modèle continue à fournir des réponses précises.

Efficacité computationnelle

On a prêté une attention particulière au côté computationnel de notre algorithme. Notre mise en œuvre a été conçue pour être rapide, même avec de grands ensembles de données. En testant sur un corpus contenant jusqu'à 100 millions d'éléments, on a constaté que nos méthodes pouvaient calculer efficacement les évaluations de données nécessaires dans un temps raisonnable.

Cela met en évidence que l'utilisation de notre approche pour le raffinement des données peut être plus rapide et moins gourmande en ressources que de réentraîner de grands modèles de langage.

Conclusion

En résumé, notre travail met en avant l'importance de la qualité des données dans les modèles de langage augmentés par récupération et présente des techniques efficaces pour évaluer et améliorer les sources de données utilisées. En jugeant la fiabilité de l'information, on peut booster significativement la performance de ces modèles dans des tâches réelles, en s'assurant qu'ils fournissent des réponses précises et utiles.

Cette approche illustre comment la technologie peut être utilisée pour améliorer la compréhension et le traitement du langage humain dans des applications pratiques.

Source originale

Titre: Improving Retrieval-Augmented Large Language Models via Data Importance Learning

Résumé: Retrieval augmentation enables large language models to take advantage of external knowledge, for example on tasks like question answering and data imputation. However, the performance of such retrieval-augmented models is limited by the data quality of their underlying retrieval corpus. In this paper, we propose an algorithm based on multilinear extension for evaluating the data importance of retrieved data points. There are exponentially many terms in the multilinear extension, and one key contribution of this paper is a polynomial time algorithm that computes exactly, given a retrieval-augmented model with an additive utility function and a validation set, the data importance of data points in the retrieval corpus using the multilinear extension of the model's utility function. We further proposed an even more efficient ({\epsilon}, {\delta})-approximation algorithm. Our experimental results illustrate that we can enhance the performance of large language models by only pruning or reweighting the retrieval corpus, without requiring further training. For some tasks, this even allows a small model (e.g., GPT-JT), augmented with a search engine API, to outperform GPT-3.5 (without retrieval augmentation). Moreover, we show that weights based on multilinear extension can be computed efficiently in practice (e.g., in less than ten minutes for a corpus with 100 million elements).

Auteurs: Xiaozhong Lyu, Stefan Grafberger, Samantha Biegel, Shaopeng Wei, Meng Cao, Sebastian Schelter, Ce Zhang

Dernière mise à jour: 2023-07-06 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.03027

Source PDF: https://arxiv.org/pdf/2307.03027

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires