Améliorer les sorties des modèles de langue avec des modèles plus petits
Une nouvelle méthode améliore l'attribution et la justesse des sorties des modèles de langue.
― 4 min lire
Table des matières
Les capacités des gros modèles de langage (LLMs) peuvent mener à un problème courant : générer de fausses affirmations appelées "Hallucinations." Des recherches récentes se sont concentrées sur des méthodes pour éditer et attribuer ces sorties, surtout en utilisant des techniques basées sur des prompts. Cependant, la vitesse et le coût d'utilisation de ces gros modèles peuvent freiner ces méthodes. Pour y remédier, on propose une nouvelle méthode qui consiste à entraîner des modèles plus petits pour corriger efficacement ces sorties.
Notre approche utilise des gros modèles de langage pour créer des corruptions dans le texte, ce qui nous permet de peaufiner des modèles plus petits pour corriger ces erreurs en incorporant des Preuves pertinentes. Cette méthode est non supervisée et offre un moyen de générer de fausses hallucinations dans différents domaines.
Notre modèle, appelé Petite Unsupervised Research and Revision (PURR), améliore non seulement l'Attribution par rapport aux méthodes existantes, mais il fonctionne aussi beaucoup plus rapidement. Le processus consiste à prendre une requête de départ pour rassembler des preuves pertinentes, les résumer en une affirmation, puis corrompre cette affirmation avant d'entraîner l'éditeur à la corriger.
Bien que les LLMs aient des forces significatives, ils ont aussi des faiblesses notables, surtout en matière de génération d'affirmations fausses ou trompeuses. Les méthodes actuelles pour corriger ces sorties reposent souvent sur la collecte de preuves pour soutenir les affirmations faites.
Aperçu de la tâche d'Édition pour l'attribution
Notre objectif principal est d'attribuer les sorties des modèles de langage et de corriger les inexactitudes. Cela implique de produire un rapport d'attribution qui contient des extraits de preuves pour soutenir l'affirmation et une déclaration révisée qui corrige toute erreur.
On évalue ces systèmes d'édition selon deux critères : l'attribution - à quel point les déclarations originales et révisées se connectent aux preuves - et la préservation - combien du message original reste le même. Notre but est de maximiser les deux aspects, en utilisant des métriques automatiques qui s'alignent bien avec les évaluations humaines.
Génération de déclarations propres avec des preuves
Pour créer une déclaration propre associée à des preuves, on commence avec une requête et utilise un moteur de recherche pour trouver des informations liées. Les meilleures pages sont découpées en passages, et on utilise un système de notation pour sélectionner les plus pertinentes comme preuves.
Après avoir rassemblé ces preuves, on demande à un modèle de langage de les résumer en une déclaration propre. Ce résumé doit refléter précisément les preuves collectées. Ensuite, on introduit du bruit ou on corrompt la déclaration propre en changeant certains détails, simulant les inexactitudes que pourraient générer les LLMs.
Données d'entraînement et résultats
On a utilisé un modèle spécifique (GPT-3.5) pour aider à générer des résumés et introduire des erreurs. En commençant avec environ 6 000 requêtes de départ sur divers sujets, on a créé un dataset contenant 6 000 instances éditées. Ce processus d'entraînement est efficace, coûtant environ 250 USD.
Nos résultats montrent que notre nouveau modèle, PURR, surpasse les éditeurs existants en faisant des ajustements plus petits tout en améliorant l'attribution. L'efficacité de notre modèle lui permet d'opérer beaucoup plus rapidement que d'autres modèles plus gros.
Analyse des erreurs et travail futur
On a analysé la performance de notre système, en se concentrant sur les instances où l'attribution était faible après édition. La plupart des erreurs provenaient de lacunes dans le modèle de génération de questions ou du fait de ne pas récupérer les preuves les plus appropriées.
Les améliorations futures porteront sur le renforcement de la corruption introduite lors de l'entraînement. Mieux gérer les distracteurs difficiles est crucial pour affiner notre processus d'édition.
Conclusion
On a développé une méthode efficace pour éditer les sorties des modèles de langage qui améliore l'attribution tout en préservant le message original. Notre méthode s'appuie sur de gros modèles pour créer des données d'entraînement pour des éditeurs plus petits et plus rapides, offrant une solution pratique aux défis posés par les hallucinations dans la génération de langage.
Titre: PURR: Efficiently Editing Language Model Hallucinations by Denoising Language Model Corruptions
Résumé: The remarkable capabilities of large language models have been accompanied by a persistent drawback: the generation of false and unsubstantiated claims commonly known as "hallucinations". To combat this issue, recent research has introduced approaches that involve editing and attributing the outputs of language models, particularly through prompt-based editing. However, the inference cost and speed of using large language models for editing currently bottleneck prompt-based methods. These bottlenecks motivate the training of compact editors, which is challenging due to the scarcity of training data for this purpose. To overcome these challenges, we exploit the power of large language models to introduce corruptions (i.e., noise) into text and subsequently fine-tune compact editors to denoise the corruptions by incorporating relevant evidence. Our methodology is entirely unsupervised and provides us with faux hallucinations for training in any domain. Our Petite Unsupervised Research and Revision model, PURR, not only improves attribution over existing editing methods based on fine-tuning and prompting, but also achieves faster execution times by orders of magnitude.
Auteurs: Anthony Chen, Panupong Pasupat, Sameer Singh, Hongrae Lee, Kelvin Guu
Dernière mise à jour: 2023-05-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.14908
Source PDF: https://arxiv.org/pdf/2305.14908
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.