Améliorer les sorties des modèles de langue avec des modèles plus petits

Une nouvelle méthode améliore l'attribution et la justesse des sorties des modèles de langue.

2025-11-10T13:55:24+00:00 ― 4 min lire

Table des matières

Source originale
Liens de référence

Les capacités des gros modèles de langage (LLMs) peuvent mener à un problème courant : générer de fausses affirmations appelées "Hallucinations." Des recherches récentes se sont concentrées sur des méthodes pour éditer et attribuer ces sorties, surtout en utilisant des techniques basées sur des prompts. Cependant, la vitesse et le coût d'utilisation de ces gros modèles peuvent freiner ces méthodes. Pour y remédier, on propose une nouvelle méthode qui consiste à entraîner des modèles plus petits pour corriger efficacement ces sorties.

Notre approche utilise des gros modèles de langage pour créer des corruptions dans le texte, ce qui nous permet de peaufiner des modèles plus petits pour corriger ces erreurs en incorporant des Preuves pertinentes. Cette méthode est non supervisée et offre un moyen de générer de fausses hallucinations dans différents domaines.

Notre modèle, appelé Petite Unsupervised Research and Revision (PURR), améliore non seulement l'Attribution par rapport aux méthodes existantes, mais il fonctionne aussi beaucoup plus rapidement. Le processus consiste à prendre une requête de départ pour rassembler des preuves pertinentes, les résumer en une affirmation, puis corrompre cette affirmation avant d'entraîner l'éditeur à la corriger.

Bien que les LLMs aient des forces significatives, ils ont aussi des faiblesses notables, surtout en matière de génération d'affirmations fausses ou trompeuses. Les méthodes actuelles pour corriger ces sorties reposent souvent sur la collecte de preuves pour soutenir les affirmations faites.

Aperçu de la tâche d'Édition pour l'attribution

Notre objectif principal est d'attribuer les sorties des modèles de langage et de corriger les inexactitudes. Cela implique de produire un rapport d'attribution qui contient des extraits de preuves pour soutenir l'affirmation et une déclaration révisée qui corrige toute erreur.

On évalue ces systèmes d'édition selon deux critères : l'attribution - à quel point les déclarations originales et révisées se connectent aux preuves - et la préservation - combien du message original reste le même. Notre but est de maximiser les deux aspects, en utilisant des métriques automatiques qui s'alignent bien avec les évaluations humaines.

Génération de déclarations propres avec des preuves

Pour créer une déclaration propre associée à des preuves, on commence avec une requête et utilise un moteur de recherche pour trouver des informations liées. Les meilleures pages sont découpées en passages, et on utilise un système de notation pour sélectionner les plus pertinentes comme preuves.

Après avoir rassemblé ces preuves, on demande à un modèle de langage de les résumer en une déclaration propre. Ce résumé doit refléter précisément les preuves collectées. Ensuite, on introduit du bruit ou on corrompt la déclaration propre en changeant certains détails, simulant les inexactitudes que pourraient générer les LLMs.

Données d'entraînement et résultats

On a utilisé un modèle spécifique (GPT-3.5) pour aider à générer des résumés et introduire des erreurs. En commençant avec environ 6 000 requêtes de départ sur divers sujets, on a créé un dataset contenant 6 000 instances éditées. Ce processus d'entraînement est efficace, coûtant environ 250 USD.

Nos résultats montrent que notre nouveau modèle, PURR, surpasse les éditeurs existants en faisant des ajustements plus petits tout en améliorant l'attribution. L'efficacité de notre modèle lui permet d'opérer beaucoup plus rapidement que d'autres modèles plus gros.

Analyse des erreurs et travail futur

On a analysé la performance de notre système, en se concentrant sur les instances où l'attribution était faible après édition. La plupart des erreurs provenaient de lacunes dans le modèle de génération de questions ou du fait de ne pas récupérer les preuves les plus appropriées.

Les améliorations futures porteront sur le renforcement de la corruption introduite lors de l'entraînement. Mieux gérer les distracteurs difficiles est crucial pour affiner notre processus d'édition.

Conclusion

On a développé une méthode efficace pour éditer les sorties des modèles de langage qui améliore l'attribution tout en préservant le message original. Notre méthode s'appuie sur de gros modèles pour créer des données d'entraînement pour des éditeurs plus petits et plus rapides, offrant une solution pratique aux défis posés par les hallucinations dans la génération de langage.

Améliorer les sorties des modèles de langue avec des modèles plus petits

Une nouvelle méthode améliore l'attribution et la justesse des sorties des modèles de langue.

#Aperçu de la tâche d'Édition pour l'attribution

#Génération de déclarations propres avec des preuves

#Données d'entraînement et résultats

#Analyse des erreurs et travail futur

#Conclusion

Liens de référence

Sujets référencés

Aperçu de la tâche d'Édition pour l'attribution

Génération de déclarations propres avec des preuves

Données d'entraînement et résultats

Analyse des erreurs et travail futur

Conclusion