Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Améliorer la confiance dans les modèles de langue

Une nouvelle méthode d'entraînement améliore la façon dont les modèles de langage expriment la certitude dans leurs réponses.

― 12 min lire


Boost de calibration deBoost de calibration deconfiance en IAdans l'expression de la confiance.précision des modèles linguistiquesUne nouvelle méthode améliore la
Table des matières

Les grands modèles de langage (LLMs) peuvent répondre à des questions et aussi exprimer à quel point ils sont sûrs de leurs Réponses. Ils peuvent le faire de manière claire, comme en donnant un chiffre pour leur Confiance, ou de manière moins directe, comme en ayant l'air sûr ou en fournissant des infos supplémentaires. Pour que ces modèles soient fiables, leur certitude devrait correspondre à la justesse de leurs réponses. Cependant, beaucoup de modèles tendent à être trop confiants, même quand ils donnent de mauvaises réponses.

Pour régler ce problème, des chercheurs ont proposé une nouvelle méthode d'Entraînement qui se concentre sur le point de vue de l'auditeur. Cette méthode vérifie non seulement si la réponse est correcte, mais aussi si l'auditeur est susceptible d'accepter cette réponse. Cette approche considère la tâche comme un moyen d'améliorer la façon dont le modèle communique avec l'auditeur. Pour ce faire, des données sont créées en utilisant un jeu en deux parties : un modèle donne des réponses pendant qu'un autre modélise la réaction d'un auditeur à ces réponses.

Trois modèles de langage différents (Mistral-7B, Llama3-8B, Llama3-70B) ont été entraînés avec cette nouvelle méthode. Les résultats ont montré que ces modèles devenaient meilleurs pour faire correspondre leurs niveaux de confiance à la justesse de leurs réponses en interagissant avec les Auditeurs. Cette amélioration s'est même étendue aux auditeurs humains réels, les aidant à faire des jugements plus précis sur les réponses du modèle.

Lors des évaluations, des annotateurs humains ont été invités à décider d'accepter ou de rejeter les réponses données par les modèles. Les résultats ont montré qu'en utilisant la nouvelle méthode d'entraînement, le nombre de mauvaises réponses acceptées par les auditeurs a diminué, tout en permettant aux bonnes réponses d'être acceptées au même rythme. De plus, la méthode d'entraînement s'est révélée bénéfique lorsqu'elle a été appliquée à un autre ensemble de données, entraînant un net accroissement de la véracité des réponses fournies par les modèles.

L'étude a mis en évidence comment la nouvelle approche d'entraînement a amélioré la façon dont les modèles expriment leur confiance. Les modèles entraînés avec cette méthode avaient tendance à nuancer leurs réponses davantage lorsqu'ils étaient incertains et à utiliser des signaux clairs de certitude lorsqu'ils avaient raison. Ils utilisaient fréquemment un ton autoritaire et fournissaient plus de détails lorsque leurs réponses étaient correctes. En outre, l'entraînement a conduit les modèles à être plus susceptibles de dire "Je ne sais pas" lorsqu'ils étaient incertains au sujet d'une réponse.

Communiquer et Écouter : L'Importance du Langage

Quand les gens communiquent, ils suivent généralement certaines règles qui rendent les conversations efficaces. De bons interlocuteurs s'efforcent d'être honnêtes, pertinents, clairs et concis. Quand ces lignes directrices sont ignorées, cela peut induire en erreur les auditeurs, rendant le locuteur peu fiable ou incompétent.

Bien que les grands modèles de langage suivent souvent bon nombre de ces principes, ils ont du mal à être véridiques. Souvent, les réponses qu'ils fournissent ne sont pas correctes, mais elles sont délivrées de manière trop confiante. Cela peut tromper les utilisateurs en leur faisant croire que le modèle fournit des informations fiables, ce qui peut conduire à des malentendus.

La confiance d'un modèle peut se manifester de différentes manières. Ils peuvent l'afficher explicitement en donnant des scores numériques (comme "Je suis 100% confiant") ou en utilisant des mots qui indiquent la certitude. Ils peuvent également montrer leur confiance de manière implicite à travers des détails ou la façon dont ils s'expriment. Souvent, ces détails peuvent être inventés et ne représentent pas des faits. Par exemple, un modèle pourrait dire quelque chose comme "Je me souviens avoir vu ce film au cinéma", même si ce n'est pas vrai.

Confiance Implicite et Explicite

Lorsqu'un auditeur qui ne connaît pas la réponse évalue la réponse du modèle, il se fie à la façon dont la réponse sonne confiante. La confiance affichée peut influencer sa décision d'accepter ou de rejeter une réponse. Pour aider les modèles à calibrer leurs niveaux de confiance, la nouvelle méthode entraîne le locuteur (le modèle qui donne des réponses) en tenant compte du point de vue de l'auditeur.

Avant cet entraînement, les modèles affichaient souvent une grande confiance, quelle que soit la justesse de leurs réponses. Après l'entraînement, il a été constaté que les modèles exprimaient leur confiance avec Précision, étant plus confiants lorsqu'ils avaient raison et moins lorsqu'ils avaient tort.

Le problème de la surconfiance est préoccupant, surtout alors que les gens comptent de plus en plus sur ces modèles pour des informations fiables. Beaucoup d'utilisateurs ne connaissent pas eux-mêmes les réponses, donc ils pourraient accepter les réponses du modèle sans les remettre en question. Ce comportement peut entraîner une perte de confiance dans les systèmes d'IA.

Entraînement Pragmatiste pour une Meilleure Confiance

La nouvelle méthode d'entraînement se concentre sur deux problèmes principaux :

  1. Les modèles manquent souvent de connaissance sur la justesse de leurs réponses.
  2. Les modèles ne pensent pas à la façon dont les auditeurs comprendront ce qu'ils disent.

Tout d'abord, les modèles de base ne reçoivent pas de retour direct sur la justesse de leurs réponses, ce qui signifie qu'ils n'ont guère de raison de tempérer leur confiance. Deuxièmement, ces modèles ne considèrent pas comment les auditeurs pourraient interpréter leurs réponses en temps réel. Bien que les modèles entraînés avec des retours humains semblent avoir ces compétences, des travaux précédents ont montré qu'ils ont souvent des performances inférieures aux modèles de base en termes de calibration de la confiance.

La nouvelle méthode de Calibration Sensible à l'Auditeur ajuste les modèles en utilisant des retours sur la justesse de leurs réponses et si les auditeurs perçoivent ces réponses comme correctes. Cette méthode déplace l'accent de la simple vérité des réponses à l'efficacité avec laquelle les réponses communiquent la confiance aux auditeurs.

Améliorer la Confiance dans les Systèmes d'IA

Pour atteindre cette meilleure calibration de confiance, les chercheurs ont utilisé une méthode appelée Optimisation de Préférence Directe (DPO). Ils ont construit un ensemble de données qui incluait des exemples de sorties préférées et non préférées du modèle. En générant plusieurs réponses longues à partir d'un modèle de langage standard et en les comparant aux réponses d'un modèle d'auditeur, ils pouvaient définir une fonction de préférence qui récompense les modèles pour avoir présenté leur confiance avec précision.

L'entraînement visait à créer des sorties mieux calibrées, ce qui signifie qu'au final, les modèles peuvent exprimer leur confiance plus précisément. Les évaluations ont montré que les modèles, lorsqu'ils étaient testés avec un modèle d'auditeur, avaient une meilleure calibration, ce qui signifie qu'ils étaient meilleurs pour refléter avec précision la justesse de leurs réponses.

Évaluation Humaine et Impact dans le Monde Réel

Après l'entraînement, les réponses des modèles ont été testées sur un ensemble de questions trivia pour voir comment ils se comportaient lorsqu'ils interagissaient avec de vrais auditeurs humains. Les résultats ont montré une amélioration significative de la précision, ce qui signifie que moins de mauvaises réponses ont été acceptées tout en maintenant le taux d'acceptation pour les bonnes réponses.

De plus, ce nouveau modèle a montré une augmentation de l'abstention, ce qui signifie qu'il était plus susceptible de dire "Je ne sais pas" lorsqu'il n'était pas sûr d'une réponse. C'est un changement positif, car cela suggère que le modèle est plus prudent et évite d'induire les auditeurs en erreur.

Contexte sur le Langage et la Communication

La pragmatique est l'étude de la manière dont les gens comprennent le langage dans son contexte, en considérant plus que les significations littérales des mots. Les principes de communication de Grice ont établi des lignes directrices que les gens suivent généralement dans une conversation, comme être clair et pertinent, entre autres. L'importance de comprendre comment un message est interprété par un auditeur est au cœur de l'analyse pragmatique.

Efforts Passés dans la Calibration des Modèles de Langage

Dans des recherches précédentes, plusieurs méthodes ont été proposées pour améliorer la façon dont les modèles expriment leur confiance. Certaines études se sont concentrées sur la verbalisation de la confiance à travers des marqueurs spécifiques ou des codes de contrôle dans les sorties des modèles. D'autres ont affiné les modèles pour améliorer la calibration de leurs niveaux de confiance.

Cependant, le défi reste que les modèles génèrent souvent des sorties sans tenir compte de la façon dont un auditeur réagira. La nouvelle méthode adopte une approche différente, formant les modèles à travers un système multi-agents qui permet à différents modèles de locuteur et d'auditeur de mieux simuler les interactions du monde réel.

Ensembles de Données Utilisés dans la Recherche

Pour cette étude, deux ensembles de données ont été utilisés. L'ensemble de données TriviaQA comprenait de nombreuses questions de trivia avec des réponses et des documents sources, permettant des tests et un entraînement approfondis. L'ensemble de données TruthfulQA comprenait des questions qui contiennent souvent des idées fausses, ce qui en fait un bon outil pour évaluer la véracité des modèles après l'entraînement.

Le Processus d'Entraînement

Pour développer des données d'entraînement pour la nouvelle méthode, les chercheurs ont utilisé à la fois des modèles de locuteur et d'auditeur. Le modèle de locuteur a été poussé à exprimer sa confiance, tandis que le modèle d'auditeur a été conçu pour évaluer les réponses sans se fier à ses connaissances préalables.

Création de Données de Préférence

La création de données d'entraînement a commencé par un échantillonnage de paires question-réponse à partir de l'ensemble de données. Le modèle de locuteur a généré des réponses à chaque question, et le modèle d'auditeur a évalué à quel point il était probable d'accepter ou de rejeter les réponses en fonction de leurs niveaux de confiance. Ces données ont ensuite été utilisées pour créer des fonctions de préférence qui ont guidé le processus d'entraînement.

Entraînement et Validation

Le processus d'entraînement visait à peaufiner les modèles en utilisant QLoRA, ajustant leurs sorties en fonction des préférences des auditeurs. Plusieurs modèles ont été évalués pour trouver celui qui performait le mieux, en évaluant leurs réponses en fonction de la manière dont ils ont calibré leur confiance.

Évaluer la Performance des Modèles

Après l'entraînement, les chercheurs ont testé les modèles sur un ensemble de questions trivia pour évaluer à quel point ils calibraient bien leurs niveaux de confiance. Les résultats ont montré que la nouvelle approche améliorait significativement l'exactitude et la fiabilité des sorties des modèles, en particulier dans la manière dont ils exprimaient leur confiance.

Implications pour l'Interaction Humain-IA

Améliorer la façon dont les modèles expriment leur confiance a des implications significatives. Cela peut entraîner une meilleure satisfaction et sécurité des utilisateurs lorsqu'ils interagissent avec des systèmes d'IA. Un modèle plus fiable peut rendre les interactions plus fluides et promouvoir la confiance des utilisateurs dans la technologie.

Conclusion

La nouvelle méthode d'Ajustement Sensible à l'Auditeur représente un développement prometteur pour rendre les modèles de langage plus fiables et dignes de confiance. En se concentrant sur la façon dont les modèles communiquent leurs niveaux de confiance, les chercheurs peuvent créer des systèmes d'IA qui répondent mieux aux besoins et aux attentes des utilisateurs.

La capacité des modèles à exprimer leur niveau de certitude et à comprendre les réactions des auditeurs a le potentiel de redéfinir la façon dont les humains interagissent avec l'IA. Grâce à des recherches futures, ces méthodes peuvent être encore affinées et adaptées à différentes applications, améliorant l'efficacité globale des modèles de langage dans des situations réelles.

Source originale

Titre: LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models

Résumé: When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model's outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM's answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying "I don't know") for answers that are likely wrong.

Auteurs: Elias Stengel-Eskin, Peter Hase, Mohit Bansal

Dernière mise à jour: 2024-07-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.21028

Source PDF: https://arxiv.org/pdf/2405.21028

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires