Évaluer l'incertitude dans les grands modèles de langage
Une nouvelle méthode améliore le scoring de confiance dans les modèles de langue en utilisant des explications stables.
― 12 min lire
Table des matières
- Contexte sur l'incertitude dans le machine learning
- L'incertitude dans les grands modèles de langage
- Le concept d'explications stables
- Comprendre la probabilité des explications
- Évaluer les métriques de confiance
- Jeux de données et évaluation des modèles
- Aperçus sur la probabilité des explications
- Performance de la méthode de confiance stable
- Limitations et orientations futures
- Conclusion
- Source originale
- Liens de référence
Dans plein d'applis importantes de machine learning, c'est super crucial qu'un modèle montre quand il n'est pas sûr de ses prédictions. Les grands modèles de langage (LLMs) peuvent être vraiment performants, parfois même mieux que les humains sur certains trucs. Mais souvent, ils donnent des réponses confiantes mais fausses, ce qui peut induire les utilisateurs en erreur. Il y a eu des cas où ces modèles ont créé des infos fausses, un comportement connu sous le nom de 'hallucination.' Ça arrive même avec les modèles les plus grands et avancés.
Pour éviter ce genre de scénarios trompeurs, une approche est de faire en sorte que le modèle rapporte sa propre confiance dans ses réponses. Cette tâche s'appelle la Quantification de l'incertitude. La méthode la plus simple consiste à calculer un score basé sur les prédictions du modèle. Cependant, ce score ne reflète souvent pas avec précision la réelle probabilité d'être correct.
On espère qu'en examinant plus en profondeur le fonctionnement du modèle, on pourrait trouver une meilleure façon d'évaluer sa confiance. Malheureusement, accéder aux rouages internes d'un grand modèle de langage est souvent impraticable à cause des coûts et des restrictions. Récemment, plusieurs méthodes ont été développées qui ne nécessitent pas d'accéder à ces détails internes. Ces techniques dépendent souvent du modèle générant ses propres déclarations de confiance ou fournissant plusieurs variations de réponse. Bien que prometteuses, ces méthodes peuvent quand même conduire à des réponses trop confiantes et incorrectes.
Le problème principal avec les méthodes existantes pour évaluer l'incertitude dans les modèles de langage repose sur une hypothèse : que les données d'entraînement et de test proviennent du même contexte. Cependant, cette hypothèse est souvent fausse. Donc, un modèle qui fonctionne bien sur un jeu de données peut ne pas bien fonctionner sur un autre. Les grands modèles de langage offrent une chance unique d'ajuster leur jugement au moment des tests en générant des explications pour leurs réponses. Alors que du texte aléatoire peut embrouiller le modèle, des faits pertinents ou des étapes logiques peuvent aider à rendre ses réponses plus stables.
Les prompts qui encouragent les raisonnements dans le modèle ont montré des améliorations dans son exactitude. Mais des recherches récentes montrent que même ces explications peuvent être faussées et peuvent ne pas pointer vers les bonnes réponses. Si on pouvait faire la différence entre les explications stables et instables, on comprendrait mieux à quel point il faut faire confiance aux réponses données.
Dans cet article, on discute d'une méthode pour générer des scores qui indiquent à quel point un LLM est confiant dans ses réponses en regardant les explications qu'il crée. Cette approche se concentre sur des explications logiquement cohérentes. En faisant cela, on peut établir une meilleure mesure d'incertitude. On va démontrer comment ça fonctionne en regardant deux tâches principales : vérifier si la confiance représente la véritable exactitude des réponses, et déterminer à quel point les scores de confiance peuvent faire la différence entre les bonnes et les mauvaises réponses.
Contexte sur l'incertitude dans le machine learning
L'incertitude joue un rôle important dans le machine learning. Ça implique d'évaluer combien on sait sur les prédictions et ça peut influencer les décisions basées sur la sortie du modèle. De nombreuses méthodes ont été créées pour mesurer l'incertitude, souvent en se basant sur la probabilité et les statistiques.
Dans les tâches de classification, les modèles apprennent à partir de paires de données et d'étiquettes. Quand on présente de nouvelles données, on veut que le modèle prédise la bonne réponse et fournisse un Score de confiance utile. Un score de confiance bien calibré signifie que les prédictions faites avec un certain score sont correctes la plupart du temps.
L'incertitude peut venir de deux sources principales : la connaissance limitée de l'agent (Incertitude épistémique) et le hasard inhérent des données (incertitude aléatoire). Les méthodes existantes pour quantifier l'incertitude diffèrent dans la façon dont elles classifient et abordent ces sources.
Beaucoup de techniques partent du principe que les jeux de données d'entraînement et de test proviennent de la même distribution. Par exemple, les Réseaux Neuraux Bayésiens (BNNs) se concentrent sur la mesure de l'incertitude en ajustant les poids appris au fur et à mesure qu'on acquiert plus d'infos. Une autre méthode, la prédiction conforme, vise à créer un ensemble de prédictions qui contient l'étiquette réelle avec une probabilité spécifiée.
L'incertitude dans les grands modèles de langage
Récemment, il y a eu un grand intérêt pour mesurer l'incertitude spécifiquement dans les grands modèles de langage. Comme les LLMs peuvent produire presque un nombre infini de séquences de texte, évaluer l'incertitude devient plus compliqué que dans les tâches de classification typiques.
En général, ces modèles sont évalués sur des questions à choix multiple. Pourtant, des problèmes surgissent quand on essaie de calculer la confiance directement à partir des probabilités de tokens générées par le LLM. Bien que les modèles plus grands soient généralement meilleurs pour cette tâche, ils ont encore du mal avec différentes formulations de la même question et échouent souvent à reconnaître les questions qui ne peuvent pas être répondues.
Les méthodes actuelles pour obtenir de la confiance des LLMs peuvent être divisées en deux grandes catégories : méthodes en boîte blanche et méthodes en boîte noire. Les méthodes en boîte blanche nécessitent d'accéder aux détails internes du modèle, permettant de calculer des probabilités directement à partir des sorties du modèle. En revanche, les méthodes en boîte noire se contentent d'échantillonner les sorties du modèle sans connaître son fonctionnement interne.
Les techniques en boîte blanche peuvent impliquer le calcul de probabilités pour des séquences de tokens, en utilisant des méthodes comme la prédiction conforme pour améliorer la calibration des prédictions. Dans les méthodes en boîte noire, la confiance est souvent dérivée de l'observation d'une série de réponses du modèle, soit en générant plusieurs réponses, soit en incitant le modèle à estimer verbalement sa propre confiance.
Le concept d'explications stables
Pour déterminer à quel point un modèle est confiant dans sa réponse, on devrait regarder les explications générées en même temps. Intuitivement, quand les gens se sentent confiants à propos d'une réponse, c'est souvent soutenu par des explications plausibles, tandis que d'autres réponses possibles manquent souvent de justifications raisonnables.
Cependant, la nature infinie des explications possibles rend difficile leur analyse directe. Pour y faire face, on commence par collecter un échantillon d'explications du modèle liées à une question spécifique. Ensuite, on évalue ces explications pour leur cohérence logique avec la question. Enfin, on calcule combien chaque explication soutient les réponses possibles.
Cela mène à un processus en deux étapes : estimer à quel point une explication est alignée avec la question et définir une distribution de réponses conditionnelle basée sur cette explication. Ensemble, ces composants aident à créer une meilleure prédiction de confiance.
Comprendre la probabilité des explications
Quand une question est posée à un LLM, on peut trouver une réponse en fournissant directement la question au modèle. On peut aussi calculer une distribution de probabilité sur les réponses possibles en fonction des sorties du modèle. Malheureusement, ces distributions de probabilité peuvent être mal calibrées et sensibles à de petits changements de formulation.
Les explications servent de séquences de longueur variable situées entre la question et la réponse générée par le LLM. En générant ces explications, on peut les considérer comme des chemins menant à une réponse particulière. Bien qu'il existe une variété de chemins possibles, on peut catégoriser les explications pour évaluer leur soutien pour différentes réponses.
Générer des explications naïvement en sollicitant simplement le modèle peut ne pas représenter avec précision leur réelle utilité. Pour améliorer la situation, on applique des vérifications de cohérence logique aux explications générées. Cela aide à peser les explications en fonction de leur pertinence par rapport à la question posée, garantissant des données de meilleure qualité pour notre analyse.
Évaluer les métriques de confiance
Pour savoir si une méthode d'évaluation de la confiance est efficace, on l'évalue par rapport à des tâches spécifiques. La première tâche concerne la calibration, où l'objectif est de produire des scores de confiance qui reflètent à quelle fréquence le modèle donne la bonne réponse. La deuxième tâche se concentre sur l'incertitude sélective, où l'objectif est de prédire quand le modèle devrait choisir de ne pas répondre à une question plutôt que de faire une supposition incorrecte.
Les métriques d'évaluation aident à mesurer la performance. Pour les deux tâches, on va regarder des métriques communes comme l'aire sous la courbe de fonctionnement du receveur (AUROC) et l'aire sous la courbe de risque-couverture (AURC). Le but est d'obtenir des scores élevés en faisant des prédictions précises tout en minimisant les erreurs.
Jeux de données et évaluation des modèles
Dans cette étude, on teste la méthode en utilisant cinq ensembles de données reconnus qui comprennent une variété de tâches de questions-réponses. Ces ensembles de données diffèrent en complexité et couvrent une gamme de sujets. Les questions varient en longueur, affectant la capacité du modèle à répondre avec précision.
Pour le processus d'évaluation, notre méthode génère des scores de confiance basés sur un échantillon de questions provenant de chaque ensemble de données. On utilise des modèles comme GPT-3.5 et GPT-4 pour nos expériences. Ensuite, on compare nos résultats à diverses autres méthodes, en analysant comment notre technique se positionne par rapport aux baselines établies.
Aperçus sur la probabilité des explications
La probabilité d'une explication basée sur la réponse soutenue est essentielle. Même quand une explication semble plausible, ça ne veut pas dire que la réponse correspondante est correcte. Cette distinction peut indiquer si le modèle peut fournir des réponses fiables.
En examinant les explications pour les bonnes et les mauvaises réponses, on constate qu'elles affichent souvent des chevauchements en termes de probabilités intermédiaires. Cependant, des différences significatives peuvent également être observées dans la probabilité d'explications incorrectes, qui ont tendance à montrer un schéma distinct. Cela suggère que même si une explication pourrait être bien articulée, elle pourrait toujours manquer de fondement logique.
En reconnaissant comment les explications se corrèlent avec la justesse des réponses, on peut affiner notre approche pour réduire l'incidence des mauvaises réponses tout en augmentant la confiance dans celles qui sont correctes.
Performance de la méthode de confiance stable
Notre évaluation révèle que la méthode d'explications stables excelle dans les tâches liées à la prédiction des mauvaises réponses. En évaluant la performance par rapport aux méthodes de référence, on constate qu'elle surpasse systématiquement dans les tâches d'incertitude sélective à travers différents ensembles de données. Particulièrement dans des scénarios complexes, la méthode de confiance par explication stable montre un coup de pouce significatif en performance.
Bien que la performance de calibration ne puisse pas atteindre les mêmes niveaux élevés que les baselines, l'accent reste mis sur l'amélioration des prédictions des mauvaises réponses, ce qui est un gros avantage de cette approche.
Limitations et orientations futures
Bien que la méthode d'explications stables mène à des améliorations, des défis demeurent, surtout avec des types de questions plus simples. La méthode a du mal à montrer des avantages lorsqu'elle est confrontée à des questions qui ressemblent à des tâches de classification traditionnelles.
De plus, notre approche est limitée aux ensembles de données à choix multiple, laissant de côté les questions ouvertes pour de futures explorations. La qualité des explications générées est un autre domaine à améliorer, car des explications de meilleure qualité pourraient conduire à de meilleurs résultats.
Dans les travaux futurs, on vise à développer des méthodes pour reconnaître et accepter des explications de haute qualité, garantissant au final que nos scores de confiance soient aussi précis et fiables que possible.
Conclusion
La capacité de mesurer l'incertitude dans les grands modèles de langage est d'une importance capitale, surtout dans des applications où la précision et la fiabilité sont critiques. Notre approche pour générer des scores de confiance à travers des explications stables fournit un cadre solide pour améliorer les prédictions. En analysant et affinant continuellement les méthodes d'évaluation de l'incertitude, on peut augmenter la fiabilité et la performance des modèles de langage dans des scénarios réels.
Titre: Cycles of Thought: Measuring LLM Confidence through Stable Explanations
Résumé: In many high-risk machine learning applications it is essential for a model to indicate when it is uncertain about a prediction. While large language models (LLMs) can reach and even surpass human-level accuracy on a variety of benchmarks, their overconfidence in incorrect responses is still a well-documented failure mode. Traditional methods for ML uncertainty quantification can be difficult to directly adapt to LLMs due to the computational cost of implementation and closed-source nature of many models. A variety of black-box methods have recently been proposed, but these often rely on heuristics such as self-verbalized confidence. We instead propose a framework for measuring an LLM's uncertainty with respect to the distribution of generated explanations for an answer. While utilizing explanations is not a new idea in and of itself, by interpreting each possible model+explanation pair as a test-time classifier we can calculate a posterior answer distribution over the most likely of these classifiers. We demonstrate how a specific instance of this framework using explanation entailment as our classifier likelihood improves confidence score metrics (in particular AURC and AUROC) over baselines across five different datasets. We believe these results indicate that our framework is both a well-principled and effective way of quantifying uncertainty in LLMs.
Auteurs: Evan Becker, Stefano Soatto
Dernière mise à jour: 2024-06-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.03441
Source PDF: https://arxiv.org/pdf/2406.03441
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.