Évaluer les auto-explications dans les modèles de langage
Une étude sur la fiabilité des auto-explications des LLM dans les tâches en langage naturel.
― 8 min lire
Table des matières
Récemment, les grands modèles de langage (LLMs) ont montré des compétences impressionnantes dans des tâches liées au langage naturel. Ils sont maintenant largement utilisés dans des applications quotidiennes comme les chatbots. Au fur et à mesure que les gens s'appuient de plus en plus sur cette technologie, il est essentiel de se demander : Quelle est la fiabilité des explications que ces modèles donnent sur leurs propres résultats ? Peuvent-ils expliquer efficacement leur processus de réflexion ?
Savoir comment les LLMs raisonnent est fondamental pour instaurer la confiance et la transparence lors de leur utilisation. Cette étude examine la fiabilité des Auto-explications de ces modèles, en particulier quand on leur demande d'expliquer leurs résultats précédents. On se concentre sur deux types d'auto-explications : extractives et contrefactuelles. On évalue ces explications en utilisant trois LLMs avancés de tailles différentes, en les appliquant à deux tâches différentes : une objective et une subjective.
Nos résultats de recherche montrent que, bien que les auto-explications fournies par les LLMs s'alignent souvent sur les avis humains, elles manquent de précision et ne reflètent pas toujours fidèlement comment le modèle prend ses décisions. Il y a un écart notable entre ce que les humains perçoivent comme le raisonnement du modèle et le raisonnement réel du modèle. Cependant, on a constaté que demander aux modèles de donner des explications contrefactuelles peut donner des résultats clairs, informatifs et vérifiables, ce qui en fait une alternative solide aux méthodes traditionnelles d'explication du comportement du modèle.
LLMs et leur rôle
Les grands modèles de langage ont beaucoup progressé ces dernières années, réussissant dans de nombreux domaines du traitement du langage naturel. Suite à leur succès, ces modèles sont devenus partie intégrante de la vie quotidienne, surtout à travers des chatbots comme ChatGPT. Étant donné leur impact et la confiance grandissante dans cette technologie, il est crucial de déterminer à quel point les explications générées par ces modèles sont fiables.
Les LLMs fonctionnent généralement en complétant des entrées de texte par une série de prédictions, ce qui soulève des questions sur leur raisonnement. Cet article examine la fiabilité des auto-explications générées par les LLMs lorsqu'on leur demande de justifier leurs résultats. Nous faisons plusieurs contributions avec notre recherche.
D'abord, nous évaluons les auto-explications extractives produites par trois des derniers LLMs à travers deux tâches de Classification. Bien que ces explications puissent sembler raisonnables pour les humains, elles ne donnent pas toujours une description précise du processus décisionnel du modèle.
Ensuite, nous montrons que l'écart entre les auto-explications et le raisonnement précis peut être réduit. En particulier, demander au LLM des explications contrefactuelles mène à des explications fiables qui peuvent être facilement vérifiées par les modèles.
Enfin, nous analysons les auto-explications contrefactuelles et constatons qu'elles peuvent ressembler de près aux résultats originaux tout en nécessitant une validation individuelle.
Explicabilité dans les LLMs
Dans le cadre de ce travail, nous définissons les LLMs comme des systèmes conçus pour traiter des entrées textuelles en utilisant l'architecture Transformer. Ces systèmes complètent le texte d'entrée en prédisant les tokens suivants. Cette architecture peut être décomposée en différentes couches, chacune ayant une fonction spécifique.
Spécifiquement, un LLM se compose d'une couche d'embedding qui traite l'entrée, suivie de plusieurs blocs transformer. Chaque bloc utilise l'attention multi-tête, ce qui permet au modèle de se concentrer sur différentes parties du texte d'entrée.
Les modèles transformer modernes peuvent être classés en trois catégories : encodeur seul, encodeur-décodeur et décodeur seul. Les modèles utilisant l'architecture décodeur seul ont montré la capacité de classifier des textes sans avoir besoin d'un ajustement supplémentaire. Ils peuvent réaliser des tâches de classification en utilisant deux approches : le prompting zéro-shot et le prompting few-shot.
Notre recherche se concentre spécifiquement sur l'explication des prédictions individuelles des modèles plutôt que de fournir une explication générale de leur fonctionnement. Depuis l'introduction initiale des LLMs en 2017, des chercheurs ont proposé différentes méthodes pour générer des explications pour leurs résultats de classification. Le choix de la méthode dépend souvent du cadre de classification.
Dans cet article, nous nous concentrons sur deux types d'explications importantes : les explications basées sur l'attention et les explications basées sur les gradients.
Explications Basées sur l'Attention
Ces explications utilisent les poids d'attention générés lors du passage en avant du modèle. En analysant quels tokens d'entrée ont le plus d'influence sur la sortie, on peut obtenir des aperçus sur le raisonnement du modèle. Cependant, offrir des explications claires basées uniquement sur l'attention peut être difficile.
Explications Basées sur les Gradients
Celles-ci créent des cartes montrant combien chaque entrée contribue à la sortie. Cette méthode se concentre sur le calcul du changement dans la sortie lors de la modification de l'entrée. Cependant, ces méthodes rencontrent des défis, comme le problème de saturation, où des réseaux bien entraînés produisent des gradients très faibles.
Explications Contrefactuelles
Les explications contrefactuelles diffèrent des autres méthodes. Elles présentent des versions altérées de l'entrée du modèle qui mènent à une sortie différente. Une bonne contrefactuelle doit respecter deux critères principaux : d'abord, elle doit créer une sortie différente du modèle, et ensuite, les changements apportés à l'entrée originale doivent être minimes.
Questions de Recherche
Pour guider notre enquête, nous nous sommes concentrés sur deux questions clés :
- Les auto-explications générées par les LLMs s'alignent-elles bien avec les jugements humains ?
- Ces auto-explications sont-elles corrélées avec les dynamiques internes du modèle, comme l'indiquent d'autres méthodes d'explication ?
Pour répondre à ces questions, nous avons d'abord collecté des auto-explications des LLMs et rassemblé des explications provenant d'approches analytiques basées sur les gradients et l'attention.
Processus d'Évaluation
Pour nos expériences, nous avons utilisé deux tâches : la classification des dangers alimentaires et la classification des sentiments. Dans la tâche de danger alimentaire, nous avons travaillé avec des titres de rappels alimentaires officiels, les classifiant en catégories spécifiques basées sur les annotations d'experts. La tâche de classification des sentiments impliquait l'analyse de critiques de films pour déterminer leur tonalité émotionnelle.
Nous avons ensuite évalué nos résultats sur la base de plusieurs indicateurs :
- Fidélité : Nous avons mesuré à quel point les explications indiquaient l'importance des tokens d'entrée.
- Similarité de Texte : Nous avons utilisé différentes méthodes pour comparer les explications générées aux textes de référence et aux annotations humaines.
- Similarité de Carte de Salience : Nous avons comparé à quel point les cartes de salience générées correspondaient à la vérité de terrain.
Résultats
Dans les deux tâches, les LLMs ont affiché des performances au-dessus des résultats aléatoires. La corrélation entre les auto-explications et les annotations humaines était positive, indiquant que les LLMs reflétaient en partie le raisonnement humain. Cependant, nous avons noté que les corrélations ne se maintenaient pas toujours pour des tâches subjectives nécessitant une interprétation plus nuancée.
Pour la classification des dangers alimentaires, les explications fournies par les modèles ont indiqué une corrélation positive claire avec les annotations humaines. Cela suggère que les auto-explications générées par les LLMs peuvent être considérées comme une représentation raisonnable du raisonnement du modèle dans cette tâche spécifique.
Dans notre tâche de classification des sentiments, nous avons observé un schéma similaire. Les auto-explications extractives ont montré des degrés variables de corrélation avec les annotations humaines.
Discussion et Conclusion
Dans l'ensemble, notre recherche montre que les auto-explications générées par les LLMs peuvent effectivement corréler avec les jugements humains et offrir des aperçus sur le fonctionnement des modèles. Cependant, cette relation n'est pas toujours claire, surtout dans les tâches nécessitant un raisonnement plus approfondi.
Les résultats suggèrent que, bien que les auto-explications puissent fournir un point de départ raisonnable pour comprendre le comportement des LLMs, elles ne corrèlent pas nécessairement avec tous les aspects du fonctionnement interne du modèle. Les auto-explications extractives tendent à s'aligner plus étroitement avec la vérité de terrain dans les tâches où un lien clair existe entre des tokens spécifiques et des résultats attendus.
Les explications contrefactuelles montrent un bon potentiel, surtout dans des tâches comme la classification des sentiments, où la capacité de valider facilement les explications peut fournir des aperçus précieux.
Des recherches supplémentaires sont nécessaires pour optimiser le processus de prompting et développer des contrefactuelles qui peuvent améliorer la transparence et la fiabilité des modèles. À mesure que des modèles plus sophistiqués émergent, il sera crucial d'affiner ces méthodes pour mieux comprendre comment les LLMs dérivent leurs résultats.
Titre: Evaluating the Reliability of Self-Explanations in Large Language Models
Résumé: This paper investigates the reliability of explanations generated by large language models (LLMs) when prompted to explain their previous output. We evaluate two kinds of such self-explanations - extractive and counterfactual - using three state-of-the-art LLMs (2B to 8B parameters) on two different classification tasks (objective and subjective). Our findings reveal, that, while these self-explanations can correlate with human judgement, they do not fully and accurately follow the model's decision process, indicating a gap between perceived and actual model reasoning. We show that this gap can be bridged because prompting LLMs for counterfactual explanations can produce faithful, informative, and easy-to-verify results. These counterfactuals offer a promising alternative to traditional explainability methods (e.g. SHAP, LIME), provided that prompts are tailored to specific tasks and checked for validity.
Auteurs: Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren
Dernière mise à jour: 2024-07-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.14487
Source PDF: https://arxiv.org/pdf/2407.14487
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.