Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Évaluer les explications faites par des humains dans l'entraînement de l'IA

Une nouvelle méthode pour évaluer la qualité des explications dans les modèles d'IA.

― 8 min lire


Évaluer la qualité desÉvaluer la qualité desexplications de l'IAla performance des modèles d'IA.Évaluer l'impact des explications sur
Table des matières

Les explications faites par des humains jouent un rôle clé dans la formation de modèles qui comprennent le langage naturel. Alors qu'on peut facilement vérifier la qualité des étiquettes fournies par les humains, on ne peut pas en dire autant des explications libres. Ces explications peuvent être assez personnelles et varier beaucoup d'une personne à l'autre. Donc, c'est important de poser une question cruciale : comment déterminer la qualité de ces explications faites par des humains ?

Dans le cadre de la formation des modèles d'apprentissage automatique, on suggère que la qualité d'une explication doit être évaluée en fonction de son aide ou de son obstination à la Performance des modèles sur les tâches pour lesquelles ils sont conçus. Notre recherche introduit une nouvelle façon de mesurer l'utilité des explications, par rapport à d'autres méthodes qui se concentrent principalement sur la similitude des explications.

En analysant divers ensembles de données et types de modèles, on a découvert que notre nouvel outil de mesure pouvait juger efficacement la qualité des explications humaines. Les mesures traditionnelles qui se concentrent sur l'apparence ou le son des explications ont des limites et ne reflètent souvent pas leur véritable valeur.

Malgré les progrès réalisés avec les modèles de langage à grande échelle, les gens restent curieux de savoir comment ces modèles font des prévisions. Les chercheurs s'appuient souvent sur des annotateurs humains pour fournir des explications accompagnant les résultats des modèles. Cependant, le simple fait que des humains soient impliqués ne garantit pas que les explications soient de haute qualité.

Des outils d'évaluation courants comme BLEU et ROUGE mesurent à quel point les explications générées par les machines sont similaires à celles créées par des humains, en supposant que les explications humaines sont toujours les meilleures. Cette méthode peut être trompeuse, car différentes personnes pourraient expliquer la même information de manière unique. En conséquence, ce n'est pas suffisant de considérer toutes les explications humaines comme parfaites. Au lieu de cela, on soutient que la valeur principale des explications devrait venir de leur capacité à améliorer les prévisions du modèle, plutôt que de leur similitude entre elles.

Instances de données et ensembles de données

Pour évaluer l'efficacité de notre méthode, on a travaillé avec cinq ensembles de données bien connus qui impliquent des explications créées par des humains. Chacun de ces ensembles de données a ses caractéristiques uniques, et on les a évalués en utilisant notre nouvel outil de mesure. Les ensembles de données sont :

  • CoS-E v1.0 : Cela implique le questionnement de bon sens avec trois choix.
  • CoS-E v1.11 : Une variante du jeu de données ci-dessus avec cinq choix.
  • ECQA : Également du questionnement de bon sens, mais avec une configuration à cinq choix.
  • e-SNLI : Cet ensemble de données porte sur l'inférence en langage naturel avec trois étiquettes.
  • ComVE : Un ensemble de données qui consiste à décider quelle phrase va à l'encontre du bon sens.

On a compilé un aperçu complet de ces ensembles de données, y compris les types de questions qu'ils posent et combien d'instances ils contiennent. Ces informations nous permettent d'évaluer systématiquement les explications fournies pour chaque ensemble de données.

L'importance des explications de qualité

Beaucoup de chercheurs croient que de bonnes explications peuvent aider les modèles à mieux performer. Par exemple, les explications peuvent être intégrées dans les modèles comme entrée ou utilisées pour former des modèles à créer leurs propres explications. Cependant, le problème de la qualité demeure. La plupart des Méthodes d'évaluation existantes, comme BLEU et ROUGE, comparent des textes sans vraiment aborder l'efficacité d'une explication dans l'aide à la prise de décision.

Une métrique établie appelée Simulatabilité se concentre sur comment les explications peuvent influencer les prévisions des modèles. Cependant, elle ne prend pas en compte à quel point ces explications sont utiles à différents stades, comme le réglage fin ou la réalisation de prévisions. On a trouvé que les explications pouvaient fournir différents niveaux de valeur à ces étapes, c'est pourquoi on propose une méthode améliorée qui évalue l'utilité des explications de manière plus complète.

Notre métrique d'évaluation prend en compte à la fois les étapes de réglage fin et d'inférence du traitement d'un modèle. Cela aide à fournir une image plus claire de l'utilité d'une explication.

Méthode d'évaluation

Pour analyser les explications faites par des humains, on a proposé une méthode d'évaluation simple mais efficace. On a soigneusement observé comment les explications ont impacté la performance des modèles à la fois au réglage fin et à l'inférence. Notre nouvelle métrique étend le score de Simulatabilité existant en considérant comment les modèles réagissent lorsqu'ils sont réglés avec et sans les explications fournies.

On a testé notre outil d'évaluation sur cinq ensembles de données en utilisant deux types différents de modèles. Les résultats ont montré que notre méthode classait systématiquement la qualité des explications humaines plus précisément que les méthodes existantes.

Résultats des expériences

Dans nos expériences, on a découvert des choses importantes sur l'efficacité des explications. On a observé que les explications peuvent varier en utilité selon le type d'ensemble de données et la tâche à accomplir. Par exemple, en regardant l'ensemble de données CoS-E, on a constaté que même les explications considérées comme "bruyantes" ou de basse qualité par les humains avaient tout de même un impact positif sur les prévisions des modèles.

Nos découvertes ont également révélé des dynamiques intéressantes lors de l'utilisation des explications pendant la formation. Les modèles qui ont reçu des explications comme partie de leur entrée d'entraînement ont généralement mieux performé que ceux qui n'ont généré que leurs propres explications. Cela suggère que l'incorporation d'explications faites par des humains de manière réfléchie peut améliorer la performance des modèles.

De plus, on a remarqué que la manière dont les explications étaient formulées comptait aussi. Par exemple, les explications qui incluaient des mots signifiant négation ont parfois embrouillé les modèles et les ont rendus moins efficaces. Cela suggère que fournir des explications claires et directes est essentiel.

Le rôle des tâches et des catégories

L'efficacité des explications faites par des humains dépend également des tâches ou des catégories impliquées. Dans notre recherche, on a constaté que les modèles réagissaient différemment selon la manière dont les explications étaient structurées pour divers types de questions. Certaines catégories recevaient des explications plus claires, facilitant la compréhension des modèles, tandis que d'autres souffraient à cause de l'utilisation d'exemples contre-productifs ou d'un langage complexe.

Par exemple, les explications dans certaines catégories causaient de hauts niveaux de confusion pour les modèles. Cela indique que les annotateurs humains doivent faire attention à la manière dont ils formulent leurs explications. Au lieu d'utiliser des phrases complexes ou négatives, des expressions plus directes peuvent mener à de meilleurs résultats.

Conclusion

En conclusion, notre recherche examine de près la qualité des explications humaines et leur impact sur la performance des modèles. En développant une nouvelle façon d'évaluer ces explications, on vise à améliorer la collaboration entre humains et IA dans les tâches d'annotation de données. Les résultats de nos recherches devraient encourager les futurs chercheurs à maintenir des normes élevées pour les explications générées par des humains, menant finalement à de meilleurs modèles d'IA plus efficaces.

En comprenant comment structurer et mesurer mieux les explications humaines, on ouvre la porte à des méthodes d'entraînement plus efficaces qui exploitent les forces à la fois de l'intelligence humaine et de l'apprentissage automatique. À mesure que l'IA continue d'évoluer, garantir la qualité de sa compréhension sera vital pour développer des systèmes plus avancés et fiables.

Source originale

Titre: Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations

Résumé: Human-annotated labels and explanations are critical for training explainable NLP models. However, unlike human-annotated labels whose quality is easier to calibrate (e.g., with a majority vote), human-crafted free-form explanations can be quite subjective. Before blindly using them as ground truth to train ML models, a vital question needs to be asked: How do we evaluate a human-annotated explanation's quality? In this paper, we build on the view that the quality of a human-annotated explanation can be measured based on its helpfulness (or impairment) to the ML models' performance for the desired NLP tasks for which the annotations were collected. In comparison to the commonly used Simulatability score, we define a new metric that can take into consideration the helpfulness of an explanation for model performance at both fine-tuning and inference. With the help of a unified dataset format, we evaluated the proposed metric on five datasets (e.g., e-SNLI) against two model architectures (T5 and BART), and the results show that our proposed metric can objectively evaluate the quality of human-annotated explanations, while Simulatability falls short.

Auteurs: Bingsheng Yao, Prithviraj Sen, Lucian Popa, James Hendler, Dakuo Wang

Dernière mise à jour: 2023-05-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.03117

Source PDF: https://arxiv.org/pdf/2305.03117

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires