Évaluer les biais dans les modèles de langage
Une étude sur l'impact des biais dans les grands modèles de langage pendant le questionnement.
― 15 min lire
Table des matières
- Mesurer la fiabilité
- Contexte
- Cadre proposé
- Résultats
- Structure de l'étude
- Définition du problème
- Corrélations spuriées dans les ensembles de données NLP
- Méthodes de dé-biaisement
- Mesurer la robustesse du modèle
- Évaluer le biais de prédiction
- Caractéristiques biaisées et heuristiques
- Modèles évalués
- Baseline de dé-biaisement : Resampling
- Évaluer les méthodes de dé-biaisement
- Impact du pré-entraînement
- Biais de prédiction des modèles OOD
- Impact du dé-biaisement
- Considérations pratiques pour le dé-biaisement
- Conclusion
- Source originale
- Liens de référence
Les grands modèles de langage (LLMs) ont vraiment pris de l'ampleur pour comprendre et générer le langage humain. Ils s'en sortent bien sur plein de tâches, comme répondre à des questions, analyser des sentiments ou déterminer si une affirmation découle d'une autre. Mais des études récentes montrent que ces modèles peuvent parfois se fier à des schémas dans les données d'entraînement qui ne représentent pas vraiment ce qu'ils essaient de résoudre. Ça peut mener à des conclusions trompeuses sur leurs capacités.
Quand ils testent l'efficacité de ces modèles, les chercheurs les comparent souvent à de nouveaux ensembles de données pour voir s'ils performent mieux ou moins bien. Cependant, ces nouveaux ensembles peuvent encore avoir certains des mêmes problèmes que ceux trouvés dans les données d'entraînement, ce qui mène à des scores de performance gonflés. Pour y remédier, on propose une méthode simple pour vérifier dans quelle mesure un modèle dépend de caractéristiques spécifiques qui peuvent mener à des résultats incorrects.
Mesurer la fiabilité
Dans cette approche, on évalue à quel point les modèles dépendent de caractéristiques qui ne reflètent pas vraiment le problème. On analyse plusieurs biais connus ainsi que quelques nouveaux dans le contexte des questions-réponses (QA). Notre objectif est de voir dans quelle mesure les différents modèles gèrent ces biais et si les méthodes actuelles pour les contrer sont efficaces.
Notre analyse montre que même si certaines méthodes peuvent réduire la dépendance d'un modèle à une caractéristique trompeuse spécifique, cela ne mène pas toujours à une meilleure performance sur les nouveaux ensembles de données. Parfois, compter sur ces caractéristiques trompeuses peut même entraîner une augmentation inattendue des performances sur des ensembles de données Hors distribution.
Contexte
Avant de plonger dans les détails de notre méthode proposée, il est important de comprendre le contexte. Les avancées des LLMs les ont rendus très précis pour des tâches complexes. Pourtant, les résultats de travaux précédents montrent que ces performances proviennent souvent de l'utilisation de schémas non représentatifs trouvés dans leurs données d'entraînement. Par exemple, dans la tâche d'inférence en langage naturel (NLI), les modèles peuvent se fier à l'overlap des mots pour décider si une affirmation est vraie par rapport à une autre. De même, dans les tâches de QA, les modèles pourraient supposer que les questions et leurs réponses utilisent un vocabulaire similaire.
Ça soulève la question de comment améliorer la fiabilité de ces modèles. Les gens évaluent souvent leur robustesse en vérifiant la performance sur différents ensembles de données. Cependant, si ces nouveaux ensembles partagent des biais similaires aux données d'entraînement originales, cela peut mener à des taux de succès trompeurs.
Cadre proposé
Pour s'attaquer à ce problème, on propose une nouvelle méthode pour évaluer la dépendance des modèles à des caractéristiques biaisées spécifiques. Notre méthode consiste à séparer les données d'évaluation en deux groupes selon une caractéristique biaisée choisie. On compare ensuite la performance des modèles sur ces deux groupes. De cette façon, on peut évaluer dans quelle mesure le modèle dépend de certains biais lorsqu'il fait des prédictions.
En plus, on examine l'efficacité des techniques de dé-biaisement à la pointe de la technologie pour réduire la dépendance à des caractéristiques trompeuses. On se concentre sur la relation entre la performance du modèle sur les nouveaux ensembles de données et sa dépendance à ces caractéristiques trompeuses.
Résultats
Nos résultats indiquent que simplement éviter la dépendance à des caractéristiques trompeuses ne garantit pas une meilleure performance sur les nouveaux ensembles de données. Dans certains cas, des modèles qui deviennent moins dépendants de certaines caractéristiques peuvent voir leur performance globale chuter sur des ensembles de données hors distribution. Fait intéressant, il existe des instances où une augmentation de la dépendance à ces caractéristiques trompeuses pourrait en réalité améliorer la performance sur ces ensembles.
En évaluant le biais de prédiction de divers modèles entraînés sur différents ensembles de données, nous confirmons que même les modèles formés sur des ensembles censés être plus difficiles montrent toujours une dépendance à ces caractéristiques trompeuses. Cela suggère que ces biais ne sont pas limités à un seul ensemble de données, mais sont partagés à travers différentes tâches de QA.
Structure de l'étude
On commence cette étude en passant en revue les biais communs trouvés dans les ensembles de données de traitement du langage naturel (NLP), en regardant les méthodes de dé-biaisement actuelles, et en discutant des travaux précédents qui se concentrent sur la mesure de l'inclinaison vers des corrélations trompeuses. Ensuite, on détaille notre propre méthode pour mesurer la signification de biais spécifiques. Puis on décrit notre configuration d'évaluation, y compris les méthodes de dé-biaisement testées et les caractéristiques biaisées que nous avons examinées. Après ça, on mesure et rapporte à quel point les modèles sont robustes face à ces biais et aux ensembles de données hors distribution avant et après avoir appliqué les méthodes de dé-biaisement sélectionnées. Pour finir, on résume nos résultats.
Définition du problème
Étant donné un ensemble de données avec des entrées et des étiquettes correspondantes, un modèle apprend à mapper chaque entrée à une étiquette. Pour que ce mapping soit efficace, les caractéristiques que le modèle apprend doivent être cohérentes avec les données d'entraînement et le contexte réel dans lequel il cherche à opérer. Cependant, s'il y a des paires d'entrées qui pourraient être valides pour une tâche mais ne correspondent pas aux caractéristiques apprises, elles peuvent être considérées comme des caractéristiques spuriées ou biaisées. La dépendance du modèle à ces caractéristiques spuriées entraîne ce qu'on appelle le biais de prédiction.
Corrélations spuriées dans les ensembles de données NLP
Des travaux précédents analysant les LLMs ont découvert de nombreuses fausses hypothèses que ces modèles font pendant la prédiction. Pour des tâches comme la NLI, les modèles dépendent souvent fortement de mots partagés et de structures syntaxiques entre paires de phrases. Par exemple, la présence de vocabulaire similaire peut amener le modèle à conclure à tort si une phrase découle d'une autre.
Dans le contexte de la QA, les modèles peuvent se fier à la proximité des mots de la question et de la réponse, ce qui peut les rendre vulnérables à des échantillons qui ne suivent pas ce schéma. Certaines études ont montré que les modèles pourraient supposer que les réponses apparaissent près du début du contexte, ce qui entraîne encore plus de prédictions erronées.
Une façon de contrebalancer ces biais est la collecte de Données adversariales, où des ensembles de données sont créés dans le but de défier les modèles biaisés. Cependant, il y a des inquiétudes quant au fait que les modèles formés sur ces données adversariales peuvent ne pas bien performer sur d'autres ensembles ou introduire de nouveaux biais.
Nos expériences montrent que former des modèles sur des ensembles de données collectées de manière adverse peut être l'une des méthodes les plus efficaces pour réduire les biais de prédiction connus.
Méthodes de dé-biaisement
Il existe des méthodes établies visant à s'attaquer aux biais des ensembles de données pendant le processus d'entraînement. Certaines techniques consistent à former d'abord un modèle biaisé, puis à former un modèle plus robuste qui complète le biaisé. D'autres utilisent des techniques de régularisation pour diminuer la confiance des prédictions faites sur des échantillons biaisés.
Une autre approche est l'optimisation robuste distributionnelle, qui segmente les données en groupes et minimise le risque dans le pire des cas sur tous les groupes. Notre méthode de mesure des biais est étroitement liée à cette approche basée sur des groupes et peut aider à quantifier le risque par groupe.
Mesurer la robustesse du modèle
La plupart des travaux se concentrant sur l'amélioration de la robustesse des modèles évaluent la performance sur des ensembles de données hors distribution. Dans certains cas, des ensembles de données spécialisés sont construits pour exploiter les biais communs pour certaines tâches.
Notre méthode d'évaluation du biais de prédiction suit une approche similaire, mais offre une mesure plus fiable grâce à des techniques de bootstrap qui atténuent le caractère aléatoire des résultats. Comparés aux études précédentes, nous évaluons la dépendance des modèles à sept types de caractéristiques trompeuses, rendant nos conclusions globales plus fiables.
Évaluer le biais de prédiction
Pour vérifier à quel point un modèle est sensible à une caractéristique trompeuse connue, on suit une série d'étapes. D'abord, on identifie un attribut qui correspond à la caractéristique que l'on soupçonne d'être non représentative. Ensuite, on calcule cet attribut pour chaque échantillon dans l'ensemble de données d'évaluation. On choisit alors un seuil pour séparer l'ensemble de données en deux segments en fonction de cet attribut. Enfin, on évalue le modèle sur les deux segments et mesure la différence de performance, ce qu'on appelle le biais de prédiction.
Utiliser des méthodes d'évaluation par bootstrap aide à réduire l'influence du hasard, permettant une comparaison plus claire des intervalles de confiance. On optimise la valeur seuil pour maximiser la distance mesurée entre les deux groupes de performance.
Il est également important de noter que notre mesure ne doit pas être utilisée isolément mais plutôt avec une évaluation régulière en distribution. Réduire le biais de prédiction ne signifie pas forcément une meilleure performance sur la tâche générale, car réduire la dépendance à une caractéristique biaisée pourrait entraîner une dégradation de la performance sur le sous-ensemble plus fort.
Caractéristiques biaisées et heuristiques
Dans notre travail, nous identifions plusieurs caractéristiques biaisées sur lesquelles les modèles pourraient compter durant les tâches de QA. Ces caractéristiques peuvent inclure la proximité des mots, le chevauchement lexical, la position des réponses, et la longueur des réponses.
Par exemple, les modèles peuvent supposer que la réponse est située près de la question dans le contexte, ou que les réponses sont souvent courtes. En examinant ces biais, on peut mettre en place des heuristiques pour calculer dans quelle mesure ils impactent la performance du modèle.
On introduit également de nouvelles caractéristiques biaisées dont on soupçonne qu'elles pourraient avoir des effets significatifs. Par exemple, on examine la présence d'entités nommées dans le contexte de la question, et comment la position du sujet de la question se rapporte à la réponse.
Modèles évalués
Pour évaluer l'impact de différentes stratégies de pré-entraînement sur la robustesse des modèles, on affîne une variété de LLMs pré-entraînés pour la tâche de QA extractive. Cette sélection de modèles nous permet de voir comment divers facteurs, tels que le volume de données de pré-entraînement et la taille du modèle, influencent la robustesse.
On vérifie également le biais de prédiction des modèles qui utilisent l'apprentissage en contexte sans affinement, ainsi que des modèles qui ont été formés sur plusieurs tâches simultanément.
Baseline de dé-biaisement : Resampling
Notre méthode de base consiste à rééchantillonner le groupe sous-représenté jusqu'à ce que les deux groupes soient également représentés. Cela montre comment simplement équilibrer l'ensemble de données peut aider à réduire le biais.
Bien que cette méthode ReSam réduise systématiquement les biais dans différentes situations, les variations de performance sur des ensembles de données hors distribution peuvent différer selon le biais traité. Cela signifie que corriger un type de biais peut aider dans certaines tâches, mais être moins efficace dans d'autres.
Évaluer les méthodes de dé-biaisement
On analyse l'efficacité des différentes méthodes de dé-biaisement pour réduire le biais de prédiction dans les modèles sélectionnés. En évaluant ces méthodes, on suit la performance résultante sur divers ensembles de données hors distribution.
Par exemple, la méthode LearnedMixin combine un modèle biaisé avec un modèle dé-biaisé pour obtenir une sortie pondérée. Pendant ce temps, une méthode appelée Confidence Regularization cherche à réduire les scores prédit pour les échantillons biaisés.
À travers ces évaluations, nous déterminons quelles méthodes réussissent à atténuer la dépendance aux caractéristiques trompeuses tout en considérant leur impact sur la performance globale.
Impact du pré-entraînement
On constate que l'utilisation de données de pré-entraînement plus étendues aide généralement les modèles à moins dépendre des caractéristiques trompeuses. Cependant, les différences de performance basées sur les objectifs de pré-entraînement peuvent être moins claires. Par exemple, les modèles plus grands semblent également obtenir de meilleurs résultats dans la réduction du biais de prédiction.
Il est intéressant de noter que les modèles utilisant l'affinement génératif peuvent surpasser d'autres sur certains ensembles de données mais peuvent encore avoir du mal à réduire la dépendance aux caractéristiques trompeuses.
Biais de prédiction des modèles OOD
On compare le biais de prédiction entre des modèles formés sur différents ensembles de données. Lors de notre évaluation, on remarque que les biais appris à partir de l'ensemble de données SQuAD se transmettent souvent aux modèles entraînés sur des ensembles de données hors distribution. Cette observation reste valide même lorsque ces ensembles n'étaient pas spécialement conçus pour exploiter ces biais.
Notamment, les modèles formés sur des données collectées de manière adverse ont tendance à montrer une réduction de la dépendance aux mêmes caractéristiques trompeuses identifiées dans SQuAD, ce qui soutient l'efficacité des méthodes d'entraînement adversarial.
Impact du dé-biaisement
En évaluant les résultats des différentes méthodes de dé-biaisement, on trouve des incohérences dans leur efficacité à éliminer la dépendance aux caractéristiques trompeuses. Fait intéressant, la méthode ReSam semble offrir des réductions constantes partout.
On remarque également que la mise en œuvre d'une méthode de dé-biaisement peut involontairement augmenter la dépendance à d'autres biais, suggérant une interaction complexe entre différents types de biais qui mérite une étude plus approfondie.
Considérations pratiques pour le dé-biaisement
Bien que nos résultats indiquent que les méthodes de dé-biaisement peuvent effectivement améliorer la performance en dehors de la distribution, le degré d'amélioration peut varier considérablement. Les configurations optimales qui fonctionnent pour un biais pourraient être médiocres pour un autre.
Dans la pratique, il devient crucial d'identifier les bons paramètres pour chaque méthode afin d'obtenir les meilleurs résultats. Cela nécessite une considération soignée non seulement du biais lui-même, mais aussi de la manière dont la méthode de dé-biaisement interagit avec le modèle.
Nos expériences montrent que la vitesse de convergence et le choix du modèle de biais affectent considérablement le succès de ces méthodes.
Conclusion
En résumé, notre recherche examine comment différentes stratégies d'entraînement impactent la dépendance des modèles à des caractéristiques trompeuses dans le contexte de la QA. Bien que nous reconnaissions l'importance croissante des évaluations hors distribution, nous insistons sur la nécessité d'une évaluation plus détaillée des caractéristiques de biais spécifiques.
Notre étude révèle que la performance de différents modèles sur de nouveaux ensembles de données reflète souvent leur dépendance aux caractéristiques biaisées. Cependant, les méthodes de dé-biaisement actuelles n'atteignent pas toujours des améliorations correspondantes dans ce domaine, indiquant que les biais peuvent être partagés à travers plusieurs ensembles de données QA.
On espère que nos idées encourageront une exploration plus poussée de la robustesse des modèles au niveau des biais spécifiques, en se dirigeant vers le développement de modèles linguistiques plus fiables.
Titre: Think Twice: Measuring the Efficiency of Eliminating Prediction Shortcuts of Question Answering Models
Résumé: While the Large Language Models (LLMs) dominate a majority of language understanding tasks, previous work shows that some of these results are supported by modelling spurious correlations of training datasets. Authors commonly assess model robustness by evaluating their models on out-of-distribution (OOD) datasets of the same task, but these datasets might share the bias of the training dataset. We propose a simple method for measuring a scale of models' reliance on any identified spurious feature and assess the robustness towards a large set of known and newly found prediction biases for various pre-trained models and debiasing methods in Question Answering (QA). We find that while existing debiasing methods can mitigate reliance on a chosen spurious feature, the OOD performance gains of these methods can not be explained by mitigated reliance on biased features, suggesting that biases are shared among different QA datasets. Finally, we evidence this to be the case by measuring that the performance of models trained on different QA datasets relies comparably on the same bias features. We hope these results will motivate future work to refine the reports of LMs' robustness to a level of adversarial samples addressing specific spurious features.
Auteurs: Lukáš Mikula, Michal Štefánik, Marek Petrovič, Petr Sojka
Dernière mise à jour: 2024-02-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.06841
Source PDF: https://arxiv.org/pdf/2305.06841
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://2023.emnlp.org/calls/main_conference_papers/#cross-submission-policy-with-arr
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://tex.stackexchange.com/questions/507795/revtex-multiple-authors-with-no-affiliations-how-to-put-equal-contribution-as
- https://openreview.net/pdf?id=EWHxn--JM-
- https://github.com/MIR-MU/isbiased
- https://www.tablesgenerator.com/
- https://arxiv.org/pdf/2206.14486.pdf
- https://www.overleaf.com/project/60e1ff012f1f0c3fdbe79b15