Examen du biais des modèles linguistiques dans les dialectes de l'anglais
Cette étude met en avant le biais dans les modèles linguistiques qui répondent à différents dialectes de l'anglais.
― 7 min lire
Table des matières
Ces dernières années, y a eu un intérêt croissant sur comment les modèles de langage, comme ChatGPT, réagissent à différentes formes d'anglais. Ces modèles peuvent parfois montrer des biais en traitant certains dialectes, souvent ceux considérés comme "standards", plus favorablement que d'autres. Cette étude regarde comment ChatGPT interagit avec dix dialectes d'anglais, incluant des variétés standards et plusieurs non-standard, souvent parlés par des communautés plus petites ou marginalisées.
Contexte sur les Variétés de Langue
L'anglais est parlé sous plein de formes à travers le monde. Les deux dialectes standards les plus reconnus sont l'anglais américain standard (SAE) et l'anglais britannique standard (SBE). À part ça, y a plusieurs variétés non-standard largement parlées comme L'anglais afro-américain, l'anglais indien, l'anglais jamaïcain, et d'autres. Chacune de ces variétés a ses propres caractéristiques uniques, y compris vocabulaire, grammaire, et prononciation. Malheureusement, les locuteurs de ces variétés non-standard font souvent face à de la discrimination à cause de leurs dialectes.
But de l'Étude
Le but principal de cette étude est d'évaluer comment bien les modèles de langage comme ChatGPT répondent à différents dialectes. La recherche est conçue pour répondre à deux questions clés :
- Comment les réponses de ChatGPT diffèrent selon le dialecte d'anglais utilisé ?
- Ces réponses nuisent-elles aux locuteurs de variétés non-standard en promouvant des Stéréotypes ou des malentendus ?
Méthodes Utilisées dans l'Étude
Pour réaliser cette recherche, on a utilisé deux versions du modèle ChatGPT : GPT-3.5 Turbo et GPT-4. On a collecté des exemples de textes écrits par des locuteurs natifs de chaque dialecte. Le texte a ensuite été entré dans les modèles, et les réponses ont été analysées pour différentes caractéristiques et qualités linguistiques.
Les dix dialectes inclus dans cette étude sont :
- Anglais américain standard (SAE)
- Anglais britannique standard (SBE)
- Anglais afro-américain (AAE)
- Anglais indien
- Anglais irlandais
- Anglais jamaïcain
- Anglais kenyan
- Anglais nigérian
- Anglais écossais
- Anglais singapourien
Pour chaque dialecte, on a comparé les réponses générées par les modèles pour comprendre à quel point ils gardaient les caractéristiques de la langue originale et si leurs réponses transmettaient du respect et de la compréhension.
Résultats de l'Étude
Réponses aux Différents Dialectes
Les résultats montrent que ChatGPT a tendance à se tourner par défaut vers les variétés standards de l'anglais quand il génère des réponses. Il garde beaucoup de caractéristiques distinctives du SAE et SBE mais montre une réduction marquée des caractéristiques des variétés non-standard. Par exemple, les réponses au SAE avaient un taux de rétention de caractéristiques bien plus élevé par rapport aux autres dialectes. L'étude a trouvé que :
- Le SAE a gardé environ 78% de ses caractéristiques dans les réponses.
- Le SBE a gardé environ 72%.
- Les variétés non-standard avaient des taux de rétention beaucoup plus bas, certains allant jusqu'à 2-3%.
Fait intéressant, la rétention des caractéristiques des dialectes non-standard semblait corréler avec le nombre estimé de locuteurs pour chaque variété. Plus un dialecte avait de locuteurs, plus il était probable que le modèle garde ses caractéristiques. Ça encourage l'idée que des modèles comme ChatGPT sont mieux entraînés sur des ensembles de données qui contiennent beaucoup d'infos sur les variétés standards.
Évaluation de la Qualité des Réponses
On a aussi sondé des locuteurs natifs pour évaluer la qualité des réponses. Les retours ont mis en évidence plusieurs problèmes :
- Les réponses aux variétés non-standard étaient souvent vues comme plus dénigrantes et moins respectueuses.
- Les locuteurs natifs trouvaient que la compréhension des entrées était plus faible quand le modèle répondait à des variétés non-standard, avec une compréhension inférieure de 10% par rapport aux variétés standards.
- Beaucoup de réponses portaient des stéréotypes, avec une augmentation de 16% du stéréotype par rapport aux variétés standard.
Quand le modèle a été demandé d'imiter le style des dialectes non-standard, les problèmes se sont souvent aggravés. Cette imitation a encore réduit la compréhension et augmenté les stéréotypes dans les réponses.
Différences Entre GPT-3.5 et GPT-4
L'étude a aussi noté que GPT-4 montrait quelques améliorations par rapport à GPT-3.5 en termes de compréhension et de chaleur. Cependant, il a aussi entraîné une augmentation significative des stéréotypes, indiquant que même si des progrès sont réalisés dans certains domaines, ils peuvent s'accompagner de nouveaux défis.
Implications des Résultats
Les résultats de cette étude ont des implications importantes pour le développement et l'utilisation des modèles de langage. Un biais marqué en faveur des variétés standards peut renforcer les inégalités existantes et contribuer à la discrimination. Ça peut décourager les locuteurs de dialectes non-standard d'utiliser ces modèles de langage, qui devraient être accessibles à tous, peu importe leur forme d'anglais parlé.
Conclusion
Cette étude met en lumière les biais présents dans les modèles de langage lorsqu'ils interagissent avec divers dialectes d'anglais. Les résultats suggèrent que même s'il y a eu des avancées dans les capacités de modèles comme ChatGPT, des disparités significatives demeurent dans la façon dont ils servent différentes communautés linguistiques. En reconnaissant ces biais, les futurs développements peuvent viser à créer une expérience plus inclusive et équitable pour les utilisateurs à travers le monde.
Directions Futures
Des recherches supplémentaires sont nécessaires pour examiner comment les modèles de langage réagissent aux dialectes dans d'autres langues, car la question de la discrimination linguistique n'est pas limitée à l'anglais. Comprendre et atténuer le biais dans les modèles de langage devrait être une priorité pour les développeurs afin d'assurer des interactions justes et respectueuses pour tous les utilisateurs.
Remerciements
On remercie ceux qui ont contribué avec des idées et des retours tout au long de cette recherche. Leurs apports ont été inestimables pour façonner notre compréhension de comment les modèles de langage peuvent mieux servir des communautés diverses.
Limitations de l'Étude
Bien que cette étude ait fourni des aperçus importants, elle a aussi ses limitations. Les données recueillies provenaient principalement de la langue parlée informelle ou des réseaux sociaux, ce qui peut ne pas représenter pleinement les complexités de chaque dialecte. De plus, les retours ont été recueillis sur une plateforme spécifique, qui peut ne pas inclure un échantillon représentatif de tous les locuteurs des différentes variétés.
Appel à l'Action
Alors que les technologies linguistiques continuent d'évoluer, il est crucial que les parties prenantes, y compris les chercheurs, les développeurs et les utilisateurs, plaident pour des changements qui promeuvent l'équité et l'inclusivité. Aborder le biais et s'assurer que tous les dialectes sont traités avec respect aidera à favoriser un paysage plus équitable dans la technologie linguistique.
Titre: Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination
Résumé: We present a large-scale study of linguistic bias exhibited by ChatGPT covering ten dialects of English (Standard American English, Standard British English, and eight widely spoken non-"standard" varieties from around the world). We prompted GPT-3.5 Turbo and GPT-4 with text by native speakers of each variety and analyzed the responses via detailed linguistic feature annotation and native speaker evaluation. We find that the models default to "standard" varieties of English; based on evaluation by native speakers, we also find that model responses to non-"standard" varieties consistently exhibit a range of issues: stereotyping (19% worse than for "standard" varieties), demeaning content (25% worse), lack of comprehension (9% worse), and condescending responses (15% worse). We also find that if these models are asked to imitate the writing style of prompts in non-"standard" varieties, they produce text that exhibits lower comprehension of the input and is especially prone to stereotyping. GPT-4 improves on GPT-3.5 in terms of comprehension, warmth, and friendliness, but also exhibits a marked increase in stereotyping (+18%). The results indicate that GPT-3.5 Turbo and GPT-4 can perpetuate linguistic discrimination toward speakers of non-"standard" varieties.
Auteurs: Eve Fleisig, Genevieve Smith, Madeline Bossi, Ishita Rustagi, Xavier Yin, Dan Klein
Dernière mise à jour: 2024-09-17 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.08818
Source PDF: https://arxiv.org/pdf/2406.08818
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.