Modèles de langage et expression genre-queer
Enquête sur comment les modèles de langage traitent le langage genre-queer en ligne.
― 9 min lire
Table des matières
Beaucoup de gens utilisent les réseaux sociaux pour s'exprimer et se connecter avec les autres. Cependant, certaines personnes rencontrent des défis pour être acceptées et comprises, surtout celles qui s'identifient comme genre-queer, transgenres ou non-binaires. Ces groupes utilisent souvent des mots ou des phrases spécifiques pour se décrire, qui peuvent parfois être perçus comme blessants ou nuisibles par d'autres. La façon dont les plateformes de médias sociaux surveillent et gèrent le contenu peut influencer si ces personnes se sentent en sécurité pour s'exprimer en ligne.
Des recherches récentes ont montré que les plateformes de médias sociaux pourraient injustement signaler et supprimer des publications d'utilisateurs transgenres et non-binaires, les qualifiant de nuisibles. Cette étude examine comment les modèles linguistiques, qui sont des systèmes utilisés pour identifier le Discours nuisible, traitent le langage utilisé par les personnes genre-queer. Plus précisément, nous cherchons à comprendre si ces modèles reconnaissent correctement quand des insultes ou des mots offensants sont utilisés de manière non nuisible par des membres de la communauté LGBTQ+.
Importance des Espaces en Ligne
Les plateformes en ligne offrent des espaces vitaux pour que les individus explorent leur identité et trouvent du soutien. Pour beaucoup de personnes genre-queer, qui font souvent face à la discrimination dans leur vie quotidienne, ces communautés en ligne peuvent être cruciales pour la santé mentale et le bien-être. Quand la Modération de contenu est faite efficacement, cela peut créer des environnements sûrs qui protègent les utilisateurs du harcèlement. Cependant, si les systèmes de modération sont défaillants, cela peut entraîner une exclusion ou une discrimination accrue contre les communautés marginalisées.
La modération de contenu a traditionnellement reposé sur des modèles machine entraînés pour identifier le discours nuisible. Récemment, des modèles de langage plus grands (LLMs) ont été utilisés à cette fin parce qu'ils peuvent mieux prendre en compte le contexte des messages. Malgré cette avancée, des preuves suggèrent que ces systèmes automatisés désavantagent toujours les individus marginalisés en signalant à tort leur contenu comme nuisible.
Le Rôle des Modèles Linguistiques
Les modèles linguistiques sont des systèmes conçus pour analyser et interpréter le langage humain. Ils peuvent aider à identifier si un texte est nuisible ou toxique. Cependant, ces modèles semblent rencontrer des difficultés pour reconnaître les expressions et dialectes uniques utilisés par les individus genre-queer. La manière dont ces individus récupèrent des termes péjoratifs peut souvent être mal interprétée par des systèmes automatisés, entraînant des classifications incorrectes.
Cet article se concentre sur la compréhension de la façon dont ces modèles linguistiques gèrent le langage utilisé par les individus genre-queer, notamment en ce qui concerne les insultes récupérées. Les insultes récupérées sont des termes qui ont historiquement été utilisés pour rabaisser un groupe, mais qui sont fièrement utilisés par des membres de ce groupe pour affirmer leur identité. Par exemple, des mots comme "queer" et "femboy" peuvent porter un sentiment de fierté au sein des communautés LGBTQ+, malgré leurs origines péjoratives.
Création de Jeu de Données
Pour étudier ce problème, nous avons créé un nouveau jeu de données composé d'exemples où les insultes récupérées sont utilisées de manière non péjorative. Nous avons rassemblé plus de 100 exemples, ce qui nous a permis d'examiner à quel point les modèles linguistiques classifient bien ces instances. Chaque exemple a été noté en fonction de s'il pouvait être considéré comme nuisible, en tenant compte du contexte et de l'identité de la personne utilisant le langage.
Nous avons ensuite évalué cinq modèles linguistiques différents pour voir à quel point ils pouvaient identifier avec précision le discours nuisible lorsqu'on leur fournissait un contexte supplémentaire. L'objectif était de voir si des informations supplémentaires sur l'orateur pouvaient aider les modèles à mieux comprendre l'intention derrière les mots.
Résultats
Notre analyse a révélé que les modèles linguistiques étiquetaient souvent à tort les textes écrits par des utilisateurs genre-queer comme nuisibles. En fait, dans tous les modèles testés, la performance pour identifier correctement les textes de ces individus était très faible. Cela indique que les modèles signalaient systématiquement le discours non nuisible comme toxique, ce qui pourrait contribuer à une marginalisation accrue de ces communautés.
Même lorsque les modèles étaient avertis que l'auteur était membre du groupe ciblé, leur performance ne s'est pas beaucoup améliorée. Cela montre une tendance dangereuse où les modèles linguistiques ne parviennent pas à s'adapter aux expressions nuancées d'identité et de communauté qui existent au sein de l'espace LGBTQ+.
L'Importance du Contexte
Comprendre le langage nécessite plus que de reconnaître des mots spécifiques. Le contexte joue un rôle important dans la façon dont le langage est interprété. Quand une personne genre-queer utilise une insulte pour se décrire ou décrire ses expériences, c'est souvent fait d'une manière qui n'est pas nuisible. Cependant, les modèles linguistiques peuvent ne pas tenir compte de la nuance et de l'intention derrière ces mots.
Beaucoup de plateformes de réseaux sociaux utilisent actuellement des systèmes basés sur des mots-clés pour filtrer le contenu nuisible, ce qui peut conduire à des classifications erronées. Par exemple, si un modèle voit une insulte dans un tweet, il peut automatiquement la considérer comme nuisible sans tenir compte du contexte dans lequel elle a été utilisée. Cette dépendance aux mots-clés néglige la complexité du langage humain et les riches significations derrière certains termes au sein de communautés spécifiques.
Biais dans la Modération de Contenu
Les systèmes automatisés de modération de contenu ont montré des biais contre les populations marginalisées. Les recherches indiquent que le contenu publié par des individus transgenres est souvent signalé comme toxique à des taux plus élevés par rapport aux publications d'autres groupes démographiques. Cela entraîne un silence ou un rejet des individus LGBTQ+ dans les espaces en ligne qui sont censés offrir du soutien.
De plus, lorsque le discours nuisible est identifié incorrectement, cela augmente les enjeux de l'expression et de la participation individuelles. Les utilisateurs peuvent se sentir découragés de partager leurs pensées ou leurs expériences, craignant que leurs publications soient mal interprétées et supprimées. Cela renforce les sentiments d'aliénation et d'exclusion parmi les personnes genre-queer.
Analyse du Discours Nuisible
Déterminer si un discours est nuisible peut être subjectif. Plusieurs facteurs peuvent influencer la manière dont le discours est perçu, y compris l'identité de l'orateur, le contexte du discours et le public qui le reçoit. Pour lutter contre la subjectivité de la classification des dommages, les chercheurs ont développé des cadres pour prendre en compte des facteurs tels que le groupe cible, l'explicité de l'abus et les intentions de l'orateur.
Dans notre étude, nous avons défini le discours nuisible avec des critères spécifiques. Par exemple, si un membre du groupe extérieur utilise une insulte de manière péjorative ou si quelqu'un promeut un discours de haine contre une minorité, cela serait classé comme nuisible. D'un autre côté, si un membre du groupe ciblé utilise une insulte d'une manière qui la récupère, il est moins probable qu'elle soit considérée comme nuisible.
Utilisation du Langage Genre-Queer
Le langage au sein des communautés LGBTQ+ évolue souvent pour refléter les identités et les expériences de ses membres. Par exemple, des insultes qui pourraient être nuisibles lorsqu'elles sont utilisées par des non-membres peuvent servir de forme d'empowerment quand elles sont utilisées par des individus au sein de ces communautés. Ce phénomène est connu sous le nom de récupération linguistique.
Cependant, la plupart des modèles linguistiques n'ont pas été formés pour reconnaître les subtilités de ce type d'utilisation du langage. Sans la capacité de différencier entre le discours nuisible et celui récupéré, ces modèles risquent de mal éduquer et désinformer les utilisateurs. Lorsque les voix marginalisées sont réduites au silence, cela peut avoir des conséquences considérables, éloignant encore plus ces groupes des environnements de soutien.
Conclusion
Cette étude met en avant le besoin urgent de justice et d'inclusivité dans les systèmes de modération de contenu. En révélant les biais présents dans les modèles linguistiques, nous soulignons l'importance de prendre en compte les voix des individus marginalisés dans les efforts pour affiner ces systèmes.
Pour améliorer la performance des modèles linguistiques liés à l'identification du discours nuisible, il est crucial d'incorporer les perspectives de ceux qui utilisent régulièrement des mots récupérés. S'engager avec les membres de la communauté dans le processus de formation de ces modèles pourrait conduire à des développements qui favorisent la compréhension et l'acceptation.
Alors que le langage, l'identité et la communauté continuent d'évoluer, les systèmes conçus pour interpréter et gérer notre communication doivent également évoluer. Construire des environnements en ligne inclusifs qui respectent et reconnaissent les diverses expressions des individus genre-queer conduira finalement à des espaces en ligne plus sains et plus soutenants pour tout le monde.
En développant de meilleurs modèles et outils sensibles au contexte de l'utilisation du langage, nous pouvons ouvrir la voie à un monde numérique plus équitable et juste où toutes les voix sont entendues et respectées.
Titre: Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias
Résumé: Content moderation on social media platforms shapes the dynamics of online discourse, influencing whose voices are amplified and whose are suppressed. Recent studies have raised concerns about the fairness of content moderation practices, particularly for aggressively flagging posts from transgender and non-binary individuals as toxic. In this study, we investigate the presence of bias in harmful speech classification of gender-queer dialect online, focusing specifically on the treatment of reclaimed slurs. We introduce a novel dataset, QueerReclaimLex, based on 109 curated templates exemplifying non-derogatory uses of LGBTQ+ slurs. Dataset instances are scored by gender-queer annotators for potential harm depending on additional context about speaker identity. We systematically evaluate the performance of five off-the-shelf language models in assessing the harm of these texts and explore the effectiveness of chain-of-thought prompting to teach large language models (LLMs) to leverage author identity context. We reveal a tendency for these models to inaccurately flag texts authored by gender-queer individuals as harmful. Strikingly, across all LLMs the performance is poorest for texts that show signs of being written by individuals targeted by the featured slur (F1
Auteurs: Rebecca Dorn, Lee Kezar, Fred Morstatter, Kristina Lerman
Dernière mise à jour: 2024-06-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.00020
Source PDF: https://arxiv.org/pdf/2406.00020
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/unitaryai/detoxify
- https://www.queerinai.com
- https://perspectiveapi.com/case-studies/
- https://platform.openai.com/docs/models/gpt-3-5
- https://openai.com/blog/chatgpt
- https://huggingface.co/meta-llama/Llama-2-13b-hf
- https://huggingface.co/GroNLP/hateBERT
- https://huggingface.co/mistralai/Mistral-7B-v0.1
- https://huggingface.co/meta-llama/LLaMA-2-13b-hf
- https://github.com/rebedorn/QueerReclaimLex
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://www.law.cornell.edu/wex/harassment