Impact du langage inclusif sur la classification de texte
Analyser comment le langage inclusif influence les modèles linguistiques dans les tâches de classification de texte.
Andreas Waldis, Joel Birrer, Anne Lauscher, Iryna Gurevych
― 9 min lire
Table des matières
- Qu'est-ce que le Langage Inclusif ?
- Le Besoin de Recherche
- Le Jeu de Données
- Résultats de la Recherche
- Qualité des Reformulations
- Impact sur la Performance de Classification
- Traitement du Langage Inclusif par les Modèles de Langage
- Cohérence des Évaluations Existantes
- Stratégies de Langage Inclusif
- Composition et Méthodologie du Jeu de Données
- Expériences des Annotateurs
- Résultats de l'Étude
- Analyse de Performance
- Effets du Langage Inclusif
- Conclusion
- Source originale
- Liens de référence
Le Langage inclusif devient de plus en plus courant en allemand, favorisant l'inclusion en s'adressant à tous les genres ou en utilisant des formes neutres. Cependant, il n'y a pas beaucoup de ressources pour comprendre comment ce langage affecte la classification des textes lors de l'utilisation de modèles de langage (ML). Les modèles de langage sont des programmes informatiques conçus pour comprendre et générer le langage humain, mais ils n'ont peut-être pas été entraînés pour gérer ces nouvelles formes de langage.
Pour résoudre ce problème, nous avons développé un nouveau jeu de données qui comprend des textes allemands reformulés pour diverses Tâches de classification. Notre jeu de données couvre sept tâches différentes, comme la détection d'opinions et l'identification du langage toxique. Nous avons évalué 16 modèles de langage différents sur ce jeu de données et avons constaté que le langage inclusif peut changer significativement les prédictions. Parfois, cela inverse les étiquettes prédites, réduit la certitude des prédictions et modifie la façon dont les modèles se concentrent sur différentes parties du texte.
Intéressant, bien que le langage inclusif ait un fort impact sur les prédictions, les classements des modèles restent principalement les mêmes en comparant les textes originaux et les versions reformulées. Cela suggère que les méthodes actuelles d'évaluation des modèles de langage peuvent encore être valides même lors de l'application du langage inclusif.
Qu'est-ce que le Langage Inclusif ?
Le langage inclusif fait référence à l'utilisation d'un langage qui évite les Biais de genre en incluant tous les genres ou en utilisant des termes neutres. Dans des langues comme l'allemand et le français, qui ont des formes masculines et féminines, cela peut signifier utiliser à la fois des formes masculines et féminines, utiliser des symboles spéciaux ou utiliser des termes neutres. Par exemple, au lieu de dire "Konsumenten" (consommateurs), on pourrait dire "Konsumentinnen und Konsumenten" (consommateurs féminins et masculins) ou "Konsument*innen" (en utilisant un astérisque pour inclure tous les genres).
Ces changements dans le langage reflètent des évolutions sociétales vers une plus grande inclusivité. Ces changements sont reconnus par des directives formelles, comme celles du Parlement de l'UE, qui visent à traiter la discrimination de genre et à promouvoir l'égalité.
Le Besoin de Recherche
Comme les modèles de langage sont souvent entraînés sur des données plus anciennes, ils peuvent refléter des biais, y compris des biais de genre. La recherche a commencé à examiner comment le langage inclusif impacte ces modèles. La plupart des études existantes se sont concentrées sur des tâches comme la traduction, mais il manque des ressources examinant spécifiquement comment le langage inclusif influence les tâches de classification.
C'est important car nous devons savoir si les modèles de langage peuvent gérer le langage inclusif sans produire de résultats indésirables. Pour combler cette lacune, nous avons introduit un jeu de données de reformulations de haute qualité pour le texte allemand, nous permettant d'analyser comment le langage inclusif affecte les tâches de classification.
Le Jeu de Données
Nous avons créé un jeu de données comprenant 3 600 instances reformulées de texte allemand, couvrant sept tâches de classification. Notre jeu de données est basé sur des jeux de données de classification allemands bien établis qui traitent de sujets comme l'analyse de sentiments et la détection de toxicité.
Pour chaque tâche, nous avons échantillonné des exemples contenant un langage spécifique au genre et les avons reformulés en utilisant diverses stratégies de langage inclusif. Cela implique d'utiliser des amateurs et des professionnels pour garantir la qualité des reformulations.
Nous nous sommes concentrés sur quelques questions de recherche clés pour guider notre exploration :
- Les amateurs produisent-ils des reformulations de qualité en langage inclusif ?
- Quel est l'impact du langage inclusif sur les tâches de classification ?
- Comment les modèles de langage traitent-ils le langage inclusif ?
- Quelles implications pratiques se posent lors de l'interaction avec le langage inclusif dans les tâches de classification ?
Résultats de la Recherche
Qualité des Reformulations
À travers notre étude, nous avons appris que les amateurs ont souvent du mal à créer des reformulations suffisantes en langage inclusif. Ils ont fait des erreurs dans jusqu'à 31 % des cas, ce qui indique que l'utilisation du langage inclusif n'est pas encore largement standardisée. En revanche, les annotateurs professionnels étaient beaucoup meilleurs pour produire des reformulations de haute qualité.
Impact sur la Performance de Classification
Lorsque nous avons examiné comment le langage inclusif affectait les tâches de classification, nous avons observé des variations de performance. Par exemple, les résultats ont montré que l'utilisation du langage inclusif pouvait modifier la performance de la tâche jusqu'à 4 points dans certains cas. De plus, nous avons noté que le langage inclusif pouvait inverser les étiquettes jusqu'à 10.9 % du temps.
Fait intéressant, différentes stratégies avaient des effets variés. Celles qui apportaient de petits ajustements aux phrases avaient tendance à améliorer la performance, tandis que les stratégies axées sur la neutralisation du genre abaissaient souvent la performance.
Traitement du Langage Inclusif par les Modèles de Langage
Notre analyse a révélé que le langage inclusif affecte la manière dont les couches inférieures des modèles de langage traitent le texte. Nous avons observé des changements dans les schémas d'attention, indiquant que la façon dont les modèles se concentraient sur des parties du texte changeait en rencontrant le langage inclusif. De plus, nous avons constaté que la certitude des prédictions diminuait avec les reformulations en langage inclusif, suggérant que les modèles pourraient être moins sûrs de leurs prédictions lors du traitement de ce type de langage.
Cohérence des Évaluations Existantes
Malgré les changements dans les prédictions, nous avons constaté que les classements des modèles restaient constants lorsque nous évaluions les instances originales et reformulées. Cela signifie que les évaluations basées sur les ensembles de données originaux restent valides lorsqu’on introduit le langage inclusif.
Stratégies de Langage Inclusif
Nous avons identifié plusieurs stratégies pour appliquer le langage inclusif :
- Inclusion de Genre Binaire : Mentionner explicitement à la fois les formes féminines et masculines (par exemple, "Ärztinnen und Ärzte" pour "médecins").
- Inclusion de Tous les Genres : Utiliser des caractères spéciaux pour inclure tous les genres (par exemple, "Ärzt*innen").
- Neutralisation de Genre : Éviter complètement les termes spécifiques au genre (par exemple, "ärztliche Fachperson" pour "professionnel de santé").
- Neosystème : Un système qui utilise de nouveaux pronoms et formes pour créer un quatrième genre (par exemple, "de Arzte" au lieu de "der Arzt").
Chaque stratégie montre comment le langage peut traiter le genre tout en véhiculant le sens voulu.
Composition et Méthodologie du Jeu de Données
Pour créer notre jeu de données, nous avons échantillonné des instances de trois ensembles de données de classification allemande existants : Detox, GermEval-2021 et X-Stance. Nous avons cherché à garantir que ces ensembles de données offraient un mélange de tâches tout en minimisant l'effort nécessaire pour la reformulation.
Pour chaque ensemble de données, nous avons sélectionné 200 instances de test contenant au moins un terme spécifique au genre. Ensuite, des amateurs et des professionnels ont travaillé sur la reformulation de ces instances selon nos stratégies établies.
Expériences des Annotateurs
Les annotateurs amateurs étaient généralement des locuteurs natifs allemands sans formation linguistique. Ils ont évalué leur expérience avec le langage inclusif sur une échelle de 1 (aucune expérience) à 5 (professionnel). Leur moyenne était d'environ 3, indiquant une expérience modérée.
En revanche, les annotateurs professionnels avaient une solide formation linguistique et utilisaient régulièrement le langage inclusif. Leurs reformulations ont servi à valider le travail des amateurs et à garantir une haute qualité.
Résultats de l'Étude
Analyse de Performance
Nous avons soigneusement analysé la performance des modèles de langage à travers sept tâches, comparant les textes originaux aux versions reformulées. Globalement, nous avons découvert que les modèles spécialisés en allemand surpassaient constamment ceux axés sur l'anglais, particulièrement lorsqu'ils traitaient des tâches pertinentes pour la langue et la culture allemandes.
Effets du Langage Inclusif
Nous avons également identifié que le langage inclusif impacte significativement la performance globale. Par exemple, les tâches liées à la toxicité ont montré des variations notables basées sur les reformulations en langage inclusif, suggérant que même de petits changements de wording peuvent entraîner des différences substantielles dans les prédictions des modèles.
Conclusion
Notre examen complet du langage inclusif dans la classification de textes allemands a révélé des insights cruciaux. Nous avons introduit un jeu de données précieux qui améliore la compréhension de la manière dont les modèles de langage gèrent ces nouvelles formes de langage. Nos résultats ont établi que même de légers changements dans le texte peuvent significativement altérer les prédictions.
Alors que nous poursuivons cette recherche, nous voyons le potentiel d'élargir notre jeu de données pour inclure d'autres langues qui traitent également des formes de langage inclusives. Cet effort pourrait fournir une compréhension plus large de la façon dont le langage inclusif impacte les tâches de classification dans différents contextes linguistiques.
L'avenir du traitement du langage doit être sensible à ces variations à mesure que la société évolue. En abordant ces questions de front, nous pouvons créer des modèles de langage plus inclusifs et efficaces qui reflètent la diversité des utilisateurs de la langue qu'ils servent.
Titre: The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification
Résumé: Gender-fair language, an evolving German linguistic variation, fosters inclusion by addressing all genders or using neutral forms. Nevertheless, there is a significant lack of resources to assess the impact of this linguistic shift on classification using language models (LMs), which are probably not trained on such variations. To address this gap, we present Lou, the first dataset featuring high-quality reformulations for German text classification covering seven tasks, like stance detection and toxicity classification. Evaluating 16 mono- and multi-lingual LMs on Lou shows that gender-fair language substantially impacts predictions by flipping labels, reducing certainty, and altering attention patterns. However, existing evaluations remain valid, as LM rankings of original and reformulated instances do not significantly differ. While we offer initial insights on the effect on German text classification, the findings likely apply to other languages, as consistent patterns were observed in multi-lingual and English LMs.
Auteurs: Andreas Waldis, Joel Birrer, Anne Lauscher, Iryna Gurevych
Dernière mise à jour: Sep 26, 2024
Langue: English
Source URL: https://arxiv.org/abs/2409.17929
Source PDF: https://arxiv.org/pdf/2409.17929
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://tudatalib.ulb.tu-darmstadt.de/handle/tudatalib/4350
- https://github.com/hdaSprachtechnologie/detox
- https://t.co/wlZ5tmt3HJ
- https://t.co/cs5KoavBp8
- https://github.com/UKPLab/lou-gender-fair-reformulations
- https://diversifix.org/
- https://www.europarl.europa.eu/cmsdata/151780/GNL_Guidelines_EN.pdf
- https://web.archive.org/web/20240923052010/
- https://sdgs.un.org/goals/goal5
- https://web.archive.org/web/20240901180348/
- https://www.eva.mpg.de/lingua/pdf/Glossing-Rules.pdf
- https://huggingface.co/VAGOsolutions
- https://geschlechtsneutral.net/
- https://geschlechtsneutral.net
- https://huggingface.co/deepset/gbert-base
- https://huggingface.co/deepset/gbert-large
- https://huggingface.co/deepset/gelectra-base
- https://huggingface.co/deepset/gelectra-large
- https://huggingface.co/bert-base-multilingual-cased
- https://huggingface.co/FacebookAI/xlm-roberta-base
- https://huggingface.co/microsoft/mdeberta-v3-base
- https://huggingface.co/bert-base-uncased
- https://huggingface.co/roberta-base
- https://huggingface.co/microsoft/deberta-v3-base
- https://huggingface.co/TechxGenus/Meta-Llama-3-70B-Instruct-AWQ
- https://huggingface.co/TechxGenus/Meta-Llama-3-8B-Instruct-AWQ
- https://huggingface.co/mayflowergmbh/Llama-3-SauerkrautLM-8b-Instruct-AWQ
- https://huggingface.co/tresiwalde/Llama-3-SauerkrautLM-70b-Instruct-AWQ
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.ukp.tu-darmstadt.de/
- https://www.hslu.ch/
- https://huggingface.co/datasets/tresiwalde/lou