Façonner la langue pour tous : Le défi de l'égalité des genres
Promouvoir l'inclusivité grâce à un langage neutre en écriture et en traduction.
Simona Frenda, Andrea Piergentili, Beatrice Savoldi, Marco Madeddu, Martina Rosola, Silvia Casola, Chiara Ferrando, Viviana Patti, Matteo Negri, Luisa Bentivogli
― 8 min lire
Table des matières
- Le défi de la génération inclusive
- Tâche 1 : Trouver des expressions genrées
- Tâche 2 : Réécrire pour l'équité
- Tâche 3 : Traduction équitable
- Ensembles de données pour le défi
- Évaluation des modèles
- Limitations du défi
- Considérations éthiques
- Le paradigme du schwa-simple
- Conclusion
- Source originale
- Liens de référence
Le Langage inclusif, c’est tout pour s’assurer que tout le monde se sente inclus, peu importe son genre. C’est utiliser des mots qui ne favorisent pas un genre par rapport à un autre. Ça devient super délicat dans des langues comme l’italien, où les mots ont des formes de genre spécifiques. Tu te demandes peut-être, "Pourquoi c’est important ?" Eh bien, les mots façonnent nos pensées, nos perceptions, et même notre monde. Utiliser un langage équitable aide tout le monde à se sentir représenté et valorisé.
Le défi de la génération inclusive
Pour promouvoir l’utilisation d’un langage équitable, il y a un défi qui se concentre sur l’identification et la transformation des expressions biaisées dans l’écriture. Ce défi a trois tâches clés :
- Trouver des expressions genrées : La première tâche est de repérer ces phrases genrées qui se cachent dans les phrases.
- Réécrire pour l'équité : La deuxième tâche est de changer de manière créative ces phrases en alternatives neutres.
- Traduction équitable : La dernière tâche est de s'assurer que les traductions de l'anglais vers l'italien maintiennent la neutralité de genre quand c'est nécessaire.
Voyons chaque tâche de plus près.
Tâche 1 : Trouver des expressions genrées
Dans la première tâche, les participants doivent identifier les phrases spécifiques au genre dans des phrases italiennes. Par exemple, si quelqu’un dit "i cittadini" pour parler d’un groupe mixte, c’est pas très inclusif. Au lieu d’utiliser des termes masculins pour un groupe mixte, on veut des phrases qui reconnaissent tout le monde.
Donc, le défi, c’est d’entraîner les systèmes à repérer les phrases qui ne mettent en avant qu’un genre, que ce soit de manière évidente ou subtile. Ça implique de regarder diverses formes comme :
- Masculin/Féminin surétendu : Utiliser un terme genré pour décrire plusieurs personnes, comme dire "les citoyens" en utilisant uniquement la forme masculine.
- Termes génériques : Utiliser des termes masculins pour désigner tout le monde, comme "le candidat" pour dire n'importe quel candidat, peu importe le genre.
- Genre incongru : Utiliser un terme de genre qui ne correspond pas à la personne référée, comme appeler une femme "professore" (un terme masculin).
Tâche 2 : Réécrire pour l'équité
Après avoir repéré les expressions genrées dans la première tâche, il est temps de faire preuve d’un peu de créativité dans la deuxième tâche. Ici, les participants doivent réécrire ces phrases en langage inclusif. Il y a deux stratégies principales :
-
Obscurcissement conservateur : Cette approche évite complètement de mentionner le genre. Par exemple, au lieu de dire "i professori" (les professeurs), on pourrait dire "il corpo docente" (le corps enseignant).
-
Obscurcissement innovant : Cette stratégie propose de nouveaux termes amusants qui sont neutres. Imagine appeler un professeur "lǝ professorǝ" au lieu d'utiliser des termes clairement masculins ou féminins.
En transformant les expressions genrées en langage équitable, cette tâche vise à rendre la communication plus inclusive.
Tâche 3 : Traduction équitable
La dernière tâche adopte une approche bilingue. Elle examine comment les traductions de l’anglais vers l’italien peuvent garder les choses équitables. Disons que tu as la phrase "Je suis content de connaître des médecins aussi compétents." Dans ce cas, une traduction idéale serait "Sono felice di conoscere un personale medico così preparato," qui évite de mettre l’accent sur le genre.
Cette tâche met au défi les systèmes de gérer à la fois des traductions genrées et non genrées de manière appropriée. Parfois, le genre est clair et doit être utilisé, alors que d'autres fois, il doit être complètement évité. Un équilibre délicat, un peu comme marcher sur un fil tout en jonglant !
Ensembles de données pour le défi
Pour faire de ce défi une réalité, plusieurs ensembles de données ont été rassemblés. Chacun fournit des exemples pour que les modèles puissent apprendre.
-
GFL-it Corpus : Cette collection inclut des textes italiens provenant de documents officiels. Les annotateurs ont marqué les sections contenant des expressions genrées, ce qui facilite l'apprentissage des modèles.
-
GeNTE : Cet ensemble de test bilingue aide avec les traductions neutres. Il comprend des phrases anglaises accompagnées de traductions italiennes genrées et non genrées. L’objectif est de voir si les modèles peuvent naviguer correctement entre ces formes.
-
Neo-GATE : Comme GeNTE, cet ensemble se concentre sur des termes neutres innovants. Il comprend des phrases anglaises qui ne révèlent pas le genre, permettant des traductions créatives en italien.
Ces ensembles de données sont essentiels pour former des systèmes et améliorer leur compréhension du langage inclusif.
Évaluation des modèles
Au fur et à mesure que les participants s’engagent dans les tâches, leurs résultats sont évalués selon des critères spécifiques. Pour la tâche 1, les modèles sont notés sur leur capacité à identifier les expressions genrées en utilisant une méthode appelée F1-score, qui mesure l’exactitude. Plus il y a de correspondances correctes avec les annotations, mieux c’est.
Pour la tâche 2, l'accent est mis sur un classificateur qui détermine si les phrases reformulées sont neutres ou non. Le pourcentage de bonnes étiquettes aide à évaluer la performance.
Dans la tâche 3, l'accent est de nouveau mis sur les traductions. Les modèles doivent décider quand utiliser des termes genrés et quand s’en tenir à un langage neutre. Cela aide à garder la conversation équitable et inclusive.
Limitations du défi
Bien que le défi soit conçu pour promouvoir un langage inclusif, il n’est pas sans défauts. Les ensembles de données ne couvrent que des domaines spécifiques, comme des documents officiels ou des contextes institutionnels précis. Cela signifie que des recherches futures pourraient bénéficier d’une gamme plus large de sources et de perspectives.
De plus, les approches actuelles des métriques et de l’évaluation ne sont peut-être que le début. Des méthodes plus raffinées devraient être explorées pour évaluer les modèles de manière approfondie. Il y a aussi le fait que seul un type de terme neutre est utilisé, comme le schwa-simple. Un monde de possibilités existe pour exprimer des idées neutres en genre.
Considérations éthiques
Le défi soulève des questions éthiques importantes. En travaillant à réduire le langage biaisé par le genre, l’objectif est d’élever les voix de ceux qui sont souvent ignorés. Mais l’équipe derrière cet effort reconnaît ses lacunes, comme un déséquilibre dans leur groupe d’annotateurs.
De plus, il y a une préoccupation valable concernant l'accessibilité. Certaines personnes pourraient trouver difficile de lire des termes utilisant des marqueurs innovants neutres, en particulier celles ayant des difficultés de lecture. Cependant, il y a de la place pour la flexibilité. Les individus peuvent choisir les termes qui leur conviennent le mieux, permettant une expérience plus conviviale.
Le paradigme du schwa-simple
Un outil créatif dans la boîte à outils du langage neutre est le paradigme du schwa-simple. Cette méthode remplace les termes traditionnellement genrés par un espace réservé, offrant de la flexibilité. Voici comment ça fonctionne :
- Les termes masculins comme "professore" peuvent être remplacés par "professorǝ" pour inclure tout le monde, qu'ils soient masculins, féminins ou non binaires.
- Le paradigme comprend une variété de formes pour couvrir de nombreuses situations, offrant des options qui peuvent être adaptées à différents contextes.
Ce paradigme est une façon ludique de remettre en question les normes linguistiques conventionnelles et d'inspirer l'inclusivité.
Conclusion
La poussée pour un langage équitable n’est pas juste un sujet à la mode ; c’est un mouvement significatif vers l'inclusivité et la représentation. En identifiant, réécrivant et traduisant le langage pour qu'il soit équitable pour tous les genres, nous aidons à façonner un monde où chacun se sent reconnu et valorisé.
En gros, ce défi vise à briser les barrières du langage et à créer un espace de communication plus équitable. Et même si des défis demeurent, les progrès réalisés sont un pas dans la bonne direction. Qui aurait cru que les mots pouvaient faire une si grande différence ?
Titre: GFG -- Gender-Fair Generation: A CALAMITA Challenge
Résumé: Gender-fair language aims at promoting gender equality by using terms and expressions that include all identities and avoid reinforcing gender stereotypes. Implementing gender-fair strategies is particularly challenging in heavily gender-marked languages, such as Italian. To address this, the Gender-Fair Generation challenge intends to help shift toward gender-fair language in written communication. The challenge, designed to assess and monitor the recognition and generation of gender-fair language in both mono- and cross-lingual scenarios, includes three tasks: (1) the detection of gendered expressions in Italian sentences, (2) the reformulation of gendered expressions into gender-fair alternatives, and (3) the generation of gender-fair language in automatic translation from English to Italian. The challenge relies on three different annotated datasets: the GFL-it corpus, which contains Italian texts extracted from administrative documents provided by the University of Brescia; GeNTE, a bilingual test set for gender-neutral rewriting and translation built upon a subset of the Europarl dataset; and Neo-GATE, a bilingual test set designed to assess the use of non-binary neomorphemes in Italian for both fair formulation and translation tasks. Finally, each task is evaluated with specific metrics: average of F1-score obtained by means of BERTScore computed on each entry of the datasets for task 1, an accuracy measured with a gender-neutral classifier, and a coverage-weighted accuracy for tasks 2 and 3.
Auteurs: Simona Frenda, Andrea Piergentili, Beatrice Savoldi, Marco Madeddu, Martina Rosola, Silvia Casola, Chiara Ferrando, Viviana Patti, Matteo Negri, Luisa Bentivogli
Dernière mise à jour: 2024-12-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.19168
Source PDF: https://arxiv.org/pdf/2412.19168
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://github.com/simonasnow/GFL-it-Dataset
- https://huggingface.co/datasets/FBK-MT/GeNTE
- https://huggingface.co/datasets/FBK-MT/Neo-GATE
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct
- https://huggingface.co/spaces/evaluate-metric/bertscore
- https://creativecommons.org/licenses/by-sa/4.0/deed.it
- https://github.com/borisveytsman/acmart
- https://www.ctan.org/tex-archive/macros/latex/contrib/els-cas-templates
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq