S'attaquer aux préjugés de genre dans la traduction automatique
Une nouvelle ressource vise à s'attaquer à l'ambiguïté de genre dans les systèmes de traduction.
― 9 min lire
Table des matières
- Qu'est-ce que GATE ?
- L'Importance du Genre en Traduction
- Le Défi du Marquage de Genre Arbitraire
- Construction du Corpus GATE
- Défis de Traduction
- Évaluation des Systèmes de Traduction
- Considérations Linguistiques
- Coréférence et Accord de Genre
- Le Rôle des Génériques de Genre
- Travaux Connexes et Directions Futures
- Conclusion
- Source originale
- Liens de référence
Ces derniers temps, il y a eu pas mal d'améliorations dans la façon dont les machines traduisent des phrases qui indiquent clairement le genre, comme "il est enseignant" ou "elle est médecin." Cependant, traduire des phrases où le genre n'est pas clair reste un gros défi. Quand la phrase originale ne précise pas le genre, les systèmes de traduction automatique ont souvent tendance à se fier à des rôles de genre traditionnels, ce qui peut créer des biais. Par exemple, une phrase qui pourrait faire référence à un homme ou une femme peut être traduite automatiquement en utilisant des termes masculins, ce qui peut renforcer des stéréotypes de genre.
Pour résoudre ce problème, de nouveaux systèmes appelés "réécrivains de genre" ont été créés. Ces systèmes visent à prendre une phrase traduite d'une manière et à fournir des traductions alternatives qui reflètent différentes interprétations de genre. Cependant, ces systèmes ont souvent du mal avec la variété des langues et peuvent manquer certains détails linguistiques importants. Pour améliorer ces systèmes, nous avons créé une nouvelle ressource appelée GATE, qui comprend des exemples de phrases pouvant être traduites de plusieurs manières, selon le genre.
Qu'est-ce que GATE ?
GATE signifie "Exemples de Traduction Ambigus en Genre." Il s'agit d'une collection de phrases dont le genre est flou et montre comment ces phrases peuvent être traduites en trois langues romanes différentes : espagnol, français et italien. Chaque phrase originale en anglais a été associée à plusieurs traductions qui reflètent différentes affectations de genre pour le même concept. Cet ensemble diversifié d'exemples aidera les chercheurs à développer de meilleurs systèmes de réécriture de genre et à améliorer la qualité globale de la traduction.
L'Importance du Genre en Traduction
Les langues expriment le genre de différentes manières. Par exemple, en anglais, le mot "infirmière" peut désigner un homme ou une femme. Cependant, en espagnol, il y a deux mots différents pour désigner une infirmière : "enfermera" pour les femmes et "enfermero" pour les hommes. Cette différence dans l'expression entraîne des défis de traduction. Quand un modèle de traduction machine rencontre un genre ambigu, il choisit souvent un genre de manière arbitraire, ce qui peut perpétuer des stéréotypes nuisibles.
Pour mettre en avant ce problème, nous avons inventé le terme "marquage de genre arbitraire" pour les situations où une traduction attribue un genre sans indication claire du texte source. Nous faisons référence aux entités dans ces cas comme des Entités Marquées de Genre Arbitraire (EMGAs).
Le Défi du Marquage de Genre Arbitraire
Le marquage de genre arbitraire est un problème important car il peut renforcer des biais sociétaux. Par exemple, si un modèle de traduction machine traduit "le chirurgien" seulement par "el cirujano" (masculin), cela suggère que les chirurgiens sont principalement des hommes, ce qui n'est pas forcément vrai. Il y a eu des progrès dans la création de systèmes qui tentent de réécrire ces traductions pour couvrir les deux options de genre, mais les modèles actuels ont souvent du mal à le faire efficacement.
L'objectif de GATE est de fournir une source d'exemples plus fiable qui inclut l'ambiguïté de genre, permettant une meilleure évaluation et amélioration des réécrivains de traduction. Chaque phrase en anglais de notre collection est accompagnée de traductions variées reflétant toutes les affectations de genre possibles.
Construction du Corpus GATE
Le corpus GATE a été soigneusement construit avec l'aide de linguistes bilingues qui connaissent bien les langues impliquées. Notre objectif était de collecter environ 2 000 exemples pour chaque langue cible, en veillant à ce que ces exemples reflètent une grande variété de structures de phrases, de longueurs et de vocabulaire.
Chaque exemple se compose d'une phrase anglaise contenant au moins une EMGA, et de traductions dans la langue cible qui correspondent à toutes les interprétations masculines et féminines possibles. Par exemple, la phrase "Je connais un turc qui vit à Paris" peut être traduite en espagnol par "Conosco una turca que vive a Parigi" (féminin) et "Conosco un turco que vive a Parigi" (masculin).
Défis de Traduction
Lors de la traduction de phrases, il est essentiel de considérer comment le genre est marqué. Dans certains cas, une seule phrase anglaise peut avoir plusieurs traductions genrées dans une autre langue. Notre corpus reflète cette complexité en présentant une gamme d'exemples qui mettent en avant la diversité de l'expression du genre à travers les langues.
Chaque exemple est annoté avec des propriétés linguistiques, telles que quels noms peuvent faire référence à un genre et leurs rôles grammaticaux dans les phrases. Cette annotation détaillée aide à garantir que les phrases dans GATE peuvent servir de cas de test efficaces pour les réécrivains de genre.
Évaluation des Systèmes de Traduction
Un des aspects clés pour développer de meilleurs systèmes de traduction est d'évaluer comment ils fonctionnent. En utilisant GATE, nous pouvons évaluer à quel point un système de traduction génère avec précision plusieurs traductions couvrant différentes affectations de genre. Lors de cette évaluation, nous nous concentrons sur l'appariement de la traduction résultante avec l'alternative genrée correcte de notre ensemble de données.
Notre méthode d'évaluation vérifie si le système de traduction a correctement transformé le genre de l'EMGA dans la phrase traduite. Nous considérons une traduction comme réussie si elle correspond correctement à l'affectation de genre souhaitée. Nous tenons également compte des cas où le système de traduction peut ne produire aucun résultat genré, ce qui peut arriver lorsqu'il n'y a pas d'EMGAs dans la phrase.
Considérations Linguistiques
En travaillant avec le genre dans les langues, il est essentiel de comprendre comment différentes langues l'expriment. Dans les langues romanes, comme l'espagnol, le français et l'italien, les noms ont un genre grammatical qui est soit masculin, soit féminin. Ce genre est souvent lié à la signification du nom, surtout lorsqu'il s'agit d'entités animées comme les personnes. Cependant, tous les noms ne marquent pas clairement le genre, entraînant des situations où un nom qui fait référence à une personne peut ne pas indiquer clairement le genre.
Par exemple, en espagnol, le mot pour "personne" est toujours féminin ("la persona"). Pourtant, à l'inverse, un mot comme "médecin" peut être traduit par "doctora" (féminin) ou "doctor" (masculin), montrant que le contexte joue un rôle important dans la détermination du genre en traduction.
Coréférence et Accord de Genre
La coréférence est un autre aspect crucial de la traduction lié au genre. Cela se produit lorsque différentes parties d'une phrase font référence à la même entité. Par exemple, dans la phrase "Mon meilleur ami est infirmier," le mot "ami" peut faire référence à une personne dont le genre est inconnu, tandis que "infirmier" peut indiquer le genre en fonction de la traduction.
Lors de la traduction, il est important de maintenir la cohérence dans l'attribution de genre à travers les mentions coréférentes. Si "ami" est référé comme une infirmière dans la traduction, alors il est attendu que "ami" soit aussi interprété comme féminin tout au long de la phrase. Ce focus sur la coréférence aide à garantir une traduction précise et cohérente.
Le Rôle des Génériques de Genre
Dans de nombreuses langues, il existe une pratique appelée "généraux masculins," où des termes masculins sont utilisés par défaut pour désigner des groupes de sexes mixtes ou lorsque le genre est inconnu. Par exemple, une phrase comme "le médecin" peut être comprise comme incluant à la fois des médecins hommes et femmes. Cependant, cette pratique peut conduire à un biais en faveur de la représentation masculine, ce qui peut poser problème.
Pour y remédier, nos linguistes ont été instruits de fournir des alternatives en utilisant des termes féminins lorsque cela est approprié, garantissant que plusieurs options de genre sont disponibles dans la traduction. Notre travail vise à promouvoir des pratiques linguistiques inclusives et à fournir une représentation égale pour tous les genres dans les textes traduits.
Travaux Connexes et Directions Futures
Il y a eu beaucoup de recherches sur les biais de genre dans la traduction automatique. Divers ensembles de défis et ensembles de données ont été créés pour évaluer à quel point les systèmes de traduction traitent les questions de genre. Ces efforts sont importants pour comprendre dans quelle mesure les systèmes de traduction reflètent des biais et stéréotypes sociétaux.
À l'avenir, nous prévoyons d'élargir le corpus GATE pour inclure d'autres langues et explorer d'autres phénomènes liés au genre dans la traduction. Un des objectifs est d'inclure des exemples qui illustrent des situations ambiguës en matière de genre tout en fournissant également des références de genre claires et non ambiguës.
De plus, nous visons à enquêter sur l'utilisation de constructions de langage neutre en matière de genre pour mieux accommoder les identités non binaires et promouvoir des pratiques linguistiques inclusives dans les systèmes de traduction.
Conclusion
Le corpus GATE est un pas significatif pour relever les défis rencontrés lors de la traduction de phrases ambiguës en genre. En fournissant un ensemble diversifié d'exemples qui reflètent diverses interprétations de genre, nous ouvrons la voie à des systèmes de traduction améliorés qui réduisent les biais et améliorent la qualité des traductions générées par machine.
Alors que la langue évolue, notre compréhension et notre approche de la représentation du genre doivent également progresser. Grâce à des recherches et un développement continus, nous espérons créer des outils de traduction plus inclusifs et précis qui représentent mieux la diversité de l'identité humaine et de l'expérience.
Titre: GATE: A Challenge Set for Gender-Ambiguous Translation Examples
Résumé: Although recent years have brought significant progress in improving translation of unambiguously gendered sentences, translation of ambiguously gendered input remains relatively unexplored. When source gender is ambiguous, machine translation models typically default to stereotypical gender roles, perpetuating harmful bias. Recent work has led to the development of "gender rewriters" that generate alternative gender translations on such ambiguous inputs, but such systems are plagued by poor linguistic coverage. To encourage better performance on this task we present and release GATE, a linguistically diverse corpus of gender-ambiguous source sentences along with multiple alternative target language translations. We also provide tools for evaluation and system analysis when using GATE and use them to evaluate our translation rewriter system.
Auteurs: Spencer Rarrick, Ranjita Naik, Varun Mathur, Sundar Poudel, Vishal Chowdhary
Dernière mise à jour: 2023-03-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.03975
Source PDF: https://arxiv.org/pdf/2303.03975
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.