Abordando o preconceito de gênero na tradução automática
Novo recurso busca enfrentar a ambiguidade de gênero em sistemas de tradução.
― 9 min ler
Índice
- O que é GATE?
- A Importância do Gênero na Tradução
- O Desafio da Marcação de Gênero Arbitrária
- Construindo o Corpo do GATE
- Desafios na Tradução
- Avaliando Sistemas de Tradução
- Considerações Linguísticas
- Correferência e Concordância de Gênero
- O Papel dos Genéricos de Gênero
- Trabalhos Relacionados e Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Recentemente, melhorou bastante a forma como as máquinas traduzem frases que claramente indicam gênero, tipo "ele é professor" ou "ela é médica." Mas traduzir frases onde o gênero não é claro ainda é um grande desafio. Quando a frase original não especifica o gênero, os sistemas de tradução automática costumam optar por papéis de gênero tradicionais, o que pode criar preconceitos. Por exemplo, uma frase que poderia se referir a um homem ou a uma mulher pode ser traduzida automaticamente usando termos masculinos, reforçando estereótipos sobre gênero.
Para resolver esse problema, foram criados alguns sistemas novos chamados "reformuladores de gênero." Esses sistemas têm o objetivo de pegar uma frase traduzida de uma forma e oferecer traduções alternativas que reflitam diferentes interpretações de gênero. No entanto, esses sistemas frequentemente têm dificuldade com a variedade de idiomas e podem deixar passar detalhes importantes da língua. Para ajudar a melhorar esses sistemas, criamos um novo recurso chamado GATE, que inclui exemplos de frases que podem ser traduzidas de várias maneiras, dependendo do gênero.
O que é GATE?
GATE significa "Exemplos de Tradução Ambígua em Gênero." Ele consiste em uma coleção de frases que têm um gênero não claro e mostra como essas frases podem ser traduzidas em três diferentes línguas românicas: espanhol, francês e italiano. Cada frase original em inglês foi pareada com várias traduções que refletem diferentes atribuições de gênero para o mesmo conceito. Esse conjunto diverso de exemplos vai ajudar pesquisadores a desenvolver melhores sistemas de reformulação de gênero e melhorar a qualidade geral da tradução.
A Importância do Gênero na Tradução
As línguas expressam gênero de formas diferentes. Por exemplo, em inglês, a palavra "nurse" pode se referir tanto a um homem quanto a uma mulher. Mas, em espanhol, existem duas palavras diferentes para enfermeira: "enfermera" para mulheres e "enfermero" para homens. Essa diferença na expressão leva a desafios na tradução. Quando um modelo de tradução automática encontra um gênero ambíguo, ele frequentemente escolhe um gênero arbitrariamente, o que pode perpetuar estereótipos prejudiciais.
Para destacar esse problema, criamos o termo "marcação de gênero arbitrária" para situações em que uma tradução atribui gênero sem uma indicação clara do texto de origem. Chamamos as entidades nesses casos de Entidades Marcadas de Gênero Arbitrário (AGMEs).
O Desafio da Marcação de Gênero Arbitrária
A marcação de gênero arbitrária é um problema significativo porque pode reforçar preconceitos sociais. Por exemplo, se um modelo de tradução automática traduz "o cirurgião" somente como "el cirujano" (masculino), isso sugere que cirurgiões são predominantemente homens, o que não é necessariamente verdade. Já houve progresso na criação de sistemas que tentam reformular essas traduções para cobrir ambas as opções de gênero, mas os modelos atuais frequentemente têm dificuldade em fazê-lo de forma eficaz.
O objetivo do GATE é fornecer uma fonte mais confiável de exemplos que incluam ambiguidade de gênero, permitindo uma melhor avaliação e aprimoramento nos reformuladores de tradução. Cada frase em inglês da nossa coleção é pareada com várias traduções que refletem todas as possíveis atribuições de gênero.
Construindo o Corpo do GATE
O corpo do GATE foi cuidadosamente construído com a ajuda de linguistas bilíngues que conhecem bem os idiomas envolvidos. Nossa intenção era coletar cerca de 2.000 exemplos para cada idioma-alvo, garantindo que esses exemplos refletissem uma ampla variedade de estruturas de frases, comprimentos e vocabulário.
Cada exemplo consiste em uma frase em inglês contendo pelo menos um AGME, e traduções para o idioma-alvo que correspondem a todas as possíveis interpretações masculinas e femininas. Por exemplo, a frase "Eu conheço um turco que vive em Paris" pode ser traduzida para o espanhol como "Conosco uma turca que vive em Paris" (feminino) e "Conosco um turco que vive em Paris" (masculino).
Desafios na Tradução
Ao traduzir frases, é essencial considerar como o gênero é marcado. Em alguns casos, uma única frase em inglês pode ter várias traduções com gênero em outro idioma. Nosso corpo reflete essa complexidade apresentando uma variedade de exemplos que mostram a diversidade de expressão de gênero entre as línguas.
Cada exemplo é anotado com propriedades linguísticas, como quais substantivos podem se referir a gênero e seus papéis gramaticais nas frases. Essa anotação detalhada ajuda a garantir que as frases no GATE possam servir como casos de teste eficazes para reformuladores de gênero.
Avaliando Sistemas de Tradução
Um dos aspectos chave para desenvolver melhores sistemas de tradução é avaliar quão bem eles funcionam. Usando o GATE, podemos avaliar quão precisamente um sistema de tradução gera múltiplas traduções cobrindo diferentes atribuições de gênero. Ao fazer essa avaliação, focamos em combinar a tradução de saída com a alternativa de gênero correta do nosso conjunto de dados.
Nosso método de avaliação verifica se o sistema de tradução transformou com precisão o gênero do AGME na frase traduzida. Consideramos uma tradução bem-sucedida se ela corresponder corretamente à atribuição de gênero desejada. Também levamos em conta os casos em que o sistema de tradução pode não produzir nenhuma saída de gênero, o que pode acontecer quando não há AGMEs na frase.
Considerações Linguísticas
Ao trabalhar com gênero nas línguas, é essencial entender como diferentes línguas o expressam. Nas línguas românicas, como espanhol, francês e italiano, os substantivos têm um gênero gramatical que é masculino ou feminino. Esse gênero está muitas vezes ligado ao significado do substantivo, especialmente quando se refere a entidades animadas, como pessoas. No entanto, nem todo substantivo marca claramente o gênero, levando a situações em que um substantivo que se refere a uma pessoa pode não indicar o gênero claramente.
Por exemplo, em espanhol, a palavra para "pessoa" é sempre feminina ("la persona"). No entanto, em contraste, uma palavra como "médico" pode ser traduzida como "doctora" (feminino) ou "doctor" (masculino), demonstrando que o contexto desempenha um papel importante na determinação do gênero na tradução.
Correferência e Concordância de Gênero
A correferência é outro aspecto crucial da tradução relacionado ao gênero. Isso acontece quando diferentes partes de uma frase se referem à mesma entidade. Por exemplo, na frase "Meu melhor amigo é enfermeiro," a palavra "amigo" pode se referir a uma pessoa cujo gênero é desconhecido, enquanto "enfermeiro" pode indicar gênero dependendo da tradução.
Ao traduzir, é importante manter a consistência na atribuição de gênero entre menções correferentes. Se "amigo" é referido como uma enfermeira na tradução, espera-se que "amigo" também seja interpretado como feminino ao longo da frase. Esse foco na correferência ajuda a garantir uma tradução precisa e coerente.
O Papel dos Genéricos de Gênero
Em muitas línguas, existe uma prática chamada "genéricos masculinos," onde termos masculinos são usados como padrão ao se referir a grupos de gêneros mistos ou quando o gênero é desconhecido. Por exemplo, uma frase como "o médico" pode ser entendida como incluindo tanto médicos homens quanto mulheres. No entanto, essa prática pode levar a um viés em direção à representação masculina, o que pode ser problemático.
Para abordar isso, nossos linguistas foram instruídos a fornecer alternativas usando termos femininos quando apropriado, garantindo que várias opções de gênero estivessem disponíveis na tradução. Nosso trabalho visa promover práticas linguísticas inclusivas e fornecer representação igualitária para todos os gêneros nos textos traduzidos.
Trabalhos Relacionados e Direções Futuras
Já houve considerável pesquisa sobre viés de gênero em tradução automática. Vários conjuntos de desafios e conjuntos de dados foram criados para avaliar quão bem os sistemas de tradução lidam com questões de gênero. Esses esforços são importantes para entender até que ponto os sistemas de tradução refletem preconceitos e estereótipos sociais.
Avançando, planejamos expandir o corpo do GATE para incluir mais idiomas e explorar outros fenômenos relacionados ao gênero na tradução. Um dos objetivos é incluir exemplos que ilustrem situações de gênero ambíguo enquanto também fornecem referências de gênero claras e inequívocas.
Além disso, pretendemos investigar o uso de construções de linguagem neutra em gênero para acomodar melhor identidades não-binárias e promover práticas linguísticas inclusivas nos sistemas de tradução.
Conclusão
O corpo do GATE é um passo significativo para enfrentar os desafios enfrentados ao traduzir frases ambíguas em gênero. Ao fornecer um conjunto diversificado de exemplos que refletem várias interpretações de gênero, estamos pavimentando o caminho para melhorar os sistemas de tradução que reduzem o viés e aumentam a qualidade das traduções geradas por máquinas.
À medida que a linguagem evolui, nossa compreensão e abordagem sobre a representação de gênero também devem crescer. Através de pesquisas e desenvolvimentos contínuos, esperamos criar ferramentas de tradução mais inclusivas e precisas que representem melhor a diversidade da identidade e experiência humana.
Título: GATE: A Challenge Set for Gender-Ambiguous Translation Examples
Resumo: Although recent years have brought significant progress in improving translation of unambiguously gendered sentences, translation of ambiguously gendered input remains relatively unexplored. When source gender is ambiguous, machine translation models typically default to stereotypical gender roles, perpetuating harmful bias. Recent work has led to the development of "gender rewriters" that generate alternative gender translations on such ambiguous inputs, but such systems are plagued by poor linguistic coverage. To encourage better performance on this task we present and release GATE, a linguistically diverse corpus of gender-ambiguous source sentences along with multiple alternative target language translations. We also provide tools for evaluation and system analysis when using GATE and use them to evaluate our translation rewriter system.
Autores: Spencer Rarrick, Ranjita Naik, Varun Mathur, Sundar Poudel, Vishal Chowdhary
Última atualização: 2023-03-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.03975
Fonte PDF: https://arxiv.org/pdf/2303.03975
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.