Moldando a Língua para Todos: O Desafio da Linguagem Neutra
Promovendo a inclusão através de uma linguagem justa de gênero na escrita e tradução.
Simona Frenda, Andrea Piergentili, Beatrice Savoldi, Marco Madeddu, Martina Rosola, Silvia Casola, Chiara Ferrando, Viviana Patti, Matteo Negri, Luisa Bentivogli
― 7 min ler
Índice
- O Desafio da Geração de Gênero Neutro
- Tarefa 1: Encontrar Expressões de Gênero
- Tarefa 2: Reescrever pra Justiça
- Tarefa 3: Tradução Justa
- Conjuntos de Dados para o Desafio
- Avaliando os Modelos
- Limitações do Desafio
- Considerações Éticas
- O Paradigma Schwa-Simple
- Conclusão
- Fonte original
- Ligações de referência
Linguagem de gênero neutro é sobre garantir que todo mundo se sinta incluído, não importa seu gênero. É usar palavras que não favorecem um gênero em detrimento do outro. Isso fica especialmente complicado em línguas como o italiano, onde as palavras têm formas específicas de gênero. Você pode perguntar: "Por que isso importa?" Bem, as palavras moldam nossos pensamentos, percepções e até nosso mundo. Usar linguagem justa ajuda todo mundo a se sentir representado e valorizado.
O Desafio da Geração de Gênero Neutro
Pra promover o uso da linguagem de gênero neutro, tem um desafio que se concentra em identificar e transformar expressões tendenciosas na escrita. Esse desafio tem três tarefas principais:
- Encontrar Expressões de Gênero: A primeira tarefa é detectar aquelas frases sneaky que têm gênero, escondidas nas sentenças.
- Reescrever pra Justiça: Na segunda tarefa, é hora de mudar essas frases criativamente pra alternativas neutras de gênero.
- Tradução Justa: A última tarefa é garantir que as traduções do inglês pro italiano mantenham a neutralidade de gênero quando necessário.
Vamos quebrar cada uma dessas tarefas.
Tarefa 1: Encontrar Expressões de Gênero
Na primeira tarefa, os participantes devem identificar frases que são específicas de gênero em sentenças italianas. Por exemplo, se alguém diz "i cittadini" pra se referir a um grupo de gêneros mistos, não é muito inclusivo. Em vez de usar termos masculinos pra um grupo misto, queremos frases que reconheçam todo mundo.
Então, o desafio é treinar sistemas pra detectar frases que destacam apenas um gênero, seja de forma clara ou sutil. Isso envolve olhar pra várias formas como:
- Masculino/Feminino Extendido: Usar um termo de um gênero pra descrever muitas pessoas, como dizer "os cidadãos" enquanto usa só a forma masculina.
- Termos Genéricos: Usar termos masculinos pra se referir a todo mundo, como "o candidato" significando qualquer candidato, independentemente do gênero.
- Gênero Incongruente: Usar um termo de gênero que não combina com a pessoa a que se refere, tipo chamar uma mulher de "professore" (um termo masculino).
Tarefa 2: Reescrever pra Justiça
Depois de detectar as expressões de gênero na primeira tarefa, é hora de soltar a criatividade na segunda. Aqui, os participantes podem reescrever aquelas frases em linguagem de gênero justo. Tem duas estratégias principais:
-
Obscuramento Conservador: Essa abordagem evita mencionar o gênero. Por exemplo, em vez de dizer "i professori" (os professores), pode-se dizer "il corpo docente" (o corpo docente).
-
Obscuramento Inovador: Essa estratégia traz novos termos divertidos que são neutros em gênero. Imagina chamar um professor de "lǝ professorǝ" em vez de usar termos claramente masculinos ou femininos.
Transformando expressões de gênero em linguagem justa, essa tarefa busca tornar a comunicação mais inclusiva.
Tarefa 3: Tradução Justa
A última tarefa adota uma abordagem bilíngue. Ela vê como as traduções do inglês pro italiano conseguem manter as coisas justas. Vamos supor que você tem a frase "Fico feliz em conhecer médicos tão conhecedores." Nesse caso, uma tradução ideal seria "Sono felice di conoscere un personale medico così preparato," que evita enfatizar o gênero.
Essa tarefa desafia os sistemas a lidar tanto com traduções de gênero quanto neutras de forma adequada. Às vezes, o gênero é claro e deve ser usado, enquanto outras vezes deve ser evitado. Um equilíbrio delicado, tipo tentar andar em uma corda bamba enquanto faz malabarismos!
Conjuntos de Dados para o Desafio
Pra fazer esse desafio acontecer, vários conjuntos de dados foram montados. Cada um oferece exemplos pros modelos aprenderem.
-
GFL-it Corpus: Essa coleção inclui textos italianos de documentos oficiais. Anotadores marcaram as partes que têm expressões de gênero, facilitando pros modelos saberem o que procurar.
-
GeNTE: Esse conjunto de testes bilíngue ajuda com traduções neutras de gênero. Inclui sentenças em inglês junto com traduções italianas de gênero e neutras. O objetivo é ver se os modelos conseguem navegar corretamente entre essas formas.
-
Neo-GATE: Assim como o GeNTE, esse conjunto foca em termos inovadores de gênero neutro. Inclui sentenças em inglês que não revelam gênero, permitindo traduções criativas em italiano.
Esses conjuntos de dados são essenciais pra treinar sistemas e melhorar sua compreensão da linguagem de gênero neutro.
Avaliando os Modelos
Enquanto os participantes se envolvem nas tarefas, seus resultados são avaliados com base em critérios específicos. Pra tarefa 1, os modelos são pontuados pela capacidade de identificar expressões de gênero usando um método chamado F1-score, que mede precisão. Quanto mais correspondências corretas com as anotações, melhor.
Pra tarefa 2, o foco muda pra um classificador que determina se as sentenças reformuladas são neutras em gênero ou não. A porcentagem de rótulos corretos ajuda a avaliar o desempenho.
Na tarefa 3, a ênfase é novamente nas traduções. Os modelos precisam decidir quando usar termos de gênero e quando ficar com uma linguagem neutra. Isso ajuda a manter a conversa justa e inclusiva.
Limitações do Desafio
Embora o desafio seja projetado pra promover linguagem de gênero neutro, ele não é isento de falhas. Os conjuntos de dados abrangem apenas áreas específicas, como documentos oficiais ou contextos institucionais. Isso significa que pesquisas futuras poderiam se beneficiar de uma gama mais ampla de fontes e perspectivas.
Além disso, as abordagens atuais para métricas e avaliação podem ser apenas o começo. Métodos mais refinados deveriam ser explorados pra avaliar os modelos de forma completa. Também há o fato de que só um tipo de termo neutro de gênero é usado, como o schwa-simples. Um mundo de possibilidades existe pra expressar ideias neutras de gênero.
Considerações Éticas
O desafio levanta questões éticas importantes. Ao trabalhar pra reduzir a linguagem tendenciosa em relação ao gênero, o objetivo é elevar as vozes de quem é frequentemente ignorado. Mas a equipe por trás desse esforço reconhece suas deficiências, como ter um desequilíbrio no grupo de anotações.
Além disso, há uma preocupação válida sobre acessibilidade. Algumas pessoas podem ter dificuldade em ler termos que usam marcadores neutros de gênero inovadores, especialmente aqueles com dificuldades de leitura. No entanto, há espaço pra flexibilidade. As pessoas podem escolher quais termos funcionam melhor pra elas, permitindo uma experiência mais amigável.
O Paradigma Schwa-Simple
Uma ferramenta criativa na caixa de ferramentas da linguagem neutra de gênero é o paradigma schwa-simples. Esse método substitui termos de gênero tradicionais por um espaço reservado, oferecendo flexibilidade. Veja como funciona:
- Termos masculinos como "professore" podem ser substituídos por "professorǝ" pra incluir todo mundo, seja masculino, feminino ou não-binário.
- O paradigma inclui uma variedade de formas pra cobrir muitas situações, oferecendo opções que podem ser adaptadas a diferentes contextos.
Esse paradigma é uma maneira divertida de desafiar as normas de linguagem convencionais e incentivar a inclusão.
Conclusão
A pressão por uma linguagem de gênero neutro é mais do que um papo da moda; é um movimento significativo em direção à inclusão e representação. Ao identificar, reescrever e traduzir a linguagem pra ser justa a todos os gêneros, estamos ajudando a moldar um mundo onde todo mundo se sinta reconhecido e valorizado.
Resumindo, esse desafio tem como objetivo quebrar barreiras na linguagem e criar um espaço de comunicação mais equitativo. E enquanto desafios permanecem, o progresso feito é um passo na direção certa. Quem diria que as palavras poderiam fazer tanta diferença?
Título: GFG -- Gender-Fair Generation: A CALAMITA Challenge
Resumo: Gender-fair language aims at promoting gender equality by using terms and expressions that include all identities and avoid reinforcing gender stereotypes. Implementing gender-fair strategies is particularly challenging in heavily gender-marked languages, such as Italian. To address this, the Gender-Fair Generation challenge intends to help shift toward gender-fair language in written communication. The challenge, designed to assess and monitor the recognition and generation of gender-fair language in both mono- and cross-lingual scenarios, includes three tasks: (1) the detection of gendered expressions in Italian sentences, (2) the reformulation of gendered expressions into gender-fair alternatives, and (3) the generation of gender-fair language in automatic translation from English to Italian. The challenge relies on three different annotated datasets: the GFL-it corpus, which contains Italian texts extracted from administrative documents provided by the University of Brescia; GeNTE, a bilingual test set for gender-neutral rewriting and translation built upon a subset of the Europarl dataset; and Neo-GATE, a bilingual test set designed to assess the use of non-binary neomorphemes in Italian for both fair formulation and translation tasks. Finally, each task is evaluated with specific metrics: average of F1-score obtained by means of BERTScore computed on each entry of the datasets for task 1, an accuracy measured with a gender-neutral classifier, and a coverage-weighted accuracy for tasks 2 and 3.
Autores: Simona Frenda, Andrea Piergentili, Beatrice Savoldi, Marco Madeddu, Martina Rosola, Silvia Casola, Chiara Ferrando, Viviana Patti, Matteo Negri, Luisa Bentivogli
Última atualização: Dec 30, 2024
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.19168
Fonte PDF: https://arxiv.org/pdf/2412.19168
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://github.com/simonasnow/GFL-it-Dataset
- https://huggingface.co/datasets/FBK-MT/GeNTE
- https://huggingface.co/datasets/FBK-MT/Neo-GATE
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct
- https://huggingface.co/spaces/evaluate-metric/bertscore
- https://creativecommons.org/licenses/by-sa/4.0/deed.it
- https://github.com/borisveytsman/acmart
- https://www.ctan.org/tex-archive/macros/latex/contrib/els-cas-templates
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq