Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Computadores e sociedade

Modelos de Linguagem e Expressão Gênero-Queer

Investigando como modelos de linguagem lidam com linguagem de gênero não-binário online.

― 8 min ler


Viés em Modelos deViés em Modelos deLinguagemlinguagem gênero-queer online.Analisando o tratamento injusto da
Índice

Muita gente usa as redes sociais pra se expressar e se conectar com os outros. Mas, algumas pessoas enfrentam desafios pra serem aceitas e entendidas, especialmente aquelas que se identificam como gênero-não-conforme, trans ou não-binárias. Esses grupos costumam usar palavras ou frases específicas pra se descrever, que às vezes podem ser vistas como machucantes ou prejudiciais por outros. A forma como as plataformas de redes sociais monitoram e gerenciam o conteúdo pode afetar se essas pessoas se sentem seguras ao se expressar online.

Pesquisas recentes mostraram que as plataformas de redes sociais podem sinalizar e remover injustamente posts de usuários trans e não-binários, rotulando-os como prejudiciais. Este estudo investiga como modelos de linguagem, que são sistemas usados pra identificar fala prejudicial, tratam a linguagem usada por pessoas gênero-não-conforme. Especificamente, queremos entender se esses modelos reconhecem corretamente quando xingamentos ou palavras ofensivas são usadas de forma não prejudicial por membros da comunidade LGBTQ+.

Importância dos Espaços Online

As plataformas online oferecem espaços vitais pra que as pessoas explorem sua identidade e encontrem apoio. Pra muitas pessoas gênero-não-conforme, que frequentemente enfrentam discriminação na vida cotidiana, essas comunidades online podem ser cruciais pra saúde mental e bem-estar. Quando a Moderação de Conteúdo é feita de forma eficaz, ela pode criar ambientes seguros que protegem os usuários de assédio. Porém, se os sistemas de moderação são falhos, eles podem levar à exclusão ou aumento da discriminação contra comunidades marginalizadas.

A moderação de conteúdo tradicionalmente depende de modelos de máquina treinados pra identificar fala prejudicial. Recentemente, modelos de linguagem maiores (LLMs) têm sido usados pra esse propósito porque eles conseguem considerar melhor o contexto das mensagens. Apesar desse avanço, evidências sugerem que esses sistemas automatizados ainda desfavorecem indivíduos marginalizados ao sinalizar erroneamente seu conteúdo como prejudicial.

O Papel dos Modelos de Linguagem

Modelos de linguagem são sistemas projetados pra analisar e interpretar a linguagem humana. Eles podem ajudar a identificar se um texto é prejudicial ou tóxico. Porém, esses modelos parecem ter dificuldades pra reconhecer as expressões e dialetos únicos usados por indivíduos gênero-não-conforme. A maneira como essas pessoas ressignificam termos depreciativos pode frequentemente ser mal interpretada por sistemas automatizados, levando a classificações incorretas.

Este artigo foca em entender como esses modelos de linguagem gerenciam a linguagem usada por indivíduos gênero-não-conforme, especialmente em relação a xingamentos ressignificados. Xingamentos ressignificados são termos que historicamente foram usados pra menosprezar um grupo, mas que estão sendo usados com orgulho por membros desse grupo pra afirmar sua identidade. Por exemplo, palavras como "queer" e "femboy" podem carregar um sentimento de orgulho dentro das comunidades LGBTQ+, apesar de suas origens depreciativas.

Criação de Conjunto de Dados

Pra estudar essa questão, criamos um novo conjunto de dados composto por casos onde xingamentos ressignificados são usados de maneira não depreciativa. Juntamos mais de 100 exemplos, permitindo que investigássemos quão bem os modelos de linguagem classificam essas instâncias. Cada exemplo foi avaliado com base em se poderia ser visto como prejudicial, levando em conta o contexto e a identidade da pessoa usando a linguagem.

Depois, avaliamos cinco modelos de linguagem diferentes pra ver quão precisamente eles conseguiam identificar fala prejudicial quando fornecidos com contexto adicional. O objetivo era ver se informações adicionais sobre o falante poderiam ajudar os modelos a entender melhor a intenção por trás das palavras.

Descobertas

Nossa análise revelou que os modelos de linguagem frequentemente rotulam textos escritos por usuários gênero-não-conforme como prejudiciais. Na verdade, em todos os modelos testados, o desempenho em identificar corretamente textos dessas pessoas foi muito baixo. Isso indica que os modelos estavam sinalizando sistematicamente fala não prejudicial como tóxica, o que pode contribuir pra uma maior marginalização dessas comunidades.

Mesmo quando os modelos foram apresentados com o contexto de que o autor era membro do grupo alvo, seu desempenho não melhorou muito. Isso mostra uma tendência perigosa onde os modelos de linguagem não conseguem se adaptar às expressões sutis de identidade e comunidade que existem dentro do espaço LGBTQ+.

A Importância do Contexto

Entender a linguagem requer mais do que apenas reconhecer palavras específicas. O contexto desempenha um papel significativo em como a linguagem é interpretada. Quando uma pessoa gênero-não-conforme usa um xingamento pra se descrever ou compartilhar suas experiências, isso geralmente é feito de uma forma que não é prejudicial. No entanto, os modelos de linguagem podem não levar em conta a nuance e a intenção por trás dessas palavras.

Muitas plataformas de redes sociais atualmente usam sistemas baseados em palavras-chave pra filtrar conteúdo prejudicial, o que pode levar a classificações erradas. Por exemplo, se um modelo vê um xingamento em um tweet, pode automaticamente rotulá-lo como prejudicial sem considerar o contexto em que foi usado. Essa dependência de palavras-chave ignora a complexidade da linguagem humana e os significados ricos por trás de certos termos dentro de comunidades específicas.

Preconceito na Moderação de Conteúdo

Sistemas automatizados de moderação de conteúdo mostraram ter preconceito contra populações marginalizadas. Pesquisas indicam que o conteúdo postado por indivíduos trans é frequentemente sinalizado como tóxico em taxas mais altas em comparação com posts de outras demografias. Isso resulta em indivíduos LGBTQ+ sendo silenciados ou excluídos dos próprios espaços online que deveriam fornecer apoio.

Além disso, quando a fala prejudicial é identificada incorretamente, isso aumenta os riscos para a expressão e participação individuais. Os usuários podem se sentir desencorajados a compartilhar seus pensamentos ou experiências, temendo que seus posts sejam mal interpretados e removidos. Isso reforça sentimentos de alienação e exclusão entre indivíduos gênero-não-conforme.

Analisando Fala Prejudicial

Determinar se a fala é prejudicial pode ser subjetivo. Muitos fatores podem influenciar como a fala é percebida, incluindo a identidade do falante, o contexto da fala e o público que a recebe. Pra combater a subjetividade da classificação de dano, pesquisadores desenvolveram estruturas pra considerar fatores como o grupo alvo, a explicitude da ofensa e as intenções do falante.

Em nosso estudo, definimos fala prejudicial com critérios específicos. Por exemplo, se um membro de fora do grupo usa um xingamento de forma depreciativa ou se alguém promove discurso de ódio contra uma minoria, isso seria classificado como prejudicial. Por outro lado, se um membro do grupo alvo usa um xingamento de uma maneira que o ressignifica, é menos provável que seja considerado prejudicial.

Uso da Linguagem Gênero-Não-Conforme

A linguagem dentro das comunidades LGBTQ+ frequentemente evolui pra refletir as identidades e experiências de seus membros. Por exemplo, xingamentos que podem ser prejudiciais quando usados por não-membros podem servir como uma forma de empoderamento quando usados por indivíduos dentro dessas comunidades. Esse fenômeno é conhecido como ressignificação linguística.

No entanto, a maioria dos modelos de linguagem não foi treinada pra reconhecer as complexidades desse tipo de uso da linguagem. Sem a capacidade de diferenciar entre fala prejudicial e ressignificada, esses modelos correm o risco de desinformar e educar mal os usuários. Quando vozes marginalizadas são silenciadas, isso pode ter consequências de longo alcance, afastando ainda mais esses grupos de ambientes de apoio.

Conclusão

Este estudo enfatiza a necessidade urgente de justiça e inclusão nos sistemas de moderação de conteúdo. Ao revelar os preconceitos presentes nos modelos de linguagem, destacamos a importância de considerar as vozes de indivíduos marginalizados em esforços pra refinar esses sistemas.

Pra melhorar o desempenho dos modelos de linguagem relacionados à identificação de fala prejudicial, é crucial incorporar as perspectivas daqueles que utilizam palavras ressignificadas regularmente. Engajar com membros da comunidade no processo de treinamento desses modelos pode levar a desenvolvimentos que promovam entendimento e aceitação.

À medida que a linguagem, identidade e comunidade continuam a evoluir, os sistemas projetados pra interpretar e gerenciar nossa comunicação também devem evoluir. Construir ambientes online inclusivos que respeitem e reconheçam as diversas expressões de indivíduos gênero-não-conforme levará, em última análise, a espaços online mais saudáveis e de apoio pra todos.

Ao desenvolver modelos e ferramentas melhores que sejam sensíveis ao contexto do uso da linguagem, podemos abrir caminho pra um mundo digital mais justo e equitativo, onde todas as vozes sejam ouvidas e respeitadas.

Fonte original

Título: Harmful Speech Detection by Language Models Exhibits Gender-Queer Dialect Bias

Resumo: Content moderation on social media platforms shapes the dynamics of online discourse, influencing whose voices are amplified and whose are suppressed. Recent studies have raised concerns about the fairness of content moderation practices, particularly for aggressively flagging posts from transgender and non-binary individuals as toxic. In this study, we investigate the presence of bias in harmful speech classification of gender-queer dialect online, focusing specifically on the treatment of reclaimed slurs. We introduce a novel dataset, QueerReclaimLex, based on 109 curated templates exemplifying non-derogatory uses of LGBTQ+ slurs. Dataset instances are scored by gender-queer annotators for potential harm depending on additional context about speaker identity. We systematically evaluate the performance of five off-the-shelf language models in assessing the harm of these texts and explore the effectiveness of chain-of-thought prompting to teach large language models (LLMs) to leverage author identity context. We reveal a tendency for these models to inaccurately flag texts authored by gender-queer individuals as harmful. Strikingly, across all LLMs the performance is poorest for texts that show signs of being written by individuals targeted by the featured slur (F1

Autores: Rebecca Dorn, Lee Kezar, Fred Morstatter, Kristina Lerman

Última atualização: 2024-06-21 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.00020

Fonte PDF: https://arxiv.org/pdf/2406.00020

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes