Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Computadores e sociedade

Examinando os preconceitos linguísticos na representação de agências

Esse estudo analisa os preconceitos linguísticos que afetam gênero e raça em vários textos.

― 7 min ler


Viés na Análise deViés na Análise deAgência Linguísticagênero.significativos relacionados à raça eEstudo revela preconceitos linguísticos
Índice

A linguagem desempenha um papel crucial na forma como percebemos diferentes grupos de pessoas. Muitas vezes, a maneira como as pessoas são descritas nos textos reflete Preconceitos sociais baseados em raça e gênero. Isso é particularmente evidente em como a agência na linguagem é representada. Agência na linguagem se refere à forma como as pessoas são retratadas como ativas ou passivas no texto. Por exemplo, homens brancos podem ser descritos como líderes ou achievers, enquanto mulheres negras podem ser vistas como apoiadoras ou úteis.

Este documento analisa os preconceitos nas escolhas de linguagem em relação à raça e gênero. O objetivo é destacar como esses preconceitos se manifestam em diferentes tipos de escritos, como biografias, avaliações de professores e cartas de referência.

Importância da Agência na Linguagem

A agência na linguagem é importante porque revela como diferentes grupos são representados na escrita. A agência na linguagem pode mostrar se alguém é visto como alguém que toma iniciativa e lidera, ou como alguém que apoia e ajuda os outros. Essa distinção é essencial, pois pode influenciar como os indivíduos são vistos na sociedade.

Por exemplo, homens, particularmente os que são brancos, são frequentemente descritos com palavras que transmitem autoridade e liderança. Em contraste, mulheres, especialmente aquelas que pertencem a minorias raciais, podem ser descritas com palavras que se relacionam ao cuidado e apoio. Essa diferença na linguagem pode levar ao reforço de estereótipos e preconceitos na sociedade.

Propósito do Estudo

O propósito deste estudo é medir a agência na linguagem a nível de frase. Isso significa olhar de perto como as pessoas são descritas em vários textos e como essas descrições variam com base em gênero e raça. Um novo conjunto de dados foi criado para treinar modelos que podem classificar a agência na linguagem com precisão.

O estudo explora preconceitos encontrados em textos escritos por humanos e aqueles gerados por grandes modelos de linguagem, que são programas de computador que produzem texto. Compreendendo esses preconceitos, podemos tomar melhores decisões sobre o uso de tecnologias de linguagem em contextos sociais.

Metodologia

Criação do Conjunto de Dados

Para analisar os preconceitos na agência da linguagem, foi criado um conjunto de dados que inclui frases rotuladas como agentivas, comunitárias ou neutras. Frases agentivas são aquelas que mostram indivíduos como ativos e líderes, enquanto frases comunitárias os retratam como apoiadores e úteis. Frases neutras não se encaixam em nenhuma das categorias.

O conjunto de dados foi desenvolvido usando uma combinação de ferramentas automatizadas e contribuição humana para garantir precisão. Primeiro, biografias existentes foram processadas em frases. Depois, um modelo de linguagem foi usado para criar versões parafraseadas dessas frases que se encaixam nas categorias agentiva ou comunitária. Finalmente, anotadores humanos reavaliaram essas frases para garantir a rotulagem correta.

Treinamento de Modelos

Uma vez que o conjunto de dados estava pronto, modelos foram treinados usando-o. Dois tipos de modelos foram usados: modelos discriminativos, que classificam frases com base em padrões aprendidos, e modelos generativos, que produzem novo texto com base em dados de entrada. Vários modelos populares, incluindo BERT e RoBERTa, foram utilizados para avaliar seu desempenho em identificar a agência na linguagem.

Resultados

Preconceito Linguístico em Textos Escritos por Humanos

A análise revelou que textos escritos por humanos mostram preconceitos notáveis na agência da linguagem. Por exemplo, descrições de homens tendem a ser mais agentivas comparadas às de mulheres. Isso está alinhado com a forma como a sociedade muitas vezes vê homens e mulheres em papéis diferentes. Profissões como pastores, arquitetos e engenheiros de software apresentam preconceitos de gênero particularmente fortes em suas biografias.

Além disso, o estudo descobriu que quando se trata de raça, textos que descrevem indivíduos negros frequentemente empregavam uma linguagem mais comunitária do que agentiva. Isso sugere que as percepções sociais sobre indivíduos negros podem se alinhar mais com papéis de apoio do que com posições de liderança.

Preconceito Linguístico em Textos Gerados por LLM

Ao examinar textos gerados por modelos de linguagem, o estudo encontrou preconceitos ainda mais pronunciados. Textos gerados por LLM exibiram níveis mais altos de preconceito na agência da linguagem do que textos escritos por humanos. Por exemplo, descrições de figuras masculinas brancas eram muito mais propensas a ser agentivas em comparação com mulheres negras, que eram frequentemente retratadas de uma maneira mais comunitária.

Esses achados levantam preocupações sobre o uso de LLMs em contextos sociais sem um exame cuidadoso dos possíveis preconceitos que eles podem carregar.

Preconceitos de Gênero e Raça

A investigação também descobriu preconceitos críticos na agência da linguagem que visam especificamente grupos minoritários. Por exemplo, mulheres negras nos textos analisados exibiram os menores níveis de agência em comparação com outros grupos demográficos. Isso indica uma tendência social de ver mulheres negras principalmente por uma lente de apoio, diminuindo seus papéis como líderes ou figuras influentes.

Biografias de indivíduos de variados contextos raciais mostraram discrepâncias significativas. Os textos descreveram indivíduos asiáticos e brancos como mais agentivos do que seus colegas negros.

Preconceitos Interseccionais

Um aspecto único do estudo foi o foco nos preconceitos interseccionais, que consideram como identidades sobrepostas impactam a agência na linguagem. Os resultados indicaram que indivíduos que pertencem tanto a uma minoria racial quanto a uma minoria de gênero, como mulheres negras, enfrentaram os preconceitos mais significativos na agência da linguagem.

Por exemplo, a análise descobriu que biografias de homens asiáticos eram descritas com uma linguagem de alta agência, enquanto as de mulheres negras mostraram os menores níveis de agência. Isso reflete o efeito combinado de preconceitos raciais e de gênero no uso da linguagem.

Implicações

Os achados deste estudo têm implicações significativas para como a linguagem é usada em vários contextos. Reconhecer que certos grupos são frequentemente retratados de maneiras limitantes destaca a necessidade de um uso mais cuidadoso da linguagem na escrita, particularmente em ambientes profissionais.

Na academia, por exemplo, a forma como os professores são descritos em avaliações pode influenciar percepções sobre sua eficácia e autoridade. Professores do sexo feminino, especialmente aqueles de origens minoritárias, podem receber avaliações menos favoráveis devido à linguagem comunitária utilizada para descrevê-los.

Além disso, as percepções obtidas com este estudo podem informar como modelos de linguagem são treinados. Ao abordar preconceitos em seus dados de treinamento, melhorias podem ser feitas na forma como esses modelos geram texto, garantindo que não perpetuem estereótipos existentes.

Conclusão

O estudo destaca a importância de examinar a agência na linguagem em textos para descobrir preconceitos baseados em gênero e raça. Ao desenvolver um conjunto de dados de classificação e treinar modelos para medir a agência na linguagem, surgiram percepções significativas sobre como as pessoas são representadas na escrita.

Os resultados revelam que preconceitos são prevalentes tanto em textos escritos por humanos quanto em textos gerados por máquinas, com grupos minoritários frequentemente retratados de uma maneira menos agentiva. Os resultados pedem mais atenção ao uso da linguagem, especialmente em contextos onde isso pode influenciar percepções e decisões sobre indivíduos.

No futuro, expandir a pesquisa para abranger uma gama mais ampla de demografias, bem como diferentes formas de texto, pode fornecer maior clareza sobre como os preconceitos na agência da linguagem afetam vários grupos. Por enquanto, o estudo serve como uma base para entender e abordar os preconceitos subjacentes na linguagem, incentivando uma abordagem mais inclusiva sobre como os indivíduos são representados na escrita.

Fonte original

Título: White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs

Resumo: Social biases can manifest in language agency. While several studies approached agency-related bias in human-written language, very limited research has investigated such biases in Large Language Model (LLM)-generated content. In addition, previous works often rely on string-matching techniques to identify agentic and communal words within texts, which fall short of accurately classifying language agency. We introduce the novel Language Agency Bias Evaluation (LABE) benchmark, which comprehensively evaluates biases in LLMs by analyzing agency levels attributed to different demographic groups in model generations. LABE leverages 5,400 template-based prompts, an accurate agency classifier, and corresponding bias metrics to test for gender, racial, and intersectional language agency biases in LLMs on 3 text generation tasks: biographies, professor reviews, and reference letters. We also contribute the Language Agency Classification (LAC) dataset, consisting of 3,724 agentic and communal sentences. Using LABE, we unveil language agency social biases in 3 recent LLMs: ChatGPT, Llama3, and Mistral. We observe that: (1) LLM generations tend to demonstrate greater gender bias than human-written texts; (2) Models demonstrate remarkably higher levels of intersectional bias than the other bias aspects. Those who are at the intersection of gender and racial minority groups--such as Black females--are consistently described by texts with lower levels of agency, aligning with real-world social inequalities; (3) Among the 3 LLMs investigated, Llama3 demonstrates the greatest overall bias; (4) Not only does prompt-based mitigation fail to resolve language agency bias in LLMs, but it frequently leads to the exacerbation of biases in generated texts.

Autores: Yixin Wan, Kai-Wei Chang

Última atualização: 2024-10-24 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.10508

Fonte PDF: https://arxiv.org/pdf/2404.10508

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Mais de autores

Artigos semelhantes