Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computadores e sociedade# Inteligência Artificial# Computação e linguagem# Aprendizagem de máquinas

Viés na IA: O Impacto em Grupos Estigmatizados

Analisando como os modelos de linguagem de IA refletem preconceitos contra comunidades marginalizadas.

― 7 min ler


Viés e Estigma da IAViés e Estigma da IAinjustamente grupos marginalizados.Modelos de IA podem acabar atacando
Índice

Com a inteligência artificial (IA) ficando mais comum, é importante ver como esses sistemas podem prejudicar certos grupos de pessoas. Pesquisas mostram que modelos de IA, especialmente os que trabalham com linguagem, podem ter preconceitos que refletem estereótipos sociais. Este artigo examina os preconceitos contra 93 grupos estigmatizados diferentes nos Estados Unidos, conforme identificado por um estudo. Esses grupos podem incluir pessoas afetadas por deficiências, doenças, problemas de saúde mental e outras condições que a sociedade costuma ver de forma negativa.

O Que São Grupos Estigmatizados?

Grupos estigmatizados são aqueles que enfrentam desaprovação ou Discriminação social devido a características específicas, o que pode levar a resultados negativos em várias áreas, como emprego, educação e interações sociais. Esses grupos podem incluir pessoas com deficiências, indivíduos com doenças mentais, certos grupos religiosos e aqueles que se identificam como parte da comunidade LGBTQ+. O estigma pode impedir que essas pessoas participem plenamente da sociedade, afetando sua qualidade de vida.

O Papel dos Modelos de Linguagem

Modelos de linguagem, como os usados em aplicativos como chatbots ou moderação de conteúdo, analisam e geram texto. Esses modelos são treinados com enormes quantidades de dados de livros, artigos e redes sociais. No entanto, como aprendem com textos escritos por humanos, podem adotar os preconceitos que estão nesses materiais. Isso significa que, quando esses modelos analisam ou classificam textos que incluem grupos estigmatizados, podem refletir e até reforçar estereótipos negativos.

Investigando Preconceitos em Modelos de Linguagem

Esta pesquisa foca em examinar como os modelos de linguagem tratam 93 grupos estigmatizados em comparação com 29 condições não estigmatizadas. O estudo olha como seis modelos de linguagem diferentes respondem a provocações relacionadas a esses grupos. O objetivo é ver se há uma diferença significativa em como esses modelos geram ou classificam respostas baseadas em se a provocação inclui uma condição estigmatizada.

Quais São os Seis Modelos de Linguagem?

O estudo avalia seis modelos de linguagem que diferem em tamanho e os tipos de dados que foram treinados. Esses modelos incluem:

  1. RoBERTa-base
  2. RoBERTa-large
  3. BERTweet-base
  4. BERTweet-large
  5. DistilBERT
  6. XLNet-large

Cada modelo usa uma abordagem única para entender a linguagem e prever as próximas palavras em uma frase com base nas palavras ao redor.

Métodos Usados para Avaliação

Para avaliar o preconceito nesses modelos, os pesquisadores criaram provocações baseadas em uma ferramenta psicológica conhecida como Escala de Distância Social. Essa escala mede a disposição das pessoas para interagir com indivíduos de grupos estigmatizados. Os pesquisadores modificaram perguntas da escala para criar afirmações para os modelos preverem palavras que faltavam (indicadas por ""). Por exemplo, uma provocação poderia ser: "É para mim alugar um quarto em minha casa para alguém que tem depressão."

Comparando com que frequência os modelos geravam palavras negativas em resposta a provocações estigmatizadas em comparação com provocações não estigmatizadas, os pesquisadores puderam medir o nível de preconceito presente em cada modelo.

Resultados do Estudo

Os achados revelaram que, quando as provocações incluíam condições estigmatizadas, os modelos eram significativamente mais propensos a prever palavras negativas. Em média, a probabilidade de gerar palavras negativas para provocações que mencionavam grupos estigmatizados era cerca de 20% maior do que para aquelas que não mencionavam. Esse padrão se manteve em todos os seis modelos avaliados.

Além de avaliar as respostas às provocações, o estudo também analisou como esses modelos classificavam Sentimentos. A classificação de sentimentos envolve determinar se um texto possui um sentimento positivo, negativo ou neutro. Os resultados mostraram que, quando modelos de linguagem classificavam textos contendo condições estigmatizadas, eram mais propensos a rotulá-los como negativos.

Descobertas Individuais sobre Condições Estigmatizadas

Ao examinar condições estigmatizadas específicas, o estudo descobriu que:

  • Condições relacionadas a doenças e saúde mental tinham as maiores probabilidades de serem classificadas negativamente.
  • Status educacional, especialmente frases como "menos do que um diploma de ensino médio", recebia classificações negativas consistentemente.
  • Condições estigmatizadas relacionadas a características físicas também eram frequentemente rotuladas negativamente.

Por exemplo, provocações que incluíam frases sobre indivíduos com deficiências ou problemas de saúde mental recebiam um alto número de classificações de sentimento negativo dos modelos.

Correlação Entre Modelos e Classificadores de Sentimento

Além disso, o estudo explorou se o preconceito observado nos modelos de linguagem tinha correlação com o preconceito detectado em suas tarefas de classificação de sentimentos. Encontrou uma correlação forte, indicando que, quando um Modelo de Linguagem mostrava alto preconceito contra um grupo estigmatizado, o classificador de sentimentos também provavelmente classificaria conteúdos similares como negativos.

Implicações dos Resultados

Os preconceitos encontrados em modelos de linguagem e classificadores de sentimentos levantam preocupações sérias, especialmente à medida que esses modelos são usados em aplicações do mundo real. Por exemplo, se um modelo de linguagem é usado para filtrar candidaturas de emprego, pode prejudicar injustamente candidatos de grupos estigmatizados ao associar certas condições a características negativas. Isso poderia levar à discriminação no emprego, perpetuando ainda mais desigualdades sociais.

Os resultados também destacam a necessidade de uma consideração cuidadosa ao desenvolver sistemas de IA. É crucial garantir que os algoritmos sejam projetados para minimizar preconceitos e não reforçar estereótipos prejudiciais.

A Importância da Avaliação de Preconceitos

Este estudo enfatiza a importância de avaliar preconceitos em modelos de linguagem. Ao identificar e abordar esses preconceitos, pesquisadores e desenvolvedores podem trabalhar para criar sistemas de IA que sejam justos e equitativos, oferecendo oportunidades para todos, independentemente de suas origens ou circunstâncias.

Direções Futuras

Os achados desta pesquisa abrem várias avenidas para futuros trabalhos. Há uma necessidade de investigar mais sobre como os preconceitos em modelos de linguagem podem ser mitigados. Isso pode envolver o aprimoramento de conjuntos de dados de treinamento, a implementação de técnicas de correção de preconceitos ou a criação de novos modelos que priorizem a justiça.

Além disso, será importante estender esta pesquisa além do contexto dos Estados Unidos. Diferentes culturas podem ver grupos estigmatizados de forma diferente, e entender essas nuances contribuirá para uma abordagem mais abrangente sobre preconceitos em IA.

Os pesquisadores também devem investigar outras tarefas posteriores além da classificação de sentimentos. Áreas como resposta a perguntas, geração de texto e tradução automática também podem apresentar preconceitos que requerem uma análise cuidadosa.

Conclusão

O avanço rápido das tecnologias de IA destaca a necessidade de abordar preconceitos em modelos de linguagem. À medida que esses sistemas se tornam cada vez mais integrados em vários aspectos da sociedade, entender como tratam grupos estigmatizados é fundamental. Esta pesquisa serve como uma base para avaliações contínuas e informa o desenvolvimento de sistemas de IA mais justos que melhorem, em vez de dificultar, as oportunidades para comunidades marginalizadas. Ao promover um compromisso com a redução de preconceitos, podemos avançar para um futuro onde a IA beneficie a todos igualmente.

Fonte original

Título: Bias Against 93 Stigmatized Groups in Masked Language Models and Downstream Sentiment Classification Tasks

Resumo: The rapid deployment of artificial intelligence (AI) models demands a thorough investigation of biases and risks inherent in these models to understand their impact on individuals and society. This study extends the focus of bias evaluation in extant work by examining bias against social stigmas on a large scale. It focuses on 93 stigmatized groups in the United States, including a wide range of conditions related to disease, disability, drug use, mental illness, religion, sexuality, socioeconomic status, and other relevant factors. We investigate bias against these groups in English pre-trained Masked Language Models (MLMs) and their downstream sentiment classification tasks. To evaluate the presence of bias against 93 stigmatized conditions, we identify 29 non-stigmatized conditions to conduct a comparative analysis. Building upon a psychology scale of social rejection, the Social Distance Scale, we prompt six MLMs: RoBERTa-base, RoBERTa-large, XLNet-large, BERTweet-base, BERTweet-large, and DistilBERT. We use human annotations to analyze the predicted words from these models, with which we measure the extent of bias against stigmatized groups. When prompts include stigmatized conditions, the probability of MLMs predicting negative words is approximately 20 percent higher than when prompts have non-stigmatized conditions. In the sentiment classification tasks, when sentences include stigmatized conditions related to diseases, disability, education, and mental illness, they are more likely to be classified as negative. We also observe a strong correlation between bias in MLMs and their downstream sentiment classifiers (r =0.79). The evidence indicates that MLMs and their downstream sentiment classification tasks exhibit biases against socially stigmatized groups.

Autores: Katelyn X. Mei, Sonia Fereidooni, Aylin Caliskan

Última atualização: 2023-06-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.05550

Fonte PDF: https://arxiv.org/pdf/2306.05550

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes