Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Computadores e sociedade

Avaliando o Viés da IA: Um Estudo sobre Antissemitismo

Este estudo avalia métodos de medição de viés usando o GPT-3.5-Turbo para detecção de antissemitismo.

― 6 min ler


Estudo sobre Viés da IA:Estudo sobre Viés da IA:Perspectivas sobreAntissemitismodetecção de viés.O GPT-3.5-Turbo deixa a desejar na
Índice

Modelos de linguagem grandes (LLMs) são super usados em várias áreas, mas não são perfeitos e, muitas vezes, mostram preconceito contra certos grupos. Pesquisadores medem esse preconceito usando conjuntos de dados de referência, mas os métodos atuais têm problemas como qualidade ruim e falta de profundidade. Alguns estudos anteriores usaram a opinião da comunidade para melhorar esses conjuntos de dados, mas essa abordagem ainda exige muito trabalho humano. Este artigo examina se um LLM, especificamente o GPT-3.5-Turbo, pode ajudar a criar um conjunto de dados que mede preconceito, focando no Antissemitismo dentro da comunidade judaica. Nossos achados sugerem que o GPT-3.5-Turbo não se sai bem o suficiente para substituir anotadores humanos nessa tarefa sensível.

Definindo Preconceito e Dano

Quando falamos sobre preconceito em IA, é essencial definir o que queremos dizer. Neste artigo, definimos preconceito como tratar um grupo marginalizado de forma diferente em comparação a um grupo dominante, muitas vezes reforçando Estereótipos negativos já existentes. Dano se refere a eventos negativos-como prejuízos emocionais ou financeiros-que afetam indivíduos. Ao medir o preconceito nos LLMs, podemos tomar medidas para reduzir esses efeitos prejudiciais.

Métodos Atuais para Medir Preconceito

O método usual para medir preconceito em LLMs envolve benchmarks de sentenças emparelhadas. Isso significa comparar duas sentenças similares-uma que mostra estereótipos e outra que não. O objetivo é ver quão provável o modelo é escolher a sentença estereotipada em vez da não estereotipada. No entanto, muitos benchmarks atuais têm falhas notáveis. Eles costumam tentar cobrir muitos tópicos sem entrar em detalhes suficientes. Por exemplo, enquanto podem incluir aspectos de raça ou gênero, podem simplificar demais essas questões. Certos preconceitos, como o antissemitismo, muitas vezes são negligenciados.

Benchmarks Criados pela Comunidade

Esforços recentes mostraram que usar a opinião da comunidade pode levar a melhores benchmarks. Em vez de depender de trabalhadores de multidão que podem não ter experiência real com preconceitos específicos, os pesquisadores têm coletado estereótipos diretamente de membros da comunidade afetados por meio de Pesquisas. Esse método produziu conjuntos de dados de maior qualidade, mas ainda exige muito esforço humano para analisar e anotar as respostas da pesquisa. Esse processo pode ser demorado e cansativo, especialmente para aqueles que são pessoalmente afetados pelas questões estudadas.

Conjunto de Dados WinoSemitism e Sua Construção

Para criar o conjunto de dados WinoSemitism, seguimos as melhores práticas existentes para design de pesquisa e coleta de dados. Montamos uma pesquisa direcionada a membros da comunidade judaica para capturar suas experiências com antissemitismo. Os participantes responderam a perguntas sobre estereótipos, permitindo que reuníssemos uma variedade de perspectivas de diferentes origens.

A pesquisa durou cerca de 10 semanas e recebemos respostas de 203 indivíduos. A maioria se identificou como branca e estava localizada nos Estados Unidos, com uma mistura de gêneros e religiões. A maior parte das respostas abordou o antissemitismo geral, em vez de estereótipos específicos.

Pontuação de Preconceito e Benchmarking

O conjunto de dados WinoSemitism consiste em pares de sentenças que mostram antissemitismo ao lado de declarações contrárias a estereótipos. Desenvolvemos sentenças com base nas respostas da pesquisa, garantindo que representassem com precisão os estereótipos relatados pelos participantes. O objetivo desse benchmark é ver com que frequência modelos específicos aplicam estereótipos antissemitas a pessoas judias em comparação a pessoas não-judias.

Os resultados mostraram um padrão claro de preconceito. Todos os modelos testados exibiram algum grau de antissemitismo, muitas vezes aplicando estereótipos com mais frequência a indivíduos judeus do que a outros.

O Papel do GPT na Avaliação de Preconceito

Para aliviar a carga sobre os anotadores humanos, tentamos usar o GPT-3.5-Turbo para extrair estereótipos prejudiciais das respostas da pesquisa. Cada resposta foi processada para identificar declarações que refletissem os problemas que os participantes compartilharam. No entanto, a saída do GPT mostrou problemas significativos.

Quando comparamos os estereótipos extraídos por humanos com os produzidos pelo GPT, encontramos muitos erros. Um grande número dos predicados extraídos pelo modelo representou mal as respostas da pesquisa ou incluiu estereótipos que não estavam presentes nos dados originais. Isso levanta preocupações sobre a confiabilidade do uso de LLMs para tarefas tão sensíveis.

Resultados da Extração de Predicados

Nossa análise dos resultados do processo de extração do GPT revelou baixos níveis de precisão. O modelo teve dificuldade em capturar o significado por trás das respostas da pesquisa, e muitas das extrações foram vagas ou completamente incorretas. Em particular, notamos que o modelo frequentemente produzia estereótipos que contradiziam o que os respondentes da pesquisa haviam relatado.

Além disso, descobrimos que o modelo frequentemente gerava saídas repetitivas, indicando uma incapacidade de entender as nuances dos preconceitos sendo estudados. Isso não apenas prejudicou a qualidade dos dados, mas também representou um risco de perpetuar estereótipos prejudiciais.

Comparando Dados de Humanos e Extraídos pelo GPT

Quando comparamos as pontuações de preconceito geradas a partir de conjuntos de dados criados por anotadores humanos com aqueles feitos pelo GPT, observamos que os dois não estavam alinhados. A correlação entre as duas pontuações era fraca, o que significa que os benchmarks criados pelo modelo não capturaram efetivamente os mesmos comportamentos que os criados por humanos. Essa disparidade poderia levar a interpretações errôneas da eficácia de certas estratégias de mitigação de preconceito.

Desafios e Riscos

Os desafios enfrentados ao usar LLMs na construção de benchmarks de preconceito levantam preocupações sérias. A alta taxa de erros nas extrações do GPT significa que depender desse modelo poderia levar a preconceitos importantes sendo ignorados. Isso poderia afetar particularmente grupos marginalizados, já que as imprecisões nos dados poderiam mascarar as experiências reais dessas pessoas.

O impacto psicológico sobre os anotadores humanos também não pode ser ignorado. Ler as respostas da pesquisa sobre preconceito e dano pode ser emocionalmente desgastante, levando ao desgaste. Usar LLMs para ajudar nessa tarefa pode parecer atraente, mas os resultados indicam que essa abordagem é inadequada.

Conclusão

Os achados do nosso estudo ressaltam a importância da participação humana na criação de benchmarks de equidade. Embora LLMs como o GPT-3.5-Turbo possam oferecer alguma assistência, eles não podem substituir a compreensão sutil que os anotadores humanos trazem à mesa. Para tarefas sensíveis que envolvem preconceitos sociais, os riscos associados ao uso de LLMs superam os benefícios.

Daqui pra frente, é essencial continuar priorizando a opinião e as experiências dos membros da comunidade na busca por sistemas de IA mais justos. Garantir uma Anotação de alta qualidade é crucial para desenvolver benchmarks de preconceito eficazes que realmente reflitam as experiências vividas de grupos marginalizados.

Fonte original

Título: GPT is Not an Annotator: The Necessity of Human Annotation in Fairness Benchmark Construction

Resumo: Social biases in LLMs are usually measured via bias benchmark datasets. Current benchmarks have limitations in scope, grounding, quality, and human effort required. Previous work has shown success with a community-sourced, rather than crowd-sourced, approach to benchmark development. However, this work still required considerable effort from annotators with relevant lived experience. This paper explores whether an LLM (specifically, GPT-3.5-Turbo) can assist with the task of developing a bias benchmark dataset from responses to an open-ended community survey. We also extend the previous work to a new community and set of biases: the Jewish community and antisemitism. Our analysis shows that GPT-3.5-Turbo has poor performance on this annotation task and produces unacceptable quality issues in its output. Thus, we conclude that GPT-3.5-Turbo is not an appropriate substitute for human annotation in sensitive tasks related to social biases, and that its use actually negates many of the benefits of community-sourcing bias benchmarks.

Autores: Virginia K. Felkner, Jennifer A. Thompson, Jonathan May

Última atualização: 2024-05-24 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.15760

Fonte PDF: https://arxiv.org/pdf/2405.15760

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes