O Impacto dos Nomes no Viés em Modelos de Linguagem
Analisando como nomes influenciam preconceitos em modelos de linguagem.
― 9 min ler
Índice
Nomes podem nos dizer bastante sobre uma pessoa, como seu gênero, raça e até mesmo seu histórico. Mas eles também podem gerar Preconceitos e estereótipos. Esses preconceitos podem afetar como as pessoas interagem entre si no dia a dia. Por exemplo, estudos mostram que candidatos a emprego com nomes que soam mais "brancos" tendem a receber mais ofertas de entrevista do que aqueles com nomes que parecem mais "negros". Esse tipo de preconceito não se limita só a pessoas; pode também estar presente em grandes modelos de linguagem (LLMs).
Como os LLMs estão sendo cada vez mais usados em aplicações que dependemos, é importante ver se eles exibem preconceitos semelhantes ao lidar com nomes. Nesta discussão, analisamos três LLMs populares para ver como eles reagem a nomes em uma situação chamada de Jogo da Confiança modificado, que é um teste para estudar a confiança e a cooperação entre pessoas.
O que é o Jogo da Confiança?
O Jogo da Confiança é um experimento simples onde uma pessoa, chamada de investidor, dá um dinheiro para outra pessoa, chamada de fiduciário. Depois de receber o dinheiro, o fiduciário pode escolher devolver uma parte para o investidor. Esse jogo foi feito para entender a confiança e como as pessoas interagem entre si. Tradicionalmente, ambos os jogadores do jogo eram anônimos, ou seja, ninguém sabia quem era quem. No entanto, no nosso estudo, decidimos identificar os dois jogadores pelos seus nomes e um título de gênero (como "Sr." ou "Sra.") para ver como esses fatores influenciavam o valor do investimento que o investidor faria.
Por que focar em nomes?
Nomes são mais do que apenas rótulos; eles representam aspectos importantes da nossa identidade. Um nome pode dar pistas sobre o gênero, raça e até a cultura de alguém. Por causa disso, nomes podem também gerar preconceitos. Quando vemos ou ouvimos um nome, podemos inconscientemente associá-lo a certos estereótipos. Por exemplo, se ouvirmos "Sarah Flynn", podemos imaginar uma mulher branca, enquanto "Carlos Garcia" pode nos fazer pensar em um homem hispânico. Esses pensamentos rápidos e instintivos podem moldar como vemos e tratamos os outros em várias situações.
Evidências de preconceitos no comportamento humano
Pesquisas mostram que os preconceitos baseados em nomes não são só teóricos. Por exemplo, estudos no mercado de trabalho dos EUA revelaram que as candidaturas com nomes que soam mais brancos costumam receber cerca de 50% mais ligações para entrevistas do que aquelas com nomes que são percebidos como pertencentes a indivíduos negros. Preconceitos semelhantes também foram identificados em outras áreas, como quão responsivos os legisladores estaduais são a solicitações de e-mail e opiniões públicas sobre como os recursos devem ser distribuídos.
Analisando preconceitos em modelos de linguagem
No nosso estudo, olhamos como os LLMs reagem a nomes no contexto de gênero e raça. Focamos especificamente em três modelos: Llama2-13B, Mistral-7B e Phi-2. Esses modelos foram treinados em uma quantidade enorme de dados e, embora possam ser bons em entender e gerar linguagem, também podem, sem querer, carregar os preconceitos humanos.
Os LLMs podem captar estereótipos e preconceitos assim como os humanos fazem. À medida que são cada vez mais usados em processos de decisão que afetam nossas vidas diárias, é essencial ver como esses modelos refletem ou possivelmente pioram preconceitos sociais, especialmente em relação ao gênero e raça.
Nossa abordagem para testar preconceitos
Para testar esses preconceitos, criamos um novo método que envolveu pedir a um LLM para prever quanto dinheiro um investidor daria no Jogo da Confiança com base em nomes e títulos. Usamos um conjunto de sobrenomes representativos para diferentes raças para determinar como o modelo reagiria a várias combinações de gênero e raça.
O Jogo da Confiança modificado que usamos nos permitiu ver como os nomes identificados do investidor e do fiduciário afetavam os valores de investimento. Em vez de esperar que o modelo gerasse respostas aleatórias, na verdade calculamos o valor de investimento esperado com base na saída do modelo.
Design do experimento
Conduzimos dois experimentos principais: um com Investidores masculinos e outro com investidores femininos. Em ambos os casos, o investidor poderia ser de um grupo majoritário (como homens brancos) ou de um grupo minoritário (como mulheres asiáticas). Os fiduciários representavam uma diversidade de gêneros e raças.
Para cada experimento, criamos uma lista selecionada de nomes que representavam diferentes grupos raciais e de gênero. Usando essas combinações, pudemos verificar se havia preconceito nas previsões feitas pelos LLMs.
Lidando com dados de nomes
Prestamos atenção cuidadosa em como escolhemos os nomes usados em nossos experimentos. Queríamos garantir que os nomes que selecionamos representassem com precisão seus respectivos grupos. Para isso, utilizamos dados do Censo dos EUA de 2010, que fornece informações detalhadas sobre a composição racial dos sobrenomes.
Processo de seleção de sobrenomes
Os dados dos sobrenomes incluíam várias estatísticas sobre quão comuns cada nome é e a porcentagem de pessoas que se identificam com diferentes raças. Usamos esses dados para garantir que selecionássemos nomes que fossem não só populares dentro de suas categorias raciais, mas também que refletissem essas categorias com precisão.
Para selecionar os nomes, usamos um método que equilibrava tanto a singularidade quanto a popularidade. Isso nos ajudou a criar uma lista que atenderia às expectativas tanto das percepções humanas quanto dos LLMs. Focando em ambos os aspectos, buscamos apresentar os nomes mais relevantes para cada grupo racial.
Design de prompt para os modelos de linguagem
Para interagir efetivamente com os LLMs, desenvolvemos prompts específicos baseados na estrutura do nosso Jogo da Confiança. Nossos prompts foram feitos para esclarecer o cenário e pedir aos modelos que previssem os valores de investimento, considerando a identidade de ambos os jogadores.
Cada prompt incluía elementos essenciais do jogo, garantindo que o LLM pudesse entender o contexto e fornecer uma resposta precisa. Ajustamos os prompts com base em se o modelo estava em sua versão base ou ajustada para instruções, para garantir uma melhor compreensão.
Realizando os experimentos
No total, criamos um conjunto de jogos possíveis usando as combinações de investidores e fiduciários. Cada jogo foi projetado para testar como os preconceitos poderiam se manifestar com base nos nomes usados. Seguindo as regras do Jogo da Confiança, coletamos previsões dos LLMs, que geraram uma distribuição de probabilidade dos valores de investimento.
Resultados e Análise
Os resultados dos nossos experimentos destacaram algumas tendências significativas.
Valor do investimento por raça: Os resultados preditivos mostraram que a raça influenciava quanto dinheiro um investidor estava disposto a dar. Para investidores homens brancos, o valor variava dependendo da raça do fiduciário.
Efeitos de gênero: Nos experimentos com investidoras asiáticas, tanto o gênero quanto a raça afetaram significativamente os valores de investimento previstos. Foi particularmente notável que fiduciários femininos receberam mais fundos em diferentes grupos raciais, com quantias maiores sendo dadas a fiduciários hispânicos em comparação com os outros.
Impacto do ajuste de instruções: As versões ajustadas para instruções dos LLMs pareceram ter respostas variadas em comparação com seus modelos base. Por exemplo, enquanto o ajuste de instruções aumentou os valores médios de investimento em alguns modelos, também mudou como os modelos reagiam à interação de gênero e raça.
Conclusão sobre preconceitos
Nossos achados confirmam que preconceitos baseados em nomes existem dentro desses LLMs, mesmo quando os modelos estão ajustados para reduzir saídas tendenciosas. Isso implica que, embora esforços possam ser feitos para ajustar os preconceitos, eles ainda persistem em contextos onde os nomes desempenham um papel.
Implicações das descobertas
Dada a crescente presença dos LLMs em nossas vidas diárias, esses resultados ressaltam a importância de estudar e identificar preconceitos nesses sistemas. À medida que os LLMs estão cada vez mais envolvidos em situações onde identidades sociais são significativas-como decisões de contratação, solicitações de empréstimos ou até interações sociais-abordar esses preconceitos é fundamental.
Tanto a tecnologia por trás dos LLMs quanto os conjuntos de dados nos quais são treinados devem ser continuamente examinados, pois podem ter efeitos profundos sobre como as decisões são tomadas e como os preconceitos sociais podem ser reforçados ou desafiados.
Direções futuras
Para entender melhor e abordar preconceitos baseados em nomes nos LLMs, trabalhos futuros podem focar em várias abordagens:
Monitoramento contínuo: Avaliações regulares de novos modelos e conjuntos de dados devem ser realizadas para ver se preconceitos estão aparecendo ou mudando ao longo do tempo.
Inclusão de conjuntos de dados mais amplos: Treinar LLMs em conjuntos de dados mais diversos pode ajudar a aliviar alguns preconceitos. Isso significa não só incluir vários nomes, mas também garantir que diferentes culturas e idiomas estejam bem representados.
Consciência do usuário: Educar os usuários sobre o potencial de preconceitos nos LLMs pode capacitá-los a tomar decisões mais informadas ao depender desses sistemas.
Melhorando a transparência: Desenvolvedores de LLMs devem buscar transparência em como os modelos são treinados e quais dados eles usam. Essa abordagem pode ajudar os usuários a entender os potenciais preconceitos e limitações dos modelos.
Em resumo, nomes podem levar a preconceitos tanto nas interações humanas quanto nos LLMs. Reconhecer e abordar esses preconceitos é essencial à medida que continuamos a integrar essas tecnologias em nossas vidas. É crucial garantir que os LLMs operem de forma justa e sem preconceitos, especialmente em contextos que influenciam a vida e as oportunidades das pessoas.
Título: Uncovering Name-Based Biases in Large Language Models Through Simulated Trust Game
Resumo: Gender and race inferred from an individual's name are a notable source of stereotypes and biases that subtly influence social interactions. Abundant evidence from human experiments has revealed the preferential treatment that one receives when one's name suggests a predominant gender or race. As large language models acquire more capabilities and begin to support everyday applications, it becomes crucial to examine whether they manifest similar biases when encountering names in a complex social interaction. In contrast to previous work that studies name-based biases in language models at a more fundamental level, such as word representations, we challenge three prominent models to predict the outcome of a modified Trust Game, a well-publicized paradigm for studying trust and reciprocity. To ensure the internal validity of our experiments, we have carefully curated a list of racially representative surnames to identify players in a Trust Game and rigorously verified the construct validity of our prompts. The results of our experiments show that our approach can detect name-based biases in both base and instruction-tuned models.
Autores: Yumou Wei, Paulo F. Carvalho, John Stamper
Última atualização: 2024-04-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.14682
Fonte PDF: https://arxiv.org/pdf/2404.14682
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.