Analisando o Viés de Gênero em Modelos de Linguagem e em Humanos
Um estudo revela semelhanças no viés de gênero entre modelos de linguagem e a tomada de decisão humana.
― 7 min ler
Nos últimos anos, os pesquisadores descobriram que os modelos de linguagem costumam apresentar preconceitos semelhantes aos que encontramos nas pessoas. Isso é especialmente verdade quando se trata de preconceitos relacionados ao gênero que afetam como os pronomes se referem às pessoas nas frases. O foco dessa pesquisa é entender como esses preconceitos nos modelos se comparam aos humanos, particularmente no contexto da resolução de co-referência, onde um pronome deve se referir corretamente a um substantivo na frase.
O preconceito de gênero no uso da linguagem pode surgir das normas sociais, levando tanto humanos quanto modelos de linguagem a fazer julgamentos rápidos com base nessas normas. Os humanos, ao ler, podem ser influenciados por estereótipos, o que pode resultar em interpretações tendenciosas das frases. Da mesma forma, modelos treinados em grandes conjuntos de dados podem absorver esses preconceitos e depender deles para fazer previsões.
A pergunta central que essa pesquisa aborda é se os preconceitos vistos nos modelos de linguagem refletem o comportamento humano. Para explorar isso, os pesquisadores recorrem à teoria do dual-process, um conceito da psicologia que descreve dois sistemas de pensamento. O primeiro sistema é rápido, automático e frequentemente leva a preconceitos sem muita reflexão. O segundo sistema é mais lento, mais reflexivo e pode corrigir julgamentos iniciais se houver tempo para pensar.
Para investigar essas ideias, os pesquisadores conduziram dois experimentos com participantes humanos. No primeiro experimento, eles usaram tarefas de leitura em ritmo próprio. Os participantes leram frases onde tiveram que decidir rapidamente qual pronome se referia a qual substantivo, um processo que imita a leitura natural. Esse método permite que os pesquisadores entendam as respostas rápidas e automáticas que as pessoas fazem.
No segundo experimento, os participantes responderam a perguntas depois de lerem as frases. Essa tarefa exigiu mais pensamento consciente e deu insights sobre o processo de tomada de decisão mais lento e deliberado. Os pesquisadores examinaram como as limitações de tempo afetaram as respostas dos participantes, revelando mais sobre a influência dos julgamentos rápidos nos preconceitos.
A partir desses experimentos, descobriu-se que os humanos tomaram decisões ligeiramente mais tendenciosas do que os modelos ao analisar frases do mundo real. No entanto, com frases sintéticas, que eram mais controladas e menos variadas, os modelos mostraram maior preconceito. Essa disparidade levanta questões sobre como diferentes tipos de frases afetam o preconceito.
Os pesquisadores categorizaram os preconceitos em duas áreas principais. Por um lado, estão os artefatos de anotação, que são preconceitos que existem apenas em conjuntos de dados de treinamento específicos e não refletem o uso da linguagem no mundo real. Por outro lado, estão os preconceitos semelhantes aos humanos, que podem ajudar em alguns contextos, mas também podem levar a resultados prejudiciais.
Para analisar esses preconceitos mais a fundo, os pesquisadores criaram interfaces para anotações humanas, permitindo que eles comparassem melhor o desempenho de modelos e humanos. Especificamente, eles analisaram como o preconceito de gênero se manifesta nas tarefas de resolução de co-referência em inglês. Eles descobriram que os humanos muitas vezes tendem a interpretações estereotipadas das frases, o que pode levar a conclusões tendenciosas.
O estudo focou em três conjuntos de dados projetados para identificar o preconceito de gênero na resolução de co-referência. Esses conjuntos incluíam dados sintéticos, compostos por frases com uma estrutura específica, e dados mais naturais coletados de fontes do mundo real. Os dados sintéticos permitiram comparações controladas, enquanto os dados naturais ofereceram um reflexo mais preciso de como as pessoas leem e interpretam a linguagem.
Usando um método chamado tarefa MAZE, que exige que os participantes escolham a próxima palavra em uma frase entre duas opções, os pesquisadores visavam entender o tempo das decisões de leitura. Esse método de processamento incremental oferece insights sobre quão rapidamente e efetivamente as pessoas podem resolver pronomes com base no contexto anterior.
Principais Descobertas dos Experimentos
Os experimentos revelaram várias descobertas importantes sobre o preconceito de gênero tanto em humanos quanto em modelos:
Preconceito Humano vs. Preconceito do Modelo: Os humanos mostraram uma tendência maior ao preconceito de gênero com frases naturais em comparação com as sintéticas, indicando que a natureza do conteúdo pode influenciar significativamente o preconceito. Para frases sintéticas, os modelos exibiram preconceitos mais fortes.
Influência das Limitações de Tempo: À medida que os participantes tiveram menos tempo para ler as frases, seu preconceito de gênero aumentou. Essa descoberta destaca como o tempo de processamento limitado pode agravar os preconceitos na tomada de decisões.
Tendências no Tempo de Resposta: O tempo que os participantes levaram para tomar decisões estava relacionado à presença do preconceito. Tempos de resposta mais longos foram observados ao distinguir pronomes de distrações, sugerindo que julgamentos rápidos podem levar a decisões tendenciosas.
Comparação de Erros: Ao analisar os erros cometidos tanto por humanos quanto por modelos, foi observado que os modelos tendiam a errar mais com profissões fortemente associadas a um gênero específico. Em contraste, os humanos cometeram erros em uma gama mais ampla de profissões.
Diferenças de Desempenho: No geral, os modelos mostraram menos precisão em frases do mundo real, enquanto os humanos tendiam a ter um desempenho melhor, indicativo de que os humanos podem usar o raciocínio do senso comum de forma mais eficaz em contextos naturais.
Conclusão
A pesquisa contribui para a compreensão de como os preconceitos operam tanto na tomada de decisão humana quanto nos modelos de linguagem. As semelhanças encontradas entre os dois sugerem que os preconceitos não são apenas inerentes aos modelos de linguagem, mas refletem questões sociais mais amplas presentes na cognição humana.
Enquanto os modelos de linguagem são treinados em grandes conjuntos de dados que podem conter preconceitos, os indivíduos que interpretam a linguagem trazem seus próprios preconceitos para a jogada. Ao entender essas semelhanças, medidas podem ser tomadas para reduzir preconceitos em modelos de linguagem, o que pode levar a sistemas de processamento de linguagem mais justos e precisos.
Pesquisas futuras podem expandir essas descobertas examinando diferentes idiomas, explorando conjuntos de dados mais diversos e investigando como os preconceitos podem diferir entre contextos culturais. Além disso, avaliar como incorporar características que mitiguem esses preconceitos em modelos poderia aumentar a equidade nas tecnologias de compreensão de linguagem.
Implicações para o Futuro
A exploração contínua do preconceito de gênero no processamento de linguagem é vital, especialmente à medida que os modelos se tornam cada vez mais integrados em aplicações do dia-a-dia, como chatbots, serviços de tradução e geração de conteúdo. Reconhecer e abordar preconceitos não apenas melhorará a funcionalidade desses sistemas, mas também promoverá um ambiente digital mais equitativo.
Compreender os processos cognitivos que levam ao preconceito, tanto em humanos quanto em máquinas, pode resultar em um melhor design e treinamento de modelos. Isso enfatiza a importância de considerar as implicações éticas ao desenvolver tecnologias de inteligência artificial.
À medida que avançamos para sistemas mais sofisticados, manter a consciência de como os preconceitos influenciam a compreensão da linguagem será crucial para garantir que a inteligência artificial sirva todos os usuários de forma justa e eficaz.
Título: Comparing Humans and Models on a Similar Scale: Towards Cognitive Gender Bias Evaluation in Coreference Resolution
Resumo: Spurious correlations were found to be an important factor explaining model performance in various NLP tasks (e.g., gender or racial artifacts), often considered to be ''shortcuts'' to the actual task. However, humans tend to similarly make quick (and sometimes wrong) predictions based on societal and cognitive presuppositions. In this work we address the question: can we quantify the extent to which model biases reflect human behaviour? Answering this question will help shed light on model performance and provide meaningful comparisons against humans. We approach this question through the lens of the dual-process theory for human decision-making. This theory differentiates between an automatic unconscious (and sometimes biased) ''fast system'' and a ''slow system'', which when triggered may revisit earlier automatic reactions. We make several observations from two crowdsourcing experiments of gender bias in coreference resolution, using self-paced reading to study the ''fast'' system, and question answering to study the ''slow'' system under a constrained time setting. On real-world data humans make $\sim$3\% more gender-biased decisions compared to models, while on synthetic data models are $\sim$12\% more biased.
Autores: Gili Lior, Gabriel Stanovsky
Última atualização: 2023-05-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.15389
Fonte PDF: https://arxiv.org/pdf/2305.15389
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.unf.edu/lgbtqcenter/Pronouns.aspx
- https://www.bls.gov/cps/cpsaat11.htm
- https://leaderboard.allenai.org/
- https://github.com/addrummond/ibex
- https://about.citiprogram.org/course/human-subjects-research-social-behavioral-educational-sbe-refresher-1/
- https://github.com/julianmichael/qasrl-modeling
- https://arxiv.org/pdf/2111.07997.pdf
- https://aclanthology.org/2021.eacl-main.137.pdf
- https://brown.edu/Research/AI/files/pubs/wsdm18.pdf
- https://aclanthology.org/2022.cmcl-1.9/
- https://github.com/SLAB-NLP/Cog-GB-Eval
- https://github.com/yuvalkirstain/s2e-coref
- https://anvil.works/
- https://link.springer.com/chapter/10.1007/978-981-10-7563-6_53
- https://www.latex-project.org/help/documentation/encguide.pdf