Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial# Computação e linguagem

Abordando o viés cognitivo em modelos de linguagem

Um estudo sobre como identificar e reduzir o viés cognitivo em modelos de linguagem grandes.

― 6 min ler


Viés Cognitivo em ModelosViés Cognitivo em Modelosde Linguagemdecisão da IA.Estudo revela viés nos processos de
Índice

Modelos de linguagem grandes (LLMs) são ferramentas que podem ajudar em várias tarefas de tomada de decisão. Mas, como eles são treinados em dados criados por pessoas, eles podem pegar preconceitos que existem na sociedade e também mostrar seus próprios preconceitos, chamados de preconceitos cognitivos. Esses preconceitos podem afetar o quão justas e claras são suas decisões.

Neste trabalho, apresentamos um método para identificar, avaliar e reduzir preconceitos cognitivos em LLMs, especialmente ao tomar decisões importantes. Criamos um conjunto de dados com 16.800 prompts para testar diferentes tipos de preconceitos cognitivos, incluindo preconceitos introduzidos pelos prompts, aqueles que surgem da ordem em que a informação é apresentada e aqueles que são inerentes ao modelo. Também testamos maneiras de reduzir esses preconceitos e sugerimos uma nova abordagem onde os LLMs podem ajudar a reduzir seus próprios preconceitos nos prompts que usam.

Nossa análise dá uma visão detalhada de como o preconceito cognitivo aparece em vários LLMs. Mostramos que nosso método de auto-terapia ajuda a reduzir preconceitos cognitivos sem precisar criar exemplos específicos para cada tipo de preconceito.

Entendendo o Preconceito Cognitivo

Preconceito cognitivo é um padrão consistente de desvio do julgamento racional, onde indivíduos ou modelos criam sua própria percepção da realidade com base nas informações que recebem. Esse preconceito pode aparecer na tomada de decisão humana e também em como os humanos interagem com sistemas de aprendizado de máquina.

Quando LLMs ajudam humanos em tomadas de decisão de alto risco, como avaliar alunos para admissão, é essencial que esses modelos sejam devidamente verificados para garantir que as decisões não sejam afetadas por preconceitos cognitivos.

Preconceitos cognitivos podem aparecer de várias maneiras. Por exemplo, a maneira como as perguntas são formuladas, a ordem em que as informações são compartilhadas ou o conhecimento existente que o modelo tem pode influenciar as decisões. Muitas vezes, esses preconceitos não são claramente visíveis, tornando mais difícil identificá-los.

Categorias de Preconceito Cognitivo

Classificamos o preconceito cognitivo em três tipos principais:

  1. Preconceito cognitivo baseado em prompt: Esse preconceito vem de como um usuário faz o prompt para o modelo.
  2. Preconceito cognitivo inerente: Esse preconceito existe no modelo devido aos dados em que foi treinado.
  3. Preconceito sequencial: Esse preconceito surge das respostas anteriores do modelo durante uma interação.

Cada tipo de preconceito pode levar a decisões inconsistentes, especialmente em situações críticas.

Medindo o Preconceito Cognitivo

Para avaliar o preconceito cognitivo, desenvolvemos uma estrutura para avaliação quantitativa e mitigação automática. Projetamos uma variedade de prompts para examinar diferentes preconceitos cognitivos, modelados após experimentos psicológicos, mas adaptados para LLMs. Também criamos métricas para avaliar como o preconceito cognitivo afeta a tomada de decisão em LLMs.

Aplicamos essa estrutura em vários experimentos, incluindo a avaliação do processo de admissão de alunos. Analisando o comportamento dos modelos em diferentes tipos de prompts, conseguimos medir suas respostas a prompts tendenciosos e neutros.

Tipos de Preconceito Cognitivo

1. Preconceito Baseado em Prompt

Esse preconceito é introduzido pela formulação do próprio prompt. Por exemplo, se um responsável pela admissão é influenciado pela redação de uma pergunta, sua decisão pode não refletir uma avaliação justa das habilidades do aluno.

2. Preconceito Inerente

LLMs podem carregar preconceitos dos dados de treinamento. Por exemplo, se um modelo foi treinado em dados que incluem estereótipos sobre gênero ou etnia, esses preconceitos podem afetar suas decisões. Isso pode levar a um tratamento injusto de certos grupos.

3. Preconceito Sequencial

O preconceito sequencial ocorre quando as respostas anteriores de um modelo impactam suas decisões posteriores. Por exemplo, se um modelo é perguntado para avaliar vários alunos um após o outro, suas decisões anteriores podem influenciar como ele vê o próximo aluno, levando a inconsistências.

Métodos para Mitigar Preconceitos Cognitivos

Há várias abordagens para reduzir preconceitos cognitivos em LLMs:

  1. Abordagens de zero-shot: Fornecendo informações sobre preconceitos potenciais sem exemplos.
  2. Abordagens de few-shot: Oferecendo exemplos de respostas desejadas ou indesejadas para treinar o modelo.
  3. Abordagens de auto-mitigação: Permitindo que o modelo reconheça e corrija seus próprios preconceitos.

Uma percepção de estudos com humanos é que as pessoas tendem a mostrar menos preconceito cognitivo quando são informadas sobre isso. Isso levanta a questão se o mesmo pode ser verdade para LLMs.

Testes e Resultados

Realizamos experimentos usando diferentes tipos de prompts para testar a presença de preconceitos cognitivos em vários LLMs. Por exemplo, pedimos aos modelos para decidir sobre as admissões de alunos com base em seus perfis. Observamos como suas decisões mudavam com base nos prompts usados.

Principais Descobertas

  • LLMs demonstraram preconceito cognitivo, especialmente em preconceitos de formulação e atribuição a grupos.
  • Modelos como o GPT-4 foram particularmente sensíveis a como as perguntas foram formuladas.
  • Métodos de autoajuda, onde os modelos revisam seus próprios prompts, mostraram potencial em reduzir o efeito do preconceito.

Conclusão

O preconceito cognitivo é uma preocupação significativa na implementação de LLMs, especialmente em cenários onde decisões têm consequências substanciais, como admissões de alunos. Nosso trabalho identifica vários tipos de preconceitos cognitivos, avalia seu impacto e oferece métodos para mitigar seus efeitos.

O método de autoajuda, onde os modelos ajustam seus prompts para reduzir preconceitos, é uma descoberta chave. Essa estratégia mostra como os LLMs podem ser aprimorados para se tornarem mais confiáveis e justos em seus processos de tomada de decisão.

Direções Futuras

Embora esta pesquisa aborde várias formas de preconceito cognitivo, há muito mais a explorar. Pesquisas futuras poderiam expandir a gama de preconceitos examinados, desenvolver ferramentas de avaliação mais robustas e melhorar as capacidades de auto-mitigação dos LLMs.

Esperamos que, ao compartilhar nossas descobertas e ferramentas, possamos contribuir para o desenvolvimento de LLMs que sejam não apenas poderosos, mas também justos e equitativos em suas habilidades de tomada de decisão.

Ao enfrentar o preconceito cognitivo, damos um passo significativo em direção a sistemas de IA mais responsáveis que podem ajudar os humanos a tomar decisões melhores e mais informadas.

Fonte original

Título: Cognitive Bias in Decision-Making with LLMs

Resumo: Large language models (LLMs) offer significant potential as tools to support an expanding range of decision-making tasks. Given their training on human (created) data, LLMs have been shown to inherit societal biases against protected groups, as well as be subject to bias functionally resembling cognitive bias. Human-like bias can impede fair and explainable decisions made with LLM assistance. Our work introduces BiasBuster, a framework designed to uncover, evaluate, and mitigate cognitive bias in LLMs, particularly in high-stakes decision-making tasks. Inspired by prior research in psychology and cognitive science, we develop a dataset containing 13,465 prompts to evaluate LLM decisions on different cognitive biases (e.g., prompt-induced, sequential, inherent). We test various bias mitigation strategies, while proposing a novel method utilizing LLMs to debias their own human-like cognitive bias within prompts. Our analysis provides a comprehensive picture of the presence and effects of cognitive bias across commercial and open-source models. We demonstrate that our selfhelp debiasing effectively mitigates model answers that display patterns akin to human cognitive bias without having to manually craft examples for each bias.

Autores: Jessica Echterhoff, Yao Liu, Abeer Alessa, Julian McAuley, Zexue He

Última atualização: 2024-10-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.00811

Fonte PDF: https://arxiv.org/pdf/2403.00811

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes