Abordando Estereótipos em Modelos de Linguagem Grandes
Analisando o impacto dos LLMs nos estereótipos sociais e formas de melhorar os resultados.
― 6 min ler
Índice
- O Desenvolvimento dos LLMs e Seu Treinamento
- A Necessidade de Avaliação
- Principais Descobertas sobre Estereótipos em LLMs
- Diferenças Entre Modelos
- Impacto de Comandos do Sistema
- Principais Categorias de Estereótipos
- Identidades Interseccionais
- Recomendações para Melhoria
- Conclusão
- Direções Futuras
- Pensamentos Finais
- Fonte original
- Ligações de referência
Modelos de Linguagem Grande (LLMs) estão super disponíveis desde que ferramentas como o ChatGPT foram lançadas. Isso gerou um interesse enorme em como esses modelos funcionam e os possíveis danos que podem causar. Uma área de preocupação é o estereótipo, que pode levar a resultados negativos para vários grupos de pessoas. Neste artigo, vamos investigar como os LLMs lidam com essas questões, fazendo conexões com o que aprendemos sobre motores de busca.
O Desenvolvimento dos LLMs e Seu Treinamento
Quando os LLMs são criados, rola um esforço gigante para torná-los seguros e confiáveis. Infelizmente, essa preocupação com a segurança às vezes faz com que seja deixado de lado o impacto social dos conteúdos que eles geram.
Segurança no Treinamento: Muitos LLMs passam por treinos voltados para segurança, o que significa que eles são feitos para evitar conteúdos prejudiciais. Isso inclui áreas como discurso de ódio, desinformação e conselhos nocivos em geral. No entanto, o que geralmente falta é uma Avaliação profunda de como esses sistemas lidam com estereótipos, especialmente em tópicos sensíveis.
Contexto Histórico com Motores de Busca: Uma situação semelhante aconteceu com motores de busca, onde certas sugestões de autocompletar reforçaram estereótipos. As empresas precisaram lidar com esses problemas, o que nos dá uma pista de como os LLMs também precisam lidar com estereótipos.
A Necessidade de Avaliação
À medida que os LLMs são integrados em ferramentas do dia a dia, é crucial examinar o que eles produzem, especialmente no que diz respeito a estereótipos. Assim como os motores de busca, os LLMs geram texto baseado em comandos dos usuários, e os resultados podem reforçar estereótipos se não forem moderados adequadamente.
Métodos de Avaliação: Para avaliar estereótipos nos LLMs, os pesquisadores usam várias métricas. Isso inclui taxas de recusa (com que frequência o modelo se recusa a responder), toxicidade (quão prejudicial é a resposta), sentimento (o tom emocional da resposta) e consideração (o nível de respeito demonstrado na resposta).
Principais Descobertas sobre Estereótipos em LLMs
Ao examinar as saídas de vários LLMs, os pesquisadores encontraram diferenças marcantes em como esses modelos lidam com estereótipos.
Diferenças Entre Modelos
Alguns modelos eram melhores em recusar comandos inadequados, enquanto outros geravam respostas mais tóxicas ou estereotipadas. Por exemplo:
- Llama-2: Esse modelo tinha altas taxas de recusa e frequentemente evitava responder perguntas sobre certos grupos, sugerindo que ele enfrenta dificuldades em lidar com conteúdo sensível.
- Starling: Esse modelo produziu respostas mais positivas e geralmente tinha um tom melhor.
- Falcon: Infelizmente, esse modelo teve os níveis mais altos de toxicidade em suas respostas.
Essas variações destacam que nem todos os LLMs são iguais quando se trata de lidar com questões sensíveis.
Impacto de Comandos do Sistema
Adicionar comandos de segurança, desenhados para guiar o modelo a produzir conteúdos mais seguros, levou a uma certa redução em estereótipos. No entanto, isso não foi consistentemente eficaz em todos os modelos. Em alguns casos, remover comandos baseados em chat levou a um aumento nas respostas tóxicas, indicando que o formato de interação dos usuários com esses LLMs pode influenciar suas saídas.
Principais Categorias de Estereótipos
Os pesquisadores examinaram várias categorias onde estereótipos eram evidentes nas saídas dos LLMs. Essas categorias incluíram:
- Pessoas e Etnicidades
- Gênero
- Orientação Sexual
- Idade
- Religião
Nessas áreas, estereótipos prejudiciais eram frequentemente perpetuados, especialmente para identidades marginalizadas. Por exemplo, os LLMs mostraram uma negatividade significativa ao discutir grupos étnicos e demonstraram falta de sensibilidade em relação a identidades LGBTQI.
Identidades Interseccionais
Ao examinar identidades interseccionais-como mulheres negras ou indivíduos LGBTQI-os pesquisadores descobriram que essas identidades frequentemente acionavam ainda mais estereótipos. Isso indica que identidades sociais sobrepostas podem levar a um aumento do viés nas saídas dos LLMs.
Recomendações para Melhoria
Com base nas descobertas, várias sugestões surgiram para melhorar como os LLMs lidam com estereótipos:
Maior Foco em Estereótipos: Os desenvolvedores de LLMs deveriam prestar mais atenção em como seus modelos lidam com estereótipos, especialmente nas fases de treinamento e avaliação.
Métricas de Avaliação Diversas: Os métodos de avaliação atuais muitas vezes ignoram estereótipos. Novas métricas deveriam ser desenvolvidas para abordar especificamente essa questão e expandir além da toxicidade.
Transparência em Relação às Medidas de Segurança: Os desenvolvedores de LLMs devem ser transparentes sobre seus processos de treinamento, quais dados foram usados e como diferentes identidades sociais foram representadas nos conjuntos de treinamento.
Colaboração Comunitária: Desenvolvedores, formuladores de políticas e pesquisadores deveriam trabalhar juntos para criar diretrizes que garantam que os LLMs promovam justiça, respeito e interações positivas.
Conclusão
A presença de estereótipos nas saídas dos LLMs é uma questão significativa que precisa ser abordada. Contextos históricos com motores de busca fornecem lições valiosas para os desenvolvedores de LLMs. A pesquisa indica que, embora alguns modelos lidem melhor com estereótipos do que outros, ainda há um longo caminho a percorrer para criar sistemas de IA seguros e equitativos. Ao focar em melhores métodos de avaliação e ser transparente nos processos de treinamento, os LLMs podem trabalhar para minimizar estereótipos prejudiciais e promover uma abordagem mais inclusiva na geração de linguagem.
Direções Futuras
À medida que os LLMs se tornam mais integrados à nossa vida diária, seu impacto na sociedade só vai crescer. Pesquisas contínuas são necessárias para entender as nuances de como esses modelos operam e seus possíveis efeitos sobre vários grupos sociais. A colaboração entre pesquisadores e desenvolvedores será crucial para trazer mudanças significativas nas práticas dos LLMs e garantir um futuro tecnológico mais inclusivo.
Pensamentos Finais
No final das contas, as expectativas da sociedade em relação à tecnologia de IA devem ser correspondidas com a responsabilidade dos desenvolvedores de criar sistemas que sejam justos e equitativos. À medida que os LLMs continuam a evoluir, será essencial manter um olhar atento sobre suas saídas e responsabilizá-los pela linguagem que geram. Ao agir com base nessas descobertas e recomendações, podemos abrir caminho para um futuro onde a IA contribua positivamente para a nossa compreensão de identidades diversas e fomente um diálogo respeitoso entre todos os usuários.
Título: How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies
Resumo: With the widespread availability of LLMs since the release of ChatGPT and increased public scrutiny, commercial model development appears to have focused their efforts on 'safety' training concerning legal liabilities at the expense of social impact evaluation. This mimics a similar trend which we could observe for search engine autocompletion some years prior. We draw on scholarship from NLP and search engine auditing and present a novel evaluation task in the style of autocompletion prompts to assess stereotyping in LLMs. We assess LLMs by using four metrics, namely refusal rates, toxicity, sentiment and regard, with and without safety system prompts. Our findings indicate an improvement to stereotyping outputs with the system prompt, but overall a lack of attention by LLMs under study to certain harms classified as toxic, particularly for prompts about peoples/ethnicities and sexual orientation. Mentions of intersectional identities trigger a disproportionate amount of stereotyping. Finally, we discuss the implications of these findings about stereotyping harms in light of the coming intermingling of LLMs and search and the choice of stereotyping mitigation policy to adopt. We address model builders, academics, NLP practitioners and policy makers, calling for accountability and awareness concerning stereotyping harms, be it for training data curation, leader board design and usage, or social impact measurement.
Autores: Alina Leidinger, Richard Rogers
Última atualização: 2024-08-01 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.11733
Fonte PDF: https://arxiv.org/pdf/2407.11733
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://docs.google.com/spreadsheets/d/1uhvLE-VFhNhLR9KHaKr2jJAebHuPSRIG5jNd7tydjAU/edit#gid=0
- https://huggingface.co/tiiuae/falcon-7b-instruct/discussions/1
- https://about.meta.com/
- https://mistral.ai/
- https://tatsu-lab.github.io/alpaca_eval/
- https://falconllm.tii.ae/
- https://huggingface.co/blog/falcon
- https://qwenlm.github.io/blog/qwen1.5/
- https://sailorllm.github.io/
- https://huggingface.co/docs/transformers/main/en/chat_templating
- https://github.com/stanford-crfm/helm/blob/2a112cb98cd391d743cb52ab1d63c1b54f7c6a0d/src/helm/benchmark/run_specs.py
- https://huggingface.co/models