Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial# Aprendizagem de máquinas

Examinando o Viés de Gênero em Modelos de Visão-Linguagem

Este artigo mostra como os VLMs refletem estereótipos de gênero em tarefas do dia a dia.

― 6 min ler


Viés de Gênero em ModelosViés de Gênero em Modelosde IAenraizados nas tarefas.VLMs mostram estereótipos de gênero bem
Índice

Modelos de visão-linguagem (VLMs) são ferramentas que juntam imagens e texto pra fazer várias tarefas, tipo identificar pessoas em fotos ou descrever cenas. Apesar de funcionarem bem em casos simples onde só tem uma pessoa na cena, eles têm dificuldade em situações com várias pessoas de diferentes gêneros fazendo atividades variadas. Esse artigo foca em um viés específico que aparece nos VLMs chamado viés de Ligação Gênero-Atividade (GAB). Esse viés afeta como o modelo associa certas atividades com o gênero esperado de uma pessoa, baseado em estereótipos da sociedade.

O que é o Viés de Ligação Gênero-Atividade?

O viés de Ligação Gênero-Atividade se refere à tendência dos VLMs de achar que uma atividade específica tá ligada a um determinado gênero. Por exemplo, se uma imagem mostra uma mulher consertando um carro, o modelo pode errar e achar que um homem deveria estar fazendo essa tarefa, porque muitas vezes isso é visto como uma atividade associada aos homens. Esse viés pode gerar erros, especialmente quando os dois gêneros estão na cena.

A Criação do Conjunto de Dados GAB

Pra entender e analisar melhor esse viés, os pesquisadores criaram um conjunto de dados chamado Conjunto de Dados de Ligação Gênero-Atividade (GAB). Esse conjunto inclui cerca de 5.500 imagens geradas por IA que mostram uma variedade de atividades feitas por homens e mulheres. As imagens foram feitas pra representar diferentes cenários, incluindo aqueles onde os dois gêneros estão presentes e aqueles onde só um gênero tá representado.

Gerando Imagens

Pra criar o conjunto GAB, foi usado um método em duas etapas. Primeiro, foram gerados prompts pra ajudar na criação das imagens. Depois, um programa chamado DALL-E 3 foi usado pra criar imagens de alta qualidade baseadas nesses prompts. Avaliadores humanos analisaram as imagens pra conferir realismo, qualidade e diversidade, garantindo que elas atendiam aos critérios desejados.

Avaliando o Viés no Conjunto de Dados

O conjunto GAB divide as imagens em quatro grupos com base no gênero do performer e no número de indivíduos presentes. Cada grupo ajuda os pesquisadores a avaliar quão bem os VLMs conseguem ligar atividades aos performers e identificar quaisquer viés que possam existir nos modelos. Essa abordagem estruturada facilita uma análise detalhada de como os VLMs lidam com associações entre gênero e atividade.

Entendendo o Desempenho dos VLMs

Os pesquisadores avaliaram o desempenho de 12 VLMs populares no conjunto GAB pra ver quão bem eles conseguiam combinar imagens com descrições de texto correspondentes. O desempenho foi analisado em duas tarefas principais: recuperação de imagem pra texto e recuperação de texto pra imagem.

Recuperação de Imagem pra Texto

Na tarefa de recuperação de imagem pra texto, o objetivo era determinar quão precisamente um modelo conseguia identificar uma legenda que combinasse com uma imagem dada. Esse processo revelou que a precisão dos modelos caía drasticamente quando o gênero esperado não estava realizando a atividade na imagem. Por exemplo, se uma mulher aparecia consertando um aparelho com um homem na mesma cena, a precisão na identificação da legenda caía. Por outro lado, quando o gênero esperado realizava a atividade sozinho, os modelos iam bem.

Recuperação de Texto pra Imagem

A tarefa de recuperação de texto pra imagem envolveu avaliar quão precisamente os modelos conseguiam encontrar uma imagem que combinasse com uma descrição de texto dada. Nesse caso, os modelos mostraram um desempenho aleatório, sugerindo que eles tinham dificuldade em entender a relação entre o texto e as imagens, especialmente quando os dois gêneros eram mencionados.

O Impacto dos Estereótipos de Gênero

Essa pesquisa destaca como os VLMs perpetuam estereótipos de gênero. Quando os modelos são treinados com dados que refletem os viés da sociedade, eles internalizam esses viés nas suas previsões. O estudo revela que os VLMs tendem a favorecer visões estereotipadas dos papéis de gênero, afetando seu desempenho em aplicações do mundo real.

Exemplos de Viés em Ação

Por exemplo, se a atividade é "consertar", os VLMs mostraram uma queda acentuada na precisão quando a performer era uma mulher, especialmente se um homem também estava presente na cena. Isso significa que a presença de dois gêneros pode confundir o modelo, reduzindo a chance de identificar corretamente quem tá realizando a atividade quando eles fogem das normas de gênero esperadas.

Implicações do Viés em Aplicações

As implicações desses viés são significativas. Em áreas como contratação, decisões legais ou avaliações de segurança, o desempenho dos VLMs pode acabar embutindo viés sociais em sistemas de tomada de decisão. Isso destaca a importância de enfrentar esses viés ativamente pra garantir resultados justos e precisos.

Passos pra Abordar Viés em VLMs

Os pesquisadores propuseram várias maneiras de reduzir o viés nos VLMs. Isso pode incluir:

  • Projeção Ortogonal: Essa abordagem ajusta as saídas do modelo pra minimizar o viés enquanto mantém o desempenho.
  • Criação de Conjuntos de Dados Justos: Garantir que os dados de treinamento sejam equilibrados e livres de estereótipos de gênero pode ajudar os modelos a aprenderem de forma mais precisa.
  • Ajuste de Prompt: Isso envolve otimizar os prompts de entrada pra guiar os modelos em direções mais neutras.

Direções Futuros de Pesquisa

As descobertas desse estudo abrem várias possibilidades pra futuras pesquisas. Algumas delas incluem:

  • Explorar Outros Viés Sociais: As técnicas e métodos usados nessa pesquisa poderiam ser aplicados pra lidar com viés relacionados à raça ou idade.
  • Investigar Fontes de Dados de Treinamento: Entender como o viés entra nos conjuntos de dados de treinamento pode trazer insights sobre como criar modelos melhores.

Conclusão

Em conclusão, o viés de Ligação Gênero-Atividade observado nos VLMs destaca uma questão crítica no treinamento e aplicação de IA. Ao reconhecer e abordar esses viés, os pesquisadores podem trabalhar pra criar modelos mais justos e precisos que se alinhem melhor com cenários do mundo real. As descobertas do conjunto de dados GAB servem como base pra uma exploração mais aprofundada dos viés em IA, contribuindo, em última análise, pra um cenário tecnológico mais justo.

Fonte original

Título: GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models

Resumo: Vision-language models (VLMs) are intensively used in many downstream tasks, including those requiring assessments of individuals appearing in the images. While VLMs perform well in simple single-person scenarios, in real-world applications, we often face complex situations in which there are persons of different genders doing different activities. We show that in such cases, VLMs are biased towards identifying the individual with the expected gender (according to ingrained gender stereotypes in the model or other forms of sample selection bias) as the performer of the activity. We refer to this bias in associating an activity with the gender of its actual performer in an image or text as the Gender-Activity Binding (GAB) bias and analyze how this bias is internalized in VLMs. To assess this bias, we have introduced the GAB dataset with approximately 5500 AI-generated images that represent a variety of activities, addressing the scarcity of real-world images for some scenarios. To have extensive quality control, the generated images are evaluated for their diversity, quality, and realism. We have tested 12 renowned pre-trained VLMs on this dataset in the context of text-to-image and image-to-text retrieval to measure the effect of this bias on their predictions. Additionally, we have carried out supplementary experiments to quantify the bias in VLMs' text encoders and to evaluate VLMs' capability to recognize activities. Our experiments indicate that VLMs experience an average performance decline of about 13.2% when confronted with gender-activity binding bias.

Autores: Ali Abdollahi, Mahdi Ghaznavi, Mohammad Reza Karimi Nejad, Arash Mari Oriyad, Reza Abbasi, Ali Salesi, Melika Behjati, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah

Última atualização: 2024-10-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.21001

Fonte PDF: https://arxiv.org/pdf/2407.21001

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes