Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Amplificação de Viés de Gênero em Transformers Visuais

Esse artigo investiga o viés de gênero em Transformers de Visão comparado aos CNNs.

― 5 min ler


ViTs Amplificam o Viés deViTs Amplificam o Viés deGênerode gênero mais forte do que as CNNs.Transformers de Visão mostram um viés
Índice

Modelos de deep learning usados em visão computacional costumam ter preconceitos sociais, tipo preconceito de gênero. Recentemente, os Vision Transformers (ViTs) ganharam força porque eles se saem melhor que as Redes Neurais Convolucionais (CNNs) em várias tarefas. Mas a maioria dos estudos sobre preconceito focou nas CNNs. Este artigo investiga como os ViTs podem amplificar o preconceito de gênero mais do que as CNNs.

O Que São Vision Transformers?

Os Vision Transformers são um novo tipo de modelo que se inspirou no processamento de linguagem natural. Diferente das CNNs, que analisam imagens através de camadas de convolução, os ViTs usam uma técnica chamada Atenção Autocentrada de Múltiplas Cabeças. Essa técnica ajuda o modelo a focar em diferentes partes de uma imagem, permitindo que ele lembre de longas distâncias nos dados. Isso pode ajudar o modelo a reunir mais informações de uma imagem.

Por Que O Preconceito É Importante?

Preconceito na IA pode levar a resultados injustos. Por exemplo, se um modelo tem um preconceito a favor de homens para certos empregos, isso pode afetar decisões de contratação. É crucial entender se diferentes tipos de modelos lidam com preconceitos de maneiras diferentes, especialmente agora que os ViTs estão se tornando mais comuns.

Medindo O Preconceito

Para examinar o preconceito, apresentamos novas formas de medi-lo, incluindo um método chamado Diferença de Precisão. Isso ajuda a descobrir se as CNNs e os ViTs mostram preconceito de gênero de maneira diferente e como medir esse preconceito claramente.

O Experimento

No nosso estudo, usamos vários modelos de CNNs e ViTs. Analisamos como esses modelos se comportavam ao prever imagens relacionadas ao gênero. Criamos imagens de profissões típicas de gênero, como CEOs e enfermeiros, para ver como os modelos responderiam.

Criação do Dataset

Coletamos imagens da Internet usando títulos de emprego específicos. Para empregos como CEO e Engenheiro, que são geralmente dominados por homens, garantimos incluir mais imagens masculinas. Em contrapartida, para empregos como Enfermeiro e Professor, que são mais femininos, incluímos mais imagens femininas. Isso criou dois conjuntos de dados: um com um número igual de imagens masculinas e femininas e outro que refletia os desequilíbrios do mundo real.

Passos do Experimento

  1. Seleção de Modelos: Escolhemos quatro modelos de CNN e quatro de ViT para analisar seu comportamento.
  2. Ajuste Fino: Cada modelo foi treinado em nosso dataset para entender melhor o preconceito de gênero.
  3. Teste: Usamos dois métodos para medir o preconceito: Diferença de Precisão e uma versão modificada do Índice de Associação Imagem-Imagens (IIAS).

Diferença de Precisão

Esse método compara quão bem os modelos preveem os gêneros com base nos dados de treinamento. Uma diferença maior indica um preconceito mais forte. Por exemplo, se um modelo prevê homens muito melhor do que mulheres, isso mostraria um preconceito.

Índice de Associação Imagem-Imagens (IIAS)

Esse método observa quão associadas certas imagens estão com o gênero. Por exemplo, se uma imagem de um CEO estava mais associada a homens do que a mulheres, isso mostra um preconceito.

Resultados do Experimento

Descobertas da Diferença de Precisão

Os resultados mostraram que os ViTs tiveram uma Diferença de Precisão significativamente maior em comparação com as CNNs. Basicamente, os ViTs se saíram pior na hora de prever os gêneros de forma justa. Isso sugere que eles amplificam o preconceito de gênero mais do que as CNNs.

Descobertas do IIAS

Tendências semelhantes foram observadas com o IIAS. Novamente, os ViTs mostraram preconceitos mais altos em ocupações, refletindo estereótipos de gênero tradicionais. Por exemplo, empregos como CEO tiveram uma pontuação positiva indicando preconceito masculino, enquanto empregos como Enfermeiro mostraram uma pontuação negativa indicando preconceito feminino.

Curiosamente, quando escondemos os rostos nas imagens para ver se os modelos ainda conseguiam detectar o gênero sem características faciais claras, os modelos ainda mostraram preconceito. Isso indica que, mesmo sem pistas de gênero visíveis, os modelos aprenderam com a roupa ou outros aspectos.

Análise das Previsões do CLIP

Para explorar mais o preconceito, usamos outro modelo chamado CLIP, que conecta imagens e texto. Testamos como ele previa títulos de emprego para imagens de homens e mulheres. Os resultados mostraram que empregos geralmente associados a homens dominavam as previsões feitas para imagens masculinas, enquanto imagens femininas estavam ligadas a profissões tradicionalmente femininas.

Quando detalhamos as previsões, notamos que os codificadores de ViT geralmente mostraram mais enviesamento nas previsões, refletindo um preconceito de gênero mais forte em comparação com os codificadores de CNN. O preconceito presente no CLIP era consistente com nossas descobertas dos experimentos anteriores.

Conclusão

Com nossa pesquisa, concluímos que a arquitetura de um modelo influencia como preconceitos sociais, especificamente o preconceito de gênero, são amplificados. Descobrimos que os Vision Transformers amplificam o preconceito de gênero mais do que as Redes Neurais Convolucionais.

Isso acontece, em parte, porque os ViTs têm uma estrutura de aprendizado diferente que os deixa generalizar melhor e capturar mais informações visuais. Como resultado, eles aprendem, sem querer, os preconceitos sociais presentes nos dados de treinamento de forma mais eficaz do que as CNNs.

Considerações Futuras

As descobertas desta pesquisa podem ajudar os desenvolvedores a entenderem os impactos de diferentes arquiteturas de modelos em relação aos preconceitos sociais. Embora os ViTs possam oferecer desempenho superior em várias áreas, seu potencial de amplificar preconceitos não pode ser ignorado.

À medida que o uso de grandes modelos multimodais cresce, entender os riscos do preconceito se torna essencial. Esta pesquisa estabelece as bases para futuros estudos sobre como os modelos de IA podem perpetuar preconceitos sociais e o que pode ser feito para mitigar esses problemas.

Fonte original

Título: Biased Attention: Do Vision Transformers Amplify Gender Bias More than Convolutional Neural Networks?

Resumo: Deep neural networks used in computer vision have been shown to exhibit many social biases such as gender bias. Vision Transformers (ViTs) have become increasingly popular in computer vision applications, outperforming Convolutional Neural Networks (CNNs) in many tasks such as image classification. However, given that research on mitigating bias in computer vision has primarily focused on CNNs, it is important to evaluate the effect of a different network architecture on the potential for bias amplification. In this paper we therefore introduce a novel metric to measure bias in architectures, Accuracy Difference. We examine bias amplification when models belonging to these two architectures are used as a part of large multimodal models, evaluating the different image encoders of Contrastive Language Image Pretraining which is an important model used in many generative models such as DALL-E and Stable Diffusion. Our experiments demonstrate that architecture can play a role in amplifying social biases due to the different techniques employed by the models for feature extraction and embedding as well as their different learning properties. This research found that ViTs amplified gender bias to a greater extent than CNNs

Autores: Abhishek Mandal, Susan Leavy, Suzanne Little

Última atualização: 2023-09-15 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.08760

Fonte PDF: https://arxiv.org/pdf/2309.08760

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes