Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Abordando o viés em modelos de linguagem-visual

Este artigo fala sobre preconceitos em modelos de visão-linguagem e sugere uma solução para resultados mais justos.

― 8 min ler


Viés em Modelos de IAViés em Modelos de IAem modelos de visão-linguagem.Analisando e corrigindo os preconceitos
Índice

Modelos de visão-linguagem (VLMs) estão se tornando mais comuns na criação e edição de imagens. Esses modelos funcionam combinando texto e imagens, permitindo gerar legendas ou descrições para fotos. No entanto, eles também podem carregar preconceitos presentes nos dados usados para treiná-los. Esses dados geralmente vêm da internet, onde imagens e textos não estão necessariamente equilibrados ou justos. Este artigo analisa como esses preconceitos afetam a saída dos VLMs e propõe um método para tornar os modelos mais justos.

O Problema do Preconceito nos VLMs

Quando se treina modelos com dados da internet, um grande problema é que esses dados podem conter preconceitos sociais. Isso significa que a saída pode refletir estereótipos ou representações injustas de certos grupos. Por exemplo, se um conjunto de dados de treinamento mostra principalmente homens em cenas de ação e mulheres em ambientes domésticos, o modelo pode gerar preconceitos semelhantes em suas saídas.

Vários estudos sugeriram maneiras de reduzir esses preconceitos nos VLMs, mas muitos desses esforços dependem de métricas que podem não refletir com precisão o quanto os modelos são tendenciosos. Um conjunto de dados comum usado para avaliar preconceitos é o COCO Captions, que frequentemente mostra padrões indesejados, como contextos ligados ao gênero.

Nossa Solução Proposta

Para combater esses problemas, recomendamos criar uma nova maneira de revisar dados existentes para redução de preconceitos. Esse novo método inclui a criação de conjuntos de contraste sintéticos que equilibram a representação de gênero, mantendo todo o resto igual. Basicamente, trocamos o gênero da pessoa na imagem sem alterar o fundo.

Usando ferramentas para editar imagens, podemos criar um novo conjunto de imagens onde o equilíbrio de gênero é alcançado. Isso permite uma maneira mais confiável de avaliar e corrigir os preconceitos nesses modelos.

Como Funciona a Edição de Imagens

Na nossa abordagem, usamos técnicas avançadas de edição de imagens para alterar fotos do COCO sem mudar o fundo. Pegamos uma pessoa de uma imagem e editamos sua aparência para refletir um gênero diferente. Mantemos o contexto igual para conseguirmos avaliar com precisão o impacto do gênero.

Para fazer isso de forma eficaz, também incluímos um método de filtragem que ajuda a garantir a qualidade das imagens que produzimos. Queremos que as imagens editadas pareçam reais e mantenham um alto padrão.

Criação do Conjunto de Dados: GenSynth

Apresentamos o GenSynth como um novo conjunto de dados criado com essas imagens sintéticas. Esse conjunto é feito editando imagens do COCO, garantindo um número igual de representações masculinas e femininas. O método depende de filtragem automática para manter apenas edições de alta qualidade.

O novo conjunto de dados visa mitigar os problemas encontrados em Conjuntos de dados anteriores, oferecendo uma base mais precisa e justa para avaliar os preconceitos nos VLMs.

A Importância da Filtragem de Qualidade

Editar imagens pode às vezes produzir resultados de baixa qualidade. Para resolver isso, nosso método envolve um processo chamado filtragem K-Nearest Neighbor (KNN). Essa técnica avalia as semelhanças entre imagens editadas e imagens reais para garantir a qualidade e a precisão das edições. Se as imagens editadas passam por esse filtro, elas são incluídas no conjunto de dados final.

Avaliando o Preconceito do Modelo

Depois de criar o conjunto de dados GenSynth, testamos ele rodando avaliações de preconceito contra vários VLMs de ponta. Queremos ver como esses modelos se saem quando apresentados com um conjunto de dados equilibrado em comparação a um que não é.

Os resultados dessas avaliações são vitais para entender quanto do preconceito observado nos modelos vem dos dados em si, em vez do funcionamento do modelo.

Principais Descobertas da Nossa Pesquisa

Através de nossos experimentos, descobrimos que usar métricas de preconceito em um conjunto de dados como o GenSynth fornece uma visão mais clara de como o preconceito opera nos VLMs. Os resultados indicaram que muitos preconceitos percebidos nesses modelos podem na verdade vir do conjunto de dados usado para treiná-los.

Por exemplo, quando medimos preconceito no conjunto de dados original COCO, os valores eram muito mais altos do que os medidos no GenSynth. Isso sugere que medições anteriores poderiam ter sido distorcidas pelos preconceitos subjacentes dos dados.

Desafios na Medição de Preconceitos

Existem desafios em medir com precisão o preconceito nos VLMs devido à complexidade das interações entre o design do modelo e as características do conjunto de dados. As métricas usadas para avaliar preconceito podem ser influenciadas por como os dados subjacentes estão estruturados, o que complica as avaliações.

Um dos problemas com as métricas tradicionais de preconceito é que elas podem frequentemente refletir a estrutura do conjunto de dados em vez de alguma deficiência real no desempenho do modelo. Isso significa que só porque um modelo parece tendencioso de acordo com métricas específicas, não quer dizer que ele seja inherentemente falho.

Abordando o Preconceito de Gênero

O preconceito de gênero é um foco importante em nosso trabalho. Ao criar um conjunto de dados que equilibra representações masculinas e femininas nas imagens, podemos avaliar melhor como os modelos tratam diferentes Gêneros. Também podemos examinar como estereótipos sociais são reproduzidos nas saídas geradas pelos VLMs.

Nossas descobertas demonstram que ajustar conjuntos de dados para garantir equilíbrio de gênero reduz significativamente o impacto dos preconceitos sociais. Ao editar imagens para criar um conjunto de dados mais justo, também podemos melhorar a confiabilidade dos modelos nas suas saídas.

Implicações para Trabalhos Futuros

Os métodos e descobertas apresentados aqui têm implicações importantes para futuras pesquisas no campo da IA e aprendizado de máquina. Avançando, os pesquisadores devem priorizar a justiça em seus modelos, garantindo que os conjuntos de dados reflitam grupos diversos.

Além disso, à medida que a consciência sobre preconceitos em IA aumenta, o desenvolvimento de ferramentas e métodos para redução eficaz de preconceitos provavelmente continuará a evoluir. Este trabalho contínuo ajudará a criar uma representação mais equitativa em todas as formas de IA.

Conclusão

Em conclusão, abordar preconceitos em modelos de visão-linguagem é crucial para criar sistemas de IA justos e precisos. Ao desenvolver conjuntos de contraste sintéticos como o GenSynth e utilizar técnicas de edição de imagens, podemos melhorar a avaliação dos preconceitos dos modelos.

Esta pesquisa destaca a importância de entender a interação entre conjuntos de dados e métricas de preconceito para alcançar uma visão mais precisa do desempenho do modelo. Também abre a porta para mais exploração sobre representação justa na IA, permitindo um uso mais responsável da tecnologia na sociedade.

Agradecimentos

Agradecemos às organizações e indivíduos que desempenharam um papel essencial no desenvolvimento e apoio a esta pesquisa. As contribuições deles foram fundamentais para tornar este trabalho possível.

Detalhes da Implementação

Para quem estiver interessado em replicar este estudo, fornecemos informações adicionais sobre como as edições foram feitas e as metodologias utilizadas. Esses detalhes facilitam para os pesquisadores explorarem nossas descobertas e continuarem construindo sobre essa base.

Edição de Palavras e Legendas de Gênero

Compilamos uma lista de palavras de gênero usadas na rotulagem de legendas. Essas palavras ajudam a identificar gênero em imagens e servem como base para criar uma linguagem neutra em gênero na narrativa.

Processos de Edição de Imagens

Esclarecemos os processos usados para editar imagens, detalhando como geramos e filtramos as imagens no conjunto de dados GenSynth. Dois pipelines específicos são destacados: GenSynth e a base mais fraca do GenSwap.

Avaliação da Qualidade do GenSynth

Para verificar a eficácia do conjunto de dados GenSynth, avaliamos as edições feitas em relação à representação de gênero e à qualidade geral. Isso inclui analisar o quão bem as imagens combinam com as legendas revisadas.

Comparando Edições de Imagens

Mostramos comparações de edições de imagens, ilustrando as diferenças entre o GenSynth e o método básico, GenSwap. Esses exemplos destacam a qualidade aprimorada das edições alcançadas através do nosso método proposto.

Conclusão sobre Considerações Futuras

À medida que olhamos para o futuro, é essencial manter o foco na necessidade de representação justa em IA e aprendizado de máquina. Esse foco não só ajuda a reduzir preconceitos, mas também promove uma sociedade mais inclusiva.

Através de pesquisas e desenvolvimentos contínuos, podemos trabalhar em direção a modelos que tratem todos os usuários de maneira equitativa e responsável.

Fonte original

Título: Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic Contrast Sets

Resumo: Vision-language models are growing in popularity and public visibility to generate, edit, and caption images at scale; but their outputs can perpetuate and amplify societal biases learned during pre-training on uncurated image-text pairs from the internet. Although debiasing methods have been proposed, we argue that these measurements of model bias lack validity due to dataset bias. We demonstrate there are spurious correlations in COCO Captions, the most commonly used dataset for evaluating bias, between background context and the gender of people in-situ. This is problematic because commonly-used bias metrics (such as Bias@K) rely on per-gender base rates. To address this issue, we propose a novel dataset debiasing pipeline to augment the COCO dataset with synthetic, gender-balanced contrast sets, where only the gender of the subject is edited and the background is fixed. However, existing image editing methods have limitations and sometimes produce low-quality images; so, we introduce a method to automatically filter the generated images based on their similarity to real images. Using our balanced synthetic contrast sets, we benchmark bias in multiple CLIP-based models, demonstrating how metrics are skewed by imbalance in the original COCO images. Our results indicate that the proposed approach improves the validity of the evaluation, ultimately contributing to more realistic understanding of bias in vision-language models.

Autores: Brandon Smith, Miguel Farinha, Siobhan Mackenzie Hall, Hannah Rose Kirk, Aleksandar Shtedritski, Max Bain

Última atualização: 2023-05-24 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.15407

Fonte PDF: https://arxiv.org/pdf/2305.15407

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes