Endereçando Imagens Duplicadas em Modelos Generativos
Um novo método pra identificar imagens duplicadas em grandes conjuntos de dados.
― 8 min ler
Índice
- O Problema das Duplicatas
- Nossa Abordagem
- Avanços em Bancos de Dados de Imagens
- Preocupações com Direitos Autorais
- Contribuições da Pesquisa
- O Papel do CLIP
- Outros Métodos de Desduplicação
- Compressão de Características
- Técnicas de Busca Aproximada
- Descobertas sobre Desduplicação
- Identificação de Cópias
- Conclusão
- Fonte original
- Ligações de referência
Modelos generativos que criam imagens a partir de descrições de texto, como DALL-E, Midjourney e Stable Diffusion, têm um impacto grande na sociedade. Eles dependem de enormes bancos de dados de imagens que contêm bilhões de imagens. Um desses bancos de dados é o LAION-2B, que tem cerca de dois bilhões de imagens. Por causa do seu tamanho, examinar cada imagem manualmente é quase impossível, e métodos automáticos para checar imagens duplicadas podem ser complicados também. Pesquisas recentes mostram que imagens duplicadas levantam problemas de direitos autorais para modelos treinados com elas, tornando o banco de dados menos útil. Este artigo apresenta um método para detectar duplicatas nesses grandes bancos de dados de imagens usando um sistema que funciona de forma eficiente sem precisar de muito poder computacional.
O Problema das Duplicatas
O problema de usar grandes bancos de dados como o LAION-2B é que eles costumam ter muitas imagens duplicadas. Identificar essas duplicatas é crucial porque podem causar problemas de direitos autorais quando usadas em modelos generativos. Por exemplo, o popular modelo Stable Diffusion pode ocasionalmente produzir imagens que são cópias exatas das que estão nos dados de treinamento. Situações assim levantam preocupações sobre a propriedade dessas imagens e podem trazer complicações legais. Além disso, duplicatas podem afetar o desempenho e a confiabilidade desses modelos.
Encontrar duplicatas em grandes conjuntos de dados geralmente exige ferramentas de busca específicas que podem trabalhar com as características geradas por modelos como o CLIP, que são usados para analisar e recuperar imagens com base no seu conteúdo. Ferramentas que ajudam nesse processo incluem técnicas de recuperação de clip e métodos como Faiss e AutoFaiss, que tornam a busca através das características de imagem mais rápida e eficiente.
Nossa Abordagem
Este artigo apresenta um método para detectar duplicatas no conjunto de dados LAION-2B. Introduzimos uma técnica chamada compressão de vizinho mais próximo com CLIP (SNIP). Esse método nos permite gerenciar melhor a grande quantidade de dados, possibilitando identificar rapidamente duplicatas com um bom grau de precisão.
Descobrimos que cerca de 700 milhões de imagens no LAION-2B são duplicatas. Nosso método ajuda a criar histogramas mostrando o nível de duplicação no conjunto de dados. Essas informações podem ser úteis para identificar quais imagens foram copiadas literalmente por modelos como o Stable Diffusion. A versão mais recente do nosso conjunto de dados sem duplicatas está disponível para os usuários.
Avanços em Bancos de Dados de Imagens
O crescimento dos enormes bancos de dados de imagens desempenhou um papel significativo na melhoria da tecnologia de visão computacional. Esses bancos de dados fornecem dados valiosos para treinar modelos, que mostraram resultados impressionantes ao trabalhar com bilhões de imagens. Conjuntos de dados públicos como LAION e LAION-5B estão entre os maiores disponíveis e são frequentemente usados por desenvolvedores para criar poderosos modelos gerativos de texto para imagem.
O LAION-5B, por exemplo, contém bilhões de pares de imagem e legenda que garantem que cada imagem seja relevante para sua descrição. Existem subconjuntos menores disponíveis, como LAION-2B-en, que se concentram em legendas em inglês. Esses grandes bancos de dados se tornaram essenciais para avançar o campo da visão computacional.
Preocupações com Direitos Autorais
À medida que o uso de grandes conjuntos de dados se torna mais comum, questões sobre direitos autorais também surgem. Pesquisas mostram que modelos como o Stable Diffusion podem reproduzir imagens de treinamento originais, levantando preocupações sobre violações de direitos autorais. Existem dois tipos principais de problemas de direitos autorais: cópias exatas de imagens e cópias mais sutis, como o uso de partes de imagens. Esses problemas surgiram junto com a disponibilidade de conjuntos de dados em grande escala coletados usando raspadores da web automatizados.
Para lidar com essas questões, os pesquisadores precisam desenvolver sistemas de recuperação que possam encontrar duplicatas de forma eficiente em vastos conjuntos de dados. Idealmente, esses sistemas complementariam as características geradas durante a construção do conjunto de dados, tornando o processo de busca mais eficiente.
Contribuições da Pesquisa
Este artigo discute várias contribuições importantes para o campo da recuperação de imagens e desduplicação:
Introduzimos uma técnica para compressão de características do CLIP, permitindo a detecção eficiente de duplicatas sem precisar de recursos computacionais excessivos.
Demonstramos que o LAION-2B contém um número significativo de imagens duplicadas e fornecemos histogramas para ilustrar a extensão dessa duplicação.
Nosso método oferece novas percepções sobre as imagens copiadas literalmente por modelos como o Stable Diffusion e mostra que identificar duplicatas pode ser feito com menos recursos do que se pensava anteriormente.
O Papel do CLIP
A rede CLIP conseguiu resultados impressionantes em tarefas que exigem a conexão entre texto e imagens. Ela usa um método que ajuda a alinhar características de imagens e texto, resultando em um espaço que pode ser usado para diversas aplicações, incluindo geração de texto para imagem. O OpenCLIP também reproduziu com sucesso os resultados originais do CLIP e disponibilizou vários modelos que superam os benchmarks de desempenho iniciais.
Outros Métodos de Desduplicação
Existem muitas abordagens para desduplicação de imagens, incluindo aquelas que usam hashes perceptuais ou criam representações de ponta a ponta. No entanto, métodos tradicionais costumam ter dificuldade em lidar com conjuntos de dados enormes como o LAION-2B devido às complexidades envolvidas em treinar ou ajustar modelos em escalas tão grandes. Reconhecendo esse desafio, o LAION lançou um conjunto de características do CLIP e índices de vizinhos mais próximos, que podem facilitar o processo de desduplicação.
Compressão de Características
Começamos com uma técnica básica usando erro quadrático médio para compressão de características. O foco é manter a qualidade enquanto reduz o tamanho dos dados. A compressão pode ser aplicada tanto a características de imagem quanto de texto, mas é necessário cautela para manter o relacionamento entre esses dois tipos. Nossa abordagem híbrida, que combina diferentes tipos de perdas e características, mostrou resultados promissores em manter a qualidade dos dados enquanto alcança armazenamento eficiente.
Técnicas de Busca Aproximada
Mesmo com características comprimidas, buscar através de bilhões de descritores continua sendo uma tarefa assustadora. Para resolver isso, utilizamos técnicas de busca aproximada. Um método comum é o sistema de arquivo invertido, que agrupa vetores semelhantes para operações de busca mais rápidas. Essa técnica permite que o sistema reduza o número de vetores que precisa checar, acelerando significativamente o processo.
Descobertas sobre Desduplicação
Em nossa pesquisa, examinamos vários métodos de criação de índices para encontrar duplicatas no LAION-2B. Nos concentramos em maximizar a velocidade e a eficiência enquanto ainda identificávamos duplicatas com precisão. Após testar diferentes métodos, concluímos que alguns índices desempenharam significativamente melhor do que outros na detecção de duplicatas.
Os índices que tiveram melhor desempenho identificaram consistentemente duplicatas e nos permitiram desduplicar o LAION-2B rapidamente. Nossa abordagem utilizou uma combinação de técnicas para garantir que capturássemos o maior número possível de duplicatas enquanto mantínhamos um alto nível de precisão.
Identificação de Cópias
Em nosso estudo, também visamos identificar imagens que haviam sido copiadas literalmente pelo Stable Diffusion. Ao selecionar imagens com altas taxas de duplicação e gerar cópias sintéticas usando prompts específicos, conseguimos descobrir imagens adicionais que eram réplicas exatas. Essa abordagem destaca a necessidade de entender quais imagens têm mais chances de serem copiadas e por que algumas imagens são replicadas mais do que outras.
Conclusão
Resumindo, essa pesquisa destaca um método eficiente para desduplicar o conjunto de dados LAION-2B. Aplicando nossas novas técnicas, conseguimos identificar um número significativo de imagens duplicadas, o que é crucial para manter a usabilidade do conjunto de dados. Dadas as potenciais questões de direitos autorais associadas a duplicatas em modelos gerativos, nosso trabalho visa fornecer maior transparência e melhorar o manuseio de conjuntos de dados na comunidade.
Estamos comprometidos em tornar nosso conjunto de dados desduplicado, junto com as ferramentas relevantes, disponíveis para outros usarem, garantindo que projetos futuros possam se beneficiar de uma fonte de dados mais limpa e confiável. O desenvolvimento contínuo de modelos gerativos deve levar essas questões em conta para progredir de forma eficaz e ética no campo da inteligência artificial.
Título: On the De-duplication of LAION-2B
Resumo: Generative models, such as DALL-E, Midjourney, and Stable Diffusion, have societal implications that extend beyond the field of computer science. These models require large image databases like LAION-2B, which contain two billion images. At this scale, manual inspection is difficult and automated analysis is challenging. In addition, recent studies show that duplicated images pose copyright problems for models trained on LAION2B, which hinders its usability. This paper proposes an algorithmic chain that runs with modest compute, that compresses CLIP features to enable efficient duplicate detection, even for vast image volumes. Our approach demonstrates that roughly 700 million images, or about 30\%, of LAION-2B's images are likely duplicated. Our method also provides the histograms of duplication on this dataset, which we use to reveal more examples of verbatim copies by Stable Diffusion and further justify the approach. The current version of the de-duplicated set will be distributed online.
Autores: Ryan Webster, Julien Rabin, Loic Simon, Frederic Jurie
Última atualização: 2023-03-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.12733
Fonte PDF: https://arxiv.org/pdf/2303.12733
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.