Abordando a segurança em modelos de texto para imagem
Esse relatório analisa prompts prejudiciais e medidas de segurança em modelos de geração de imagens.
― 6 min ler
Índice
Modelos de texto-para-imagem estão ficando cada vez mais populares porque conseguem criar imagens de alta qualidade com base em comandos de texto. A galera usa esses modelos para várias coisas, como design gráfico e imagens de estoque. Mas, como esses modelos aprendem com um monte de dados que foram coletados da internet, às vezes eles acabam gerando conteúdo inseguro ou inapropriado.
Esse relatório foca em um desafio chamado Adversarial Nibbler, que tem como objetivo juntar um conjunto de comandos que podem ser prejudiciais a partir de benchmarks de segurança existentes. A meta é entender como esses comandos conseguem driblar os filtros de entrada usados em modelos que geram imagens. Analisando os comandos e as imagens que eles criam, a gente destaca as fraquezas desses filtros e aponta os problemas de segurança nos sistemas atuais.
A Necessidade de Segurança em Modelos de Imagem
Antes de usar modelos de imagem em aplicações do mundo real, é super importante garantir que eles não gerem imagens prejudiciais ou perturbadoras. Isso precisa de medidas de segurança que sejam específicas para o uso do modelo. Muitos estudos nessa área se basearam em histórias pessoais em vez de dados mensuráveis entre diferentes modelos.
Para enfrentar esse problema, foi introduzido o desafio Adversarial Nibbler. O objetivo é criar um banco de dados de comandos prejudiciais que possam ser usados para testar modelos de texto-para-imagem. A gente analisou benchmarks de segurança atuais para encontrar comandos que poderiam ser usados no Adversarial Nibbler.
Um conjunto de dados importante criado é chamado de conjunto de dados de comandos de imagem inapropriados (I2P). Esse conjunto de dados analisa como diferentes modelos podem gerar Conteúdo Prejudicial. Ele abrange várias categorias, incluindo discurso de ódio, assédio, violência, autoagressão, conteúdo sexual, imagens chocantes e atividades ilegais. Cada comando nesse conjunto de dados é rotulado com a probabilidade de gerar material inapropriado com base nas imagens criadas pelo modelo.
Coletando Comandos Adversariais
Na nossa investigação, olhamos de perto os comandos coletados no benchmark I2P. Encontramos muitos comandos que causaram a geração de imagens inapropriadas, mesmo que não fossem bloqueados pelos filtros de entrada atuais. Esses comandos podem servir como entradas adversariais para testar as medidas de segurança.
Analisamos os comandos e as imagens que eles produziram para destacar as diferentes maneiras em que podem ser vistos como inseguros. Muitos comandos que pareciam inofensivos acabaram criando imagens inseguras quando combinados com certas palavras, mostrando que o contexto é muito importante para determinar a segurança.
O Processo de Análise
O benchmark I2P inclui comandos de usuários do mundo real que foram coletados de uma plataforma onde o Stable Diffusion foi usado. Cada comando se encaixa em uma das categorias mencionadas antes, e a gente vinculou cada comando à sua probabilidade de gerar conteúdo prejudicial. Para avaliar as imagens geradas a partir desses comandos, usamos classificadores que detectaram automaticamente conteúdo inapropriado.
Embora muitos comandos tenham sido considerados propensos a produzir imagens prejudiciais, o sistema que hospedou o modelo Stable Diffusion não tinha filtros de entrada. Isso significa que muitos comandos continham conceitos prejudiciais e, portanto, não eram adequados para testes adversariais.
A Subjetividade da Segurança
Uma das principais lições da nossa análise é que o que é considerado prejudicial pode ser subjetivo. A definição de segurança varia dependendo do contexto cultural, das perspectivas individuais e do contexto. Por exemplo, um número significativo de comandos gerou imagens perturbadoras, mas a compreensão do que é inapropriado não era universalmente aceita.
As Limitações dos Filtros de Entrada
Identificamos várias falhas em filtros de entrada baseados em listas de banimento. Por exemplo, algumas grafias erradas de palavras banidas conseguiram driblar os filtros enquanto ainda produziam conteúdo prejudicial. Além disso, encontramos termos relacionados a palavras banidas que estavam ausentes dos filtros. A lista de banimento existente incluía "nu", mas não "nudidade", e também deixava de fora palavras como "violência" ou "roubo", que são relevantes nesse contexto.
Isso indica que depender apenas dessas listas de banimento para segurança pode não ser eficaz. É necessário desenhar um sistema mais abrangente de medidas de segurança para lidar com os desafios impostos pela geração de conteúdo prejudicial.
Questões Contextuais de Conteúdo Inapropriado
Além de comandos simples, notamos que alguns comandos poderiam ser seguros por si só, mas poderiam causar problemas em Contextos específicos. Por exemplo, muitos comandos envolviam figuras públicas e geravam imagens que poderiam prejudicar sua reputação. Isso mostra que o contexto desempenha um papel vital em determinar se uma imagem é inapropriada ou não.
Padrões de Imagens Inseguras
Nossa investigação também revelou alguns padrões comuns que levam a imagens inseguras. Parece que criar imagens sexualmente explícitas de mulheres é alarmantemente fácil, mesmo com comandos que parecem seguros na superfície. Por exemplo, usar adjetivos como "atraente" junto com termos não-eróticos ainda poderia resultar em conteúdo explícito.
Observamos também que certos artistas conhecidos por seu trabalho controverso frequentemente geravam resultados inseguros. Um comando simples como "fotografia de [artista específico]" poderia levar a imagens inapropriadas, mesmo que fizesse parte de um comando maior e mais complexo.
Conclusão
Neste relatório, examinamos comandos coletados de benchmarks de segurança para ver como eles poderiam ajudar a testar condições adversariais em modelos geradores de imagem. Descobrimos que existe um número significativo de comandos potencialmente prejudiciais em conjuntos de dados como o I2P. Nossa análise enfatiza as fraquezas nos métodos de filtragem de entrada existentes e clama por mais pesquisas sobre como garantir segurança em sistemas generativos.
É importante reconhecer que a segurança não é uma solução única para todos e precisa considerar os vários fatores que influenciam como as pessoas percebem o que é apropriado. Ao melhorar a qualidade das medidas de segurança, podemos trabalhar para construir modelos generativos melhores que estejam cientes do conteúdo que produzem.
Título: Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge
Resumo: Text-conditioned image generation models have recently achieved astonishing image quality and alignment results. Consequently, they are employed in a fast-growing number of applications. Since they are highly data-driven, relying on billion-sized datasets randomly scraped from the web, they also produce unsafe content. As a contribution to the Adversarial Nibbler challenge, we distill a large set of over 1,000 potential adversarial inputs from existing safety benchmarks. Our analysis of the gathered prompts and corresponding images demonstrates the fragility of input filters and provides further insights into systematic safety issues in current generative image models.
Autores: Manuel Brack, Patrick Schramowski, Kristian Kersting
Última atualização: 2023-09-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.11575
Fonte PDF: https://arxiv.org/pdf/2309.11575
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.