Abordando Conteúdo Inadequado em Modelos de Geração de Imagens
Avaliando estratégias pra lidar com saídas inadequadas de modelos de geração de imagem.
― 7 min ler
Índice
A geração de imagens a partir de texto se tornou popular, levando a resultados impressionantes na criação de imagens que combinam com descrições escritas. Esses modelos têm sido usados em várias áreas, incluindo design gráfico e marketing. No entanto, como eles aprendem com grandes conjuntos de dados da internet, às vezes podem gerar imagens inadequadas, refletindo comportamentos humanos negativos. Isso levanta preocupações sobre a necessidade de monitorar e gerenciar esses modelos durante o uso.
O Desafio do Conteúdo Inadequado
Os modelos usados na geração de imagens geralmente puxam de uma quantidade enorme de dados com pouca filtragem, o que pode levar a saídas tendenciosas e indesejáveis. Como resultado, esses modelos podem produzir imagens que podem não ser adequadas para todos os públicos, exigindo estratégias para mitigar conteúdo inadequado antes que os usuários interajam com as imagens geradas.
Antes de lançar esses modelos para uso público, é fundamental não apenas verificar quão bem eles criam imagens, mas também garantir que não produzam conteúdo prejudicial ou ofensivo. Configurar Filtros para evitar imagens inadequadas é complexo e varia com base em casos de uso específicos e normas sociais.
Avaliando os Modelos
Na nossa avaliação, olhamos para vários modelos de geração de imagens, coletando dados sobre como eles lidam com conteúdo inadequado. Testamos uma variedade de modelos populares, examinando como eles respondem a instruções voltadas para reduzir ou eliminar imagens indesejadas.
No total, geramos e checamos cerca de 1,5 milhão de imagens em 11 modelos diferentes para entender quão eficazes essas abordagens poderiam ser. Em alguns casos, usamos prompts conhecidos por levar a conteúdo indesejado para ver como os modelos se comportavam e quão eficazes eram nossas instruções em reduzir as saídas inadequadas.
Métodos de Mitigação
Existem vários métodos para ajudar a limitar a geração de conteúdo inadequado em modelos de geração de imagens:
Filtragem de Dados de Treinamento: Uma abordagem é limpar os dados de treinamento removendo tudo que é considerado inadequado. No entanto, isso pode afetar a capacidade do modelo de gerar imagens de qualidade, já que os dados formam a base do aprendizado. Além disso, o que é considerado inadequado pode variar muito entre diferentes indivíduos e culturas.
Ajuste Fino dos Modelos: Outra estratégia envolve ajustar um modelo pré-treinado para eliminar ideias ou temas inadequados específicos. Embora isso exija menos poder computacional do que treinar um modelo do zero, ainda pode não abordar totalmente as variadas definições de inadequação.
Uso de Filtros: Implementar filtros em prompts de entrada e imagens de saída pode evitar que conteúdos indesejados sejam gerados e mostrados aos usuários. Os filtros podem escanear certas palavras-chave antes que um prompt seja processado, e após uma imagem ser gerada, ela pode ser checada por inadequações. No entanto, os filtros podem não captar significados sutis e correlações implícitas, levando a saídas indesejadas.
Instruções para o Modelo: Também exploramos instruir diretamente os modelos a evitar gerar conteúdo indesejado, fornecendo descrições claras de temas inadequados durante o processo de geração. Esse método dá mais controle aos usuários e pode melhorar a flexibilidade do modelo, permitindo modificações baseadas em necessidades específicas.
Entendendo a Geração de Imagens
Para entender como a geração de imagens funciona, é útil saber que geralmente começa com ruído aleatório. Os modelos usam seu treinamento para prever e modificar esse ruído, formando gradualmente uma imagem coerente e clara. Esse processo depende da compreensão dos modelos sobre prompts de texto e as imagens resultantes, tornando crucial garantir que os modelos interpretem esses prompts corretamente, especialmente ao filtrar conteúdo inadequado.
Abordagens de Instrução
Focamos em dois métodos principais para instruir os modelos sobre que conteúdo evitar:
Promptagem Negativa: Esse método envolve usar prompts que indicam especificamente conceitos a evitar durante o processo de geração de imagens. É fácil de implementar, mas pode não ser sempre eficaz em suprimir totalmente o material indesejado.
Orientação Semântica: Esse método adiciona um elemento de guia para ajudar os modelos a se afastarem de temas indesejados, enquanto altera minimamente a imagem gerada. Ele se mostrou mais confiável em suprimir conteúdo inadequado em comparação com a promptagem negativa sozinha.
Resultados da Avaliação
Nossa avaliação revelou que muitos modelos tendem a gerar conteúdo inadequado. Ao empregar ambos os métodos de instrução, reduzimos significativamente as chances de saídas indesejadas em todos os modelos testados. Por exemplo, um modelo produziu significativamente mais imagens inadequadas do que os outros, enquanto outro modelo, apesar de ter sido treinado em dados semelhantes, mostrou taxas muito mais baixas de saídas indesejadas quando instruído corretamente.
Importante, enquanto ambos os métodos funcionaram para reduzir conteúdo inadequado, a orientação semântica consistentemente superou a promptagem negativa, especialmente ao começar com um modelo que tinha uma taxa base mais alta de conteúdo inadequado.
Observações e Recomendações
Os resultados da nossa análise destacaram a importância de avaliar e moderar modelos de geração de imagens. Ao usar instruções após o modelo ter sido treinado, podemos gerenciar e limitar efetivamente a geração de conteúdo inadequado sem depender apenas da filtragem dos dados de treinamento.
Essa abordagem incentiva os modelos a se adaptarem e aprenderem o que é considerado apropriado, levando a um conteúdo mais seguro e socialmente responsável. Dado que as noções sociais de inadequação podem mudar com o tempo, nossos métodos permanecem dinâmicos e podem se ajustar a novos padrões ou tendências.
Enquanto desenvolver modelos que reflitam com precisão os padrões da sociedade é essencial, igualmente importante é continuar avaliando e monitorando o desempenho do modelo. Avaliações regulares podem ajudar a identificar possíveis viéses e permitir ajustes necessários na compreensão do modelo sobre o que é apropriado.
Trabalho Futuros
Existem várias maneiras de construir sobre nossas descobertas. Uma área chave a considerar é expandir o conjunto de dados usado para treinamento e testes, garantindo que os modelos sejam expostos a uma gama diversificada de cenários que representam vários contextos culturais e pontos de vista. Isso contribuirá para uma compreensão mais robusta do que constitui conteúdo inadequado.
Além disso, novas métricas e classificadores poderiam ser desenvolvidos especificamente para avaliar imagens geradas por IA a fim de medir melhor a inadequação antes que as imagens sejam apresentadas aos usuários.
Conclusão
Em resumo, a avaliação de modelos de geração de imagens é crucial para garantir que eles produzam conteúdo apropriado. Ao instruir os modelos a reconhecer e evitar temas inadequados durante a geração, podemos promover um ambiente mais seguro para os usuários. Os resultados mostram claramente que há valor em refletir questões sociais dentro dos dados de treinamento para permitir uma compreensão mais profunda do que é apropriado.
No geral, os métodos discutidos nesta exploração oferecem um caminho para produzir sistemas de geração de imagens mais confiáveis que podem ajudar a construir confiança em aplicações que requerem geração de conteúdo seguro e apropriado. Supervisão regular e refinamento contínuo certamente melhorarão a eficácia desses modelos no futuro.
Título: Mitigating Inappropriateness in Image Generation: Can there be Value in Reflecting the World's Ugliness?
Resumo: Text-conditioned image generation models have recently achieved astonishing results in image quality and text alignment and are consequently employed in a fast-growing number of applications. Since they are highly data-driven, relying on billion-sized datasets randomly scraped from the web, they also reproduce inappropriate human behavior. Specifically, we demonstrate inappropriate degeneration on a large-scale for various generative text-to-image models, thus motivating the need for monitoring and moderating them at deployment. To this end, we evaluate mitigation strategies at inference to suppress the generation of inappropriate content. Our findings show that we can use models' representations of the world's ugliness to align them with human preferences.
Autores: Manuel Brack, Felix Friedrich, Patrick Schramowski, Kristian Kersting
Última atualização: 2023-05-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.18398
Fonte PDF: https://arxiv.org/pdf/2305.18398
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.technologyreview.com/2023/02/24/1069093/
- https://github.com/deep-floyd/IF
- https://github.com/notAI-tech/NudeNet
- https://huggingface.co/docs/diffusers/api/pipelines/semantic_stable_diffusion
- https://huggingface.co/CompVis/stable-diffusion-v1-4
- https://huggingface.co/runwayml/stable-diffusion-v1-5
- https://huggingface.co/stabilityai/stable-diffusion-2-base
- https://huggingface.co/stabilityai/stable-diffusion-2-1-base
- https://github.com/mlfoundations/open_clip
- https://huggingface.co/dreamlike-art/dreamlike-photoreal-2.0
- https://huggingface.co/johnslegers/epic-diffusion-v1.1
- https://huggingface.co/andite/cutesexyrobutts-diffusion
- https://deepfloyd.ai/deepfloyd-if