Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial# Aprendizagem de máquinas

Avaliando a Segurança em Imagens Geradas por IA

Um novo sistema avalia os riscos de segurança em imagens geradas por modelos de IA.

― 9 min ler


Sistema de Avaliação deSistema de Avaliação deSegurança de Imagens deIAsegurança de imagens de forma eficaz.Um novo modelo avalia os riscos de
Índice

Recentemente, grandes Modelos de IA que combinam texto e imagens mostraram habilidades impressionantes em criar conteúdos interessantes. Mas ainda rolam inquietações sobre a Segurança e a justiça dos dados usados para treinar esses modelos. Alguns dados que vêm da web podem conter material prejudicial ou tendencioso, o que pode causar problemas éticos quando esses modelos são usados na vida real. Isso é especialmente importante para modelos de texto-para-imagem, que podem gerar imagens inseguras ou tendenciosas.

Para resolver essas questões, pesquisadores propuseram vários métodos e diretrizes para Avaliar e reduzir os riscos de segurança associados aos modelos de IA. Com novas regras sobre IA surgindo em vários países, há uma necessidade crescente de ferramentas que consigam avaliar dados visuais de forma eficaz. No entanto, a maioria dos frameworks de segurança existentes foca no texto e não nas imagens, deixando uma lacuna de recursos para avaliar conteúdos visuais.

Nossa Abordagem

A gente apresenta um novo sistema para avaliar imagens potencialmente inseguras. Esse sistema combina informações visuais e textuais, permitindo que ele avalie imagens de acordo com diferentes políticas de segurança. Ele foi projetado com um foco forte em entender questões de segurança em imagens. O modelo ajuda a descobrir por que uma imagem é considerada insegura e quais regras específicas podem estar sendo violadas, como discurso de ódio ou crueldade animal.

Um aspecto importante do nosso trabalho é o desenvolvimento de um sistema flexível de Classificação de segurança. Esse sistema se ajusta com base no contexto, permitindo que o modelo seja aplicado em várias situações. Nossa contribuição inclui:

  1. Um conjunto de modelos que avaliam imagens para segurança.
  2. Um sistema de classificação abrangente para riscos de segurança em imagens.
  3. Um conjunto de dados cuidadosamente anotado para treinar o modelo em avaliações de segurança.
  4. Teste do modelo em tarefas do mundo real, como curadoria de Conjuntos de dados e moderação de conteúdo gerado por IA.

Contexto

Vários estudos destacaram os riscos associados a grandes modelos de IA. Por exemplo, muitos modelos de texto-para-imagem são conhecidos por produzir conteúdos tendenciosos e inseguros. Portanto, é vital garantir que esses modelos sejam seguros para serem usados em várias aplicações.

No passado, esforços para documentar conteúdo visual e seus riscos potenciais surgiram. Algumas abordagens iniciais envolveram ferramentas de classificação, usando modelos ou input humano para designar conteúdo que poderia ser prejudicial. No entanto, a efetividade dessas auditorias é muitas vezes limitada por categorias de segurança fixas, que podem não capturar a gama completa de riscos presentes nos dados visuais.

Nosso sistema visa aprimorar a curadoria de conjuntos de dados e a moderação de conteúdo para IA generativa, usando esses novos modelos. Isso melhora as avaliações de segurança no domínio visual.

Taxonomia de Segurança

A maioria das abordagens existentes foca em um único aspecto de segurança, como conteúdo adulto. No entanto, uma avaliação mais abrangente que considere múltiplos aspectos é essencial para ter uma visão mais clara dos riscos de segurança. Taxonomias de segurança foram desenvolvidas para organizar e avaliar esses riscos de forma sistemática. Algumas taxonomias anteriores incluíram várias categorias para cobrir preocupações de segurança e promover responsabilidade. Nossa taxonomia de segurança introduz nove categorias para identificar riscos em imagens, indo além de pesquisas anteriores para atender à necessidade de classificações adaptáveis.

Uso de Modelos Multimodais

O surgimento de grandes modelos multimodais nos permite aproveitar sua compreensão do mundo para uma moderação de conteúdo melhor. Esses modelos conseguem processar tanto texto quanto imagens, proporcionando uma análise mais abrangente de segurança. Aplicamos suas habilidades para avaliar a segurança de conteúdos visuais de forma eficaz. Nosso novo sistema é baseado nesses modelos multimodais.

Alinhamos nossas categorias de segurança com taxonomias baseadas em texto existentes para permitir avaliações em tempo real que se adaptam a diferentes requisitos de segurança. Esse approach não tem a intenção de cobrir todos os riscos potenciais, mas serve como um guia geral que pode ser ajustado para diferentes necessidades.

Categorias de Segurança

Nossa taxonomia de segurança inclui nove categorias principais, além de uma categoria para situações em que nenhuma regra relevante se aplica. Cada categoria é definida com diretrizes precisas para garantir que o sistema possa ser ajustado de acordo com o contexto específico. Por exemplo, certas categorias podem proibir toda nudez, enquanto em contextos médicos, alguma nudez pode ser aceitável.

Cada categoria tem instruções detalhadas sobre o que deve ou não ser incluído. Essa flexibilidade nos permite ajustar nossas estratégias de avaliação com base nas necessidades específicas de cada cenário.

Metodologia

Nosso modelo foi desenvolvido aprimorando grandes modelos pré-treinados em um conjunto de dados curado. Esse conjunto foi montado a partir de várias fontes, garantindo uma representação equilibrada dos riscos de segurança. Também anotamos manualmente o conjunto de dados para criar etiquetas precisas, fornecendo uma base sólida para treinar o modelo.

Para garantir que o modelo possa avaliar imagens rapidamente, geramos saídas estruturadas contendo classificações de segurança, categorias e explicações para cada avaliação. O modelo gera essas saídas em um formato simples que pode ser facilmente analisado.

Coleta de Dados

Para nossa coleta de dados, começamos com um conjunto de dados base que já estava anotado. No entanto, percebemos um desequilíbrio entre as categorias de segurança, com algumas áreas sub-representadas. Para corrigir isso, coletamos imagens adicionais da internet, garantindo que cada categoria de segurança recebesse uma cobertura ampla.

Depois que as imagens foram reunidas, nós as anotamos de acordo com nossas nove categorias de segurança, rotulando cada imagem como segura ou insegura, junto com uma avaliação mais detalhada quando necessário. Essa rotulagem cuidadosa ajuda o modelo a discernir diferentes níveis de segurança e garante que ele entenda as distinções entre diferentes riscos.

Processo de Treinamento

Treinamos nossos modelos por várias épocas usando esse conjunto de dados equilibrado. Ajustando parâmetros como taxas de aprendizado e tamanhos de lote com base no tamanho dos modelos, conseguimos um treinamento eficiente.

Nosso conjunto final de dados compreendeu uma mistura de imagens seguras e inseguras, garantindo uma amostra representativa para o modelo aprender. Realizamos testes com amostras separadas para medir o desempenho sem sobrepor nenhum dado de treinamento.

Avaliando os Modelos

Para validar nossos modelos, os posicionamos contra vários modelos de referência. Descobrimos que nosso sistema consistentemente superou os modelos de baseline, alcançando alta precisão em distinguir conteúdo seguro de inseguro. Isso é especialmente impressionante, já que nossos menores modelos ainda superaram alternativas muito maiores.

Além disso, testamos quão bem nossos modelos se adaptaram a mudanças nas políticas de segurança. Esses testes demonstraram a capacidade do modelo de se adaptar a diferentes contextos de forma flexível, fornecendo avaliações confiáveis em vários cenários.

Aplicações no Mundo Real

Nossos modelos podem ser aplicados em configurações do mundo real, especialmente para auditoria de conjuntos de dados e moderação de conteúdo gerado. Por exemplo, nós auditamos um grande conjunto de dados de imagens, identificando um número significativo de itens potencialmente inseguros com base em nossas diretrizes de segurança.

Esse processo de auditoria ajuda a garantir que os dados de treinamento permaneçam seguros para uso futuro em modelos de IA. Também permite que pesquisadores identifiquem e mitiguem riscos, assegurando que sistemas de IA sejam construídos sobre bases confiáveis.

Na moderação de conteúdo, nossos modelos foram testados em relação a saídas geradas por IA. Verificamos que eles identificaram efetivamente imagens inseguras, ajudando a aplicar as salvaguardas necessárias durante a implementação. Os resultados mostraram que nossos modelos podiam discernir conteúdo inseguro de forma eficaz, o que é crucial para manter padrões éticos em material gerado por IA.

Testes de Desempenho

Nos nossos testes, observamos que nosso sistema poderia avaliar e ajustar classificações de segurança para um grande volume de imagens de forma precisa. Mesmo em contextos desafiadores, ele lidou com variações no conteúdo de forma eficaz, mostrando sua robustez e adaptabilidade.

Também realizamos revisões manuais das classificações de imagens, confirmando que as avaliações do nosso modelo estavam amplamente alinhadas com as avaliações humanas. Isso reforça o valor dos nossos modelos em fornecer avaliações de segurança confiáveis.

Conclusão

Desenvolvemos um conjunto de modelos capazes de avaliar a segurança de imagens com base em uma compreensão sólida dos riscos potenciais. Nossa abordagem preenche lacunas existentes em frameworks de segurança para conteúdo visual, oferecendo um sistema completo para avaliar riscos de segurança em contextos diversos.

Ao criar uma taxonomia de segurança flexível e treinar nossos modelos em um conjunto de dados bem anotado, facilitamos melhores avaliações de segurança em aplicações do mundo real. Nossos modelos mostram que podem lidar efetivamente com as complexidades das avaliações de segurança, garantindo que imagens geradas por IA sejam seguras e alinhadas com expectativas éticas.

Trabalhos futuros podem aprimorar ainda mais nossos modelos, expandindo o conjunto de dados e refinando as categorias de segurança para promover a justiça na IA. À medida que continuamos a explorar as capacidades desses modelos, buscamos fortalecer sua aplicabilidade em casos de uso mais amplos, garantindo práticas responsáveis de IA na criação e avaliação de conteúdo visual.

Fonte original

Título: LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment

Resumo: We introduce LlavaGuard, a family of VLM-based safeguard models, offering a versatile framework for evaluating the safety compliance of visual content. Specifically, we designed LlavaGuard for dataset annotation and generative model safeguarding. To this end, we collected and annotated a high-quality visual dataset incorporating a broad safety taxonomy, which we use to tune VLMs on context-aware safety risks. As a key innovation, LlavaGuard's new responses contain comprehensive information, including a safety rating, the violated safety categories, and an in-depth rationale. Further, our introduced customizable taxonomy categories enable the context-specific alignment of LlavaGuard to various scenarios. Our experiments highlight the capabilities of LlavaGuard in complex and real-world applications. We provide checkpoints ranging from 7B to 34B parameters demonstrating state-of-the-art performance, with even the smallest models outperforming baselines like GPT-4. We make our dataset and model weights publicly available and invite further research to address the diverse needs of communities and contexts.

Autores: Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski

Última atualização: 2024-06-07 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.05113

Fonte PDF: https://arxiv.org/pdf/2406.05113

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes