Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Aprendizagem de máquinas

Avançando a Segurança da IA: Novos Modelos para Moderação de Conteúdo

Novos modelos melhoram a moderação de conteúdo para interações de IA, garantindo segurança e reduzindo danos.

― 7 min ler


Modelos de Segurança emModelos de Segurança emIA Evoluemde conteúdo e a segurança dos usuários.Novas abordagens melhoram a moderação
Índice

Nos últimos anos, os grandes modelos de linguagem (LLMs) se tornaram super importantes em várias áreas, como chatbots e criação de conteúdo. Esses modelos poderosos conseguem entender e produzir texto que soa humano. Mas, com esses avanços, é crucial garantir que esses modelos interajam de forma segura e responsável com os usuários.

A Moderação de Conteúdo é uma parte chave disso. Envolve checar o texto gerado pelos LLMs e o que os usuários inserem para filtrar conteúdo prejudicial. As soluções existentes, como LlamaGuard e WildGuard, fazem um trabalho decente, mas têm algumas questões. Por exemplo, algumas dessas ferramentas não dão insights detalhados sobre os tipos de dano. Elas podem simplesmente dizer se algo é prejudicial ou não, sem fornecer mais informações.

Outro problema é que muitas ferramentas de moderação vêm em um tamanho fixo, o que pode não ser adequado para todas as situações. Modelos maiores podem funcionar melhor para tarefas de julgamento, enquanto modelos menores poderiam ser melhores para segurança online, mantendo as coisas rápidas e reduzindo custos. Além disso, os dados de treinamento, que são cruciais para esses modelos, muitas vezes não têm diretrizes claras, dificultando a garantia de Justiça e robustez.

Para enfrentar esses desafios, uma nova suíte de modelos baseada em um sistema chamado Gemma2 foi introduzida. Esses modelos vêm em tamanhos diferentes, de 2 bilhões a 27 bilhões de parâmetros, e conseguem filtrar vários Tipos de Danos específicos para diferentes usos. Eles podem analisar tanto o que os usuários inserem quanto o que o modelo gera.

Além disso, um novo método para criar dados de treinamento de alta qualidade foi sugerido. Esse método usa Dados Sintéticos, que reduzem a quantidade de rotulagem manual necessária e podem ser aplicados a muitos tópicos relacionados à segurança.

Importância dos Dados em IA

Ter bons dados é essencial para criar modelos de segurança eficazes. Embora haja muita informação disponível das interações humano-computador, usar esses dados diretamente apresenta desafios. Não há exemplos positivos suficientes e questões de privacidade podem surgir. Os grandes modelos de linguagem têm uma riqueza de conhecimento de seu treinamento, mas ainda podem gerar dados sintéticos de alta qualidade com os prompts certos.

Esses dados sintéticos podem cobrir muitos aspectos, como diferentes comprimentos, tipos de dano e questões sensíveis, o que ajuda a melhorar o treinamento desses modelos.

Diretrizes de Segurança

Diretrizes de segurança são vitais ao desenvolver sistemas de IA para o mundo real. Essas diretrizes ajudam a estabelecer que tipo de conteúdo é aceitável ou não. Elas fornecem um padrão para revisores humanos serem consistentes ao rotular conteúdo prejudicial. Essa consistência é necessária para treinar classificadores de forma eficaz e garantir justiça nos dados.

Para as entradas dos usuários, o foco é em prevenir solicitações que podem causar dano. Isso inclui entradas que podem não parecer prejudiciais à primeira vista, mas que são feitas para provocar o modelo a gerar respostas perigosas. Para as saídas do modelo, o principal objetivo é evitar a geração de conteúdo prejudicial.

Tipos de Dano

Um sistema de classificação foi desenvolvido para definir seis tipos de conteúdo prejudicial:

  1. Informação Sexual Explícita: Isso se refere a conteúdo que descreve atos sexuais ou é destinado a excitar. No entanto, termos científicos relacionados à anatomia e educação são aceitáveis.

  2. Discurso de Ódio: Isso inclui fala que ataca grupos específicos com base em sua identidade, promovendo discriminação ou violência.

  3. Conteúdo Perigoso: Esse é o conteúdo que pode causar dano a si mesmo ou a outros, como instruções para fazer armas ou promover autoagressão.

  4. Assédio: Isso abrange qualquer conteúdo intimidante ou de bullying direcionado a indivíduos.

  5. Violência: Conteúdo que descreve violência chocante ou gratuita, como ferimentos extremos ou abuso de animais, se enquadra nessa categoria.

  6. Obscenidade e Profanidade: Isso inclui qualquer linguagem vulgar ou inadequada.

As diretrizes para entradas de usuários e saídas de modelos diferem um pouco. As entradas dos usuários não devem conter ou buscar gerar conteúdo prejudicial, enquanto as respostas do chatbot não devem produzir respostas prejudiciais.

Criação de Dados Sintéticos

Um método foi estabelecido para criar dados sintéticos para treinar esses modelos. Esse processo inclui várias etapas:

  1. Definindo o Problema: Identificar os tipos de dano a serem focados, como discurso de ódio ou conteúdo perigoso, e gerar tópicos relacionados.

  2. Gerando Consultas: Usar modelos de linguagem para criar prompts diversos com base em parâmetros específicos.

  3. Gerando Respostas: Usar outro modelo para gerar respostas com base nos prompts e diretrizes.

Essa abordagem cria numerosos exemplos de entradas de usuários e respostas, que podem ser refinados ainda mais.

Anotação de Dados

Uma vez que os dados são gerados, eles precisam ser enviados a revisores humanos para rotulação. Uma votação da maioria entre os revisores ajuda a garantir a precisão. Esse processo é essencial para treinar os modelos de forma eficaz, usando tanto exemplos benignos quanto adversos.

Justiça em IA

Para melhorar a justiça, os dados de treinamento devem incluir categorias de identidade diversas, como gênero e raça. Gerando novos exemplos que refletem diferentes identidades, o objetivo é eliminar preconceitos que poderiam afetar os resultados do treinamento.

Ajustando os Modelos

Os modelos são ajustados com instruções específicas para determinar se as solicitações dos usuários ou as respostas da IA violam diretrizes de segurança. O objetivo é desenvolver classificadores que possam distinguir eficazmente entre conteúdo aceitável e prejudicial.

Resultados da Avaliação

Nas avaliações, os novos modelos consistentemente superam os modelos existentes em vários benchmarks. Por exemplo, o modelo de 9 bilhões de parâmetros mostra uma melhoria significativa em comparação com modelos mais antigos como WildGuard e LlamaGuard.

Além disso, o desempenho é medido não apenas pela precisão geral, mas também pela capacidade do modelo de identificar tipos específicos de dano. Os resultados mostram que esses novos modelos são particularmente bons em distinguir entre diferentes tipos de conteúdo prejudicial, enquanto os modelos mais antigos têm dificuldade com essa tarefa.

Desafios pela Frente

Apesar dos avanços, ainda há desafios a serem enfrentados. A justiça continua sendo uma preocupação, e a possibilidade de discrepâncias ao trocar identidades deve ser levada em conta. Enquanto modelos maiores mostraram melhor capacidade de generalizar em vários tópicos, é essencial continuar testando seu desempenho em diferentes contextos.

Além disso, os LLMs conseguem entender contextos culturais até certo ponto, mas podem não captar totalmente as sutilezas do dano implícito. Por fim, enquanto esses modelos são eficazes em filtrar conteúdo prejudicial, eles também podem limitar a utilidade das respostas fornecidas.

Conclusão

O desenvolvimento de sistemas avançados de moderação de conteúdo baseados no Gemma2 representa um passo significativo para garantir que as interações de IA permaneçam seguras. Ao introduzir novos métodos de geração e treinamento de dados, esses modelos são projetados para oferecer melhor desempenho na detecção e gerenciamento de conteúdo prejudicial. Os recursos compartilhados com a comunidade de pesquisa visam apoiar a exploração e melhoria contínua nesse campo crítico.

Fonte original

Título: ShieldGemma: Generative AI Content Moderation Based on Gemma

Resumo: We present ShieldGemma, a comprehensive suite of LLM-based safety content moderation models built upon Gemma2. These models provide robust, state-of-the-art predictions of safety risks across key harm types (sexually explicit, dangerous content, harassment, hate speech) in both user input and LLM-generated output. By evaluating on both public and internal benchmarks, we demonstrate superior performance compared to existing models, such as Llama Guard (+10.8\% AU-PRC on public benchmarks) and WildCard (+4.3\%). Additionally, we present a novel LLM-based data curation pipeline, adaptable to a variety of safety-related tasks and beyond. We have shown strong generalization performance for model trained mainly on synthetic data. By releasing ShieldGemma, we provide a valuable resource to the research community, advancing LLM safety and enabling the creation of more effective content moderation solutions for developers.

Autores: Wenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez

Última atualização: 2024-08-04 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.21772

Fonte PDF: https://arxiv.org/pdf/2407.21772

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes