Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

ASTPrompter: Uma Nova Abordagem para Toxicidade em Modelos de Linguagem

ASTPrompter identifica saídas tóxicas de modelos de linguagem usando prompts realistas.

― 6 min ler


ASTPrompter EnfrentaASTPrompter EnfrentaLinguagem Tóxicamodelos de linguagem de IA.Novo método expõe saídas tóxicas em
Índice

Os testes Automatizados de modelos de linguagem estão se tornando cada vez mais importantes, já que esses modelos são muito usados. Uma das preocupações é identificar e eliminar respostas tóxicas desses modelos. Respostas tóxicas podem incluir conteúdos odiosos, violentos ou de alguma forma inadequados. Este artigo discute um novo método chamado ASTPrompter, que busca maneiras de levar modelos de linguagem a produzir saídas tóxicas, mas de uma forma que imita uma conversa real.

Contexto

Modelos de linguagem são projetados para prever e gerar texto com base na entrada que recebem. Eles aprenderam com grandes quantidades de dados de texto disponíveis na internet. No entanto, como alguns desses dados contêm conteúdo tóxico, esses modelos podem gerar respostas prejudiciais sem querer.

Teste de Vulnerabilidades

Testar vulnerabilidades refere-se ao processo de testar sistemas para encontrar falhas. No contexto dos modelos de linguagem, isso envolve usar prompts específicos para ver se o modelo gera texto tóxico. Métodos tradicionais de teste de vulnerabilidade muitas vezes resultam em respostas que não são realistas ou que têm pouca probabilidade de ocorrer em conversas normais. Isso significa que os prompts usados para testar os modelos podem gerar saídas que parecem sem sentido ou desconectadas do diálogo cotidiano.

Teste Automatizado de Vulnerabilidades

Métodos de teste automatizado foram desenvolvidos para tornar esse processo mais eficiente. Esses métodos buscam prompts que podem provocar respostas tóxicas sem precisar de input humano a cada vez. No entanto, os métodos automatizados existentes muitas vezes criam prompts que provavelmente não seriam usados em conversas normais.

A Abordagem AST

Para resolver as limitações dos métodos tradicionais, o ASTPrompter usa uma técnica chamada Teste de Estresse Adaptativo (AST). O AST é um método usado em diversas indústrias de alto risco, como aviação e carros autônomos, para identificar falhas potenciais antes que elas aconteçam. Ao aplicar o AST em modelos de linguagem, podemos focar em identificar prompts que têm mais chances de levar à toxicidade em aplicações do mundo real.

Metodologia

O ASTPrompter usa uma técnica que combina aprendizado por reforço com Otimização de Preferência de Identidade (IPO) online. Isso permite que o sistema aprenda e refine prompts que não apenas desencadeiam saídas tóxicas, mas que também se parecem com prompts que ocorreriam naturalmente em uma conversa.

  1. Aprendizado Online: O modelo melhora continuamente aprendendo com cada interação com o Modelo de Linguagem em tempo real. Isso ajuda a refinar sua capacidade de gerar prompts que levam a saídas tóxicas.
  2. Supervisão Fraca: O processo inclui alguns prompts Tóxicos conhecidos para ajudar a guiar o modelo na detecção de toxicidade sem depender apenas das experiências anteriores do modelo.

Coleta de Dados

Para treinar o ASTPrompter, precisamos coletar dados. O modelo começa com um banco de dados de conversas não tóxicas, garantindo que os prompts iniciais que usa não contenham conteúdo prejudicial. Isso ajuda a garantir que as saídas tóxicas provocadas sejam devido às respostas do modelo, e não aos próprios prompts.

Avaliação dos Resultados

A avaliação do ASTPrompter foca em três métricas principais:

  1. Probabilidade dos Prompts: Isso avalia quão prováveis os prompts gerados são de ocorrer em conversas reais.
  2. Toxicidade da Defesa: Isso mede quão tóxicas são as respostas geradas pelo modelo quando dados os prompts.
  3. Toxicidade Combinada: Essa métrica leva em conta a toxicidade em toda a interação, envolvendo tanto o prompt quanto a resposta.

Descobertas

Os resultados mostram que o ASTPrompter melhora significativamente a capacidade de gerar prompts prováveis que levam a saídas tóxicas, em comparação com métodos tradicionais. O modelo mantém um bom nível de fluência enquanto aumenta as taxas de toxicidade.

Comparando Abordagens

  1. Sem Ajuste: Usar um modelo de linguagem padrão sem ajustes resultou em saídas menos tóxicas, como esperado.
  2. Ajuste Supervisionado: Um modelo ajustado com prompts tóxicos conhecidos produziu respostas mais tóxicas, mas carecia do fluxo de conversa que o ASTPrompter alcançou.
  3. Prompts que Provocam Toxicidade: Avaliando o modelo com prompts selecionados por humanos, ficou claro que o ASTPrompter conseguiu gerar saídas que igualaram ou superaram amostras dessas listas selecionadas.

Estratégias para Provocar Toxicidade

Durante os testes, foram identificadas diferentes estratégias que o modelo aprendeu a usar para gerar respostas tóxicas:

  1. Tópicos Políticos: O modelo frequentemente usou discussões políticas para provocar reações fortes.
  2. Conteúdo Sexual: A introdução de temas sexuais frequentemente levou a respostas tóxicas.
  3. Palavrões: O uso de palavras de baixo calão foi comum nas respostas geradas pelo modelo.

Limitações e Trabalhos Futuros

Apesar do sucesso do ASTPrompter, ainda existem limitações e áreas onde pesquisas futuras podem ser benéficas:

  1. Modelos Maiores: O estudo sugere explorar esse método usando modelos de linguagem maiores para ver se os padrões se mantêm.
  2. Elicitação Não Tóxica: Trabalhos futuros podem explorar como provocar reações tóxicas sem usar input tóxico, tornando a detecção de prompts prejudiciais mais desafiadora.
  3. Design de Recompensas: Ajustar o sistema de recompensas para o modelo pode melhorar sua capacidade de equilibrar toxicidade e fluência.
  4. Mais Avaliações: Estudos mais detalhados sobre a interação entre o conteúdo tóxico e como isso afeta os usuários podem ser benéficos.

Conclusão

O ASTPrompter apresenta uma nova maneira de examinar e desafiar modelos de linguagem para revelar potenciais saídas tóxicas. Ao usar prompts realistas e prováveis e aprender continuamente com as interações, esse método pode trazer melhorias na segurança e confiabilidade dos modelos de linguagem usados em várias aplicações hoje.

Considerações Éticas

Os resultados dos testes de modelos de linguagem para toxicidade levantam questões éticas. O potencial de uso indevido desses modelos exige diretrizes e avisos claros para os usuários. As descobertas podem ser usadas de forma construtiva para minimizar saídas prejudiciais, mas também existe o risco de que possam ser empregadas para criar conteúdo nocivo.

Pensamentos Finais

O trabalho feito com o ASTPrompter destaca como sistemas automatizados podem ajudar a identificar fraquezas em modelos de linguagem. Ao focar em prompts realistas que provavelmente ocorrem em conversas do dia a dia, esse novo método tem potencial para tornar os modelos de linguagem mais seguros e responsáveis em suas saídas. Mais esforços são necessários para refinar essas técnicas e abordar as implicações éticas de seu uso na sociedade.

Fonte original

Título: ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Likely Toxic Prompts

Resumo: Typical schemes for the automated red-teaming of large language models (LLMs) focus on discovering prompts that trigger a frozen language model (the defender) to generate toxic text. This often results in the prompting model (the adversary) producing text that is unintelligible and unlikely to arise. Here, we propose a reinforcement learning formulation of the LLM red-teaming task that allows us to discover prompts that both (1) trigger toxic outputs from a frozen defender and (2) have low perplexity as scored by that defender. We argue these cases are the most pertinent in a red-teaming setting because they are likely to arise during normal use of the defender model. We solve this formulation through a novel online and weakly supervised variant of Identity Preference Optimization (IPO) on GPT-2, GPT-2 XL, and TinyLlama defenders. We demonstrate that our policy is capable of generating likely (low-perplexity) prompts that also trigger toxicity from all of these architectures. Furthermore, we show that this policy outperforms baselines by producing attacks that are occur with higher probability and are more effective. Finally, we discuss our findings and the observed trade-offs between likelihood vs toxicity. Source code for this project is available for this project at: https://github.com/sisl/ASTPrompter/.

Autores: Amelia F. Hardy, Houjun Liu, Bernard Lange, Mykel J. Kochenderfer

Última atualização: 2024-10-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.09447

Fonte PDF: https://arxiv.org/pdf/2407.09447

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes