Avaliando Modelos de Linguagem: Uma Abordagem de Red Teaming
Testando modelos de linguagem pra identificar saídas prejudiciais antes de usar na vida real.
― 6 min ler
Modelos de linguagem grandes (LLMs) podem ajudar em várias tarefas, mas também têm problemas como dar informações falsas ou produzir declarações prejudiciais. Isso traz riscos, especialmente quando esses modelos são usados em situações da vida real. É essencial testar esses modelos para descobrir suas fraquezas antes de serem lançados.
O que é Red Teaming?
Red teaming é o processo de testar um sistema simulando ataques para encontrar vulnerabilidades. No contexto de modelos de linguagem, isso significa bolar maneiras de fazer o modelo produzir Saídas Prejudiciais ou indesejadas. Isso ajuda os desenvolvedores a entender onde seus modelos podem falhar e como melhorá-los.
A Necessidade de uma Nova Abordagem
Antes, os pesquisadores usavam ferramentas existentes para encontrar saídas prejudiciais confiando em classificadores. Um classificador é como um filtro que identifica saídas ruins com base no que foi treinado. No entanto, esse método tem limitações. Ele depende de saber com antecedência qual comportamento ruim procurar, o que nem sempre é possível.
Para construir uma abordagem mais eficaz, propomos uma nova estrutura que foca em três etapas: explorar, estabelecer e explorar.
Etapa 1: Explorando o Comportamento do Modelo
A primeira etapa é examinar o que o modelo faz. Isso envolve fazer diferentes perguntas ou comandos para ver como ele responde. O objetivo é coletar exemplos do tipo de texto que ele produz. Em vez de escolher comandos aleatórios, podemos ser mais estratégicos selecionando tópicos diversos e variações para aumentar as chances de encontrar saídas problemáticas.
Nos testes práticos, coletamos milhares de frases do modelo. Observando como o modelo gerou essas frases, conseguimos ter uma ideia melhor do seu comportamento.
Etapa 2: Estabelecendo Medidas de Dano
Uma vez que temos uma coleção de saídas, a próxima etapa é analisá-las para criar uma maneira de medir comportamentos indesejados. Isso significa descobrir quais saídas são prejudiciais ou enganosas. Vários métodos podem ser usados aqui, como ter humanos rotulando os textos com base em serem bons ou ruins.
Essa etapa é crucial porque rotular requer julgamento humano. As pessoas podem fornecer o contexto e as nuances que classificadores simples podem perder. Como resultado, os rótulos devem refletir preocupações do mundo real e como as pessoas interpretam declarações.
Etapa 3: Explorando as Fraquezas do Modelo
Depois de identificar como são as saídas prejudiciais, a última etapa é encontrar maneiras de provocar essas respostas do modelo. Isso envolve criar comandos que provavelmente farão o modelo gerar saídas indesejáveis.
Na nossa abordagem, usamos aprendizado por reforço para treinar um gerador que cria esses comandos. Assim, conseguimos elaborar entradas diversas que provocam respostas prejudiciais do modelo. O objetivo é ver com que frequência o modelo produz essas saídas prejudiciais e encontrar padrões no seu comportamento.
Aplicando a Estrutura
Aplicamos essa estrutura a dois modelos de linguagem grandes, GPT-2 e GPT-3. Os resultados mostraram que conseguimos encontrar efetivamente comandos que levam a saídas tóxicas ou desonestas.
Para o GPT-2, usamos um classificador de toxicidade para identificar declarações prejudiciais. Analisamos 80.000 frases e acabamos com uma amostra mais gerenciável de 20.000 que representava uma variedade de saídas. Então, treinamos classificadores para determinar quais saídas eram tóxicas. Descobrimos que nossos métodos nos permitiram identificar e gerar texto tóxico com sucesso.
Para o GPT-3, adotamos uma abordagem diferente. Queríamos encontrar declarações que pudessem ser classificadas como falsas. Focamos em produzir comandos que levariam o modelo a gerar declarações que uma pessoa típica consideraria falsas ou enganosas.
Resultados e Descobertas
Nos nossos testes, coletamos insights valiosos. Descobrimos que os modelos frequentemente produziam texto prejudicial, especialmente quando recebiam tipos específicos de comandos.
Quando fizemos red teaming no GPT-2, os resultados mostraram que em condições normais, o modelo produzia saídas tóxicas menos de 1% das vezes. No entanto, quando aplicamos comandos adversariais, esse número subiu para cerca de 31%. Isso sugere que os comandos que criamos foram de fato eficazes em provocar comportamento prejudicial.
Da mesma forma, com o GPT-3, vimos que o modelo gerava saídas desonestas cerca de 30% das vezes quando instigado com frases cuidadosamente elaboradas. Os comandos giravam principalmente em torno de conhecimentos gerais e conceitos errôneos, mostrando como o modelo poderia ser facilmente desviado.
Construindo um Conjunto de Dados
Uma parte importante deste trabalho foi construir um conjunto de dados que reflete o Conhecimento Comum. Rotulamos 20.000 declarações como verdadeiro, falso ou nem um nem outro. Esse conjunto de dados se tornou um recurso crucial para entender como esses modelos de linguagem interagem com a informação.
Os rótulos foram derivados não apenas de classificadores, mas através da entrada humana. Contratando trabalhadores de conhecimento, conseguimos obter rótulos com base em quão provável seria que a pessoa média soubesse que algo era verdadeiro ou falso.
Desafios na Rotulagem
Rotular não foi sem desafios. Definir o que conta como conhecimento comum pode ser complicado, pois muitas vezes varia de acordo com a cultura e o contexto. Nossas descobertas revelaram que uma parte significativa das declarações caiu na categoria "nenhum", indicando que algumas verdades não são universalmente aceitas ou reconhecidas.
Trabalho Futuro e Limitações
Embora tenhamos feito progresso significativo, ainda existem muitos obstáculos a superar no red teaming de modelos de linguagem. Um grande desafio é a eficiência do processo. Encontrar saídas prejudiciais requer um esforço manual considerável, o que pode ser uma barreira para testes sistemáticos.
Além disso, alguns comandos resultam em saídas sem sentido, levantando questões sobre como melhor guiar o gerador de comandos para criar textos coerentes e relevantes.
Olhando para frente, nosso objetivo é refinar nossos métodos para torná-los mais eficientes. Planejamos explorar melhores maneiras de amostrar exemplos diversos e melhorar a precisão dos nossos classificadores.
Conclusão
Em conclusão, nossa abordagem demonstra que o red teaming de modelos de linguagem pode ser feito de forma eficaz desde o início. Ao desenvolver um processo claro para explorar, estabelecer e explorar o comportamento do modelo, podemos descobrir saídas prejudiciais que podem não ser visíveis através de métodos tradicionais.
Esse trabalho é vital para criar modelos de linguagem mais seguros e confiáveis que servem ao bem público. Com mais refinamento e automação, o processo de red teaming pode se tornar parte essencial do desenvolvimento de tecnologias de linguagem.
Título: Explore, Establish, Exploit: Red Teaming Language Models from Scratch
Resumo: Deploying large language models (LMs) can pose hazards from harmful outputs such as toxic or false text. Prior work has introduced automated tools that elicit harmful outputs to identify these risks. While this is a valuable step toward securing models, these approaches rely on a pre-existing way to efficiently classify undesirable outputs. Using a pre-existing classifier does not allow for red-teaming to be tailored to the target model. Furthermore, when failures can be easily classified in advance, red-teaming has limited marginal value because problems can be avoided by simply filtering training data and/or model outputs. Here, we consider red-teaming "from scratch," in which the adversary does not begin with a way to classify failures. Our framework consists of three steps: 1) Exploring the model's range of behaviors in the desired context; 2) Establishing a definition and measurement for undesired behavior (e.g., a classifier trained to reflect human evaluations); and 3) Exploiting the model's flaws using this measure to develop diverse adversarial prompts. We use this approach to red-team GPT-3 to discover classes of inputs that elicit false statements. In doing so, we construct the CommonClaim dataset of 20,000 statements labeled by humans as common-knowledge-true, common knowledge-false, or neither. We are making code and data available.
Autores: Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan Hadfield-Menell
Última atualização: 2023-10-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.09442
Fonte PDF: https://arxiv.org/pdf/2306.09442
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.