Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Criptografia e segurança# Aprendizagem de máquinas

Fortalecendo a Segurança em Modelos de Linguagem Grandes

Um novo método aumenta a segurança dos modelos de linguagem contra comandos prejudiciais.

― 5 min ler


Novo Marco de SegurançaNovo Marco de Segurançada IAprejudiciais de IA.Um método firme pra evitar saídas
Índice

Modelos de linguagem grandes (LLMs) são ferramentas que ajudam a gerar texto com base nas entradas que recebem. Eles podem ser muito úteis, mas tem-se um medo que possam produzir conteúdo nocivo se alguém bagunçar com eles usando certos tipos de comandos. Pra evitar isso, esses modelos têm recursos de segurança. Mas, alguns truques espertos conseguem contornar essas medidas, levando a resultados perigosos. Este artigo discute um novo método pensado pra proteger LLMs desses truques.

Medidas de Segurança nos LLMs

Quando um modelo de linguagem é criado, ele é programado pra rejeitar pedidos nocivos. Por exemplo, se alguém pergunta como construir um dispositivo perigoso, um modelo bem ajustado deve responder que não pode ajudar nisso. Apesar das melhorias nas medidas de segurança, alguns usuários encontraram jeitos de manipular os modelos pra dar informações prejudiciais.

Essas manipulações funcionam adicionando palavras ou frases que fazem o modelo ignorar suas configurações de segurança. Por exemplo, começar um comando com certas frases pode fazer o modelo concordar com pedidos nocivos. Isso representa um risco significativo, já que modelos treinados com dados inseguros podem gerar conteúdo Prejudicial se não forem protegidos adequadamente.

A Nova Abordagem

Esse novo método apresenta uma estrutura projetada pra defender melhor os LLMs de comandos nocivos. O objetivo é garantir segurança contra truques que possam contornar as proteções já existentes no modelo. O processo envolve verificar os comandos pra ver se eles podem levar a saídas nocivas. Se o modelo detectar qualquer subsequência prejudicial, ele rotula todo o comando como nocivo.

Como Funciona

O método analisa cada parte de um comando. Ele apaga partes do comando uma a uma e checa as partes restantes. Se alguma parte for marcada como nociva, o comando inteiro é considerado nocivo. Essa abordagem se baseia em um princípio chave: se um comando é seguro, qualquer parte dele também deve ser segura.

Defesa Contra Diferentes Tipos de Truques

A estrutura se defende contra três tipos principais de manipulações:

  1. Sufixo Adversarial: Esse tipo envolve adicionar texto nocivo no final de um comando. O modelo verifica o comando original e suas versões reduzidas pra ver se alguma parte é nociva. Se for, o modelo rotula o comando como nocivo.

  2. Inserção Adversarial: Aqui, texto nocivo é colocado em qualquer lugar dentro do comando original. O modelo checa todas as possíveis posições onde o texto pode ser trocado ou inserido. Se qualquer sequência é marcada como nociva, o comando inteiro é rotulado como nocivo.

  3. Infusão Adversarial: Esse é o ataque mais complexo. Aqui, palavras nocivas podem ser inseridas em qualquer parte do comando, não só como um bloco. O modelo gera várias subsequências potenciais apagando diferentes combinações de palavras e checa por segurança.

Desempenho do Método

O método tem mostrado resultados fortes nos testes. Ao lidar com o truque de sufixo adversarial, ele conseguiu detectar uma alta porcentagem de comandos nocivos, mantendo um bom desempenho com comandos Seguros. A estrutura foi testada com comandos modificados por sequências nocivas e alcançou uma taxa de precisão de 93%.

Checagem de Comandos Seguros

As checagens de segurança não são só pra comandos nocivos. Também é importante que o sistema funcione bem pra comandos seguros. Os testes mostraram alta precisão ao checar comandos que não foram modificados, com tempos de resposta mantendo-se razoáveis. No entanto, à medida que o número de palavras que podem ser apagadas aumenta, a precisão tende a cair um pouco, e o tempo necessário pra checar os comandos aumenta.

Trabalhos Relacionados

Tem muita pesquisa sobre como se defender de comandos nocivos. Muitos métodos antigos focavam em fazer pequenas mudanças na entrada pra confundir o modelo. Mas, essas abordagens muitas vezes falharam contra ataques mais inteligentes. Em vez de apenas se defender de pequenas mudanças, esse novo método tem como objetivo dar garantias sólidas de que o modelo vai identificar corretamente as modificações nocivas.

Direções Futuras

Os resultados iniciais são promissores, mas ainda tem espaço pra melhorar. Uma área pra mais pesquisa é o desenvolvimento de filtros de segurança melhores. Agora, a estrutura usa um modelo de linguagem existente pra verificar comandos, mas criar um classificador dedicado pode melhorar o desempenho.

Além disso, achar maneiras de reduzir o número de subsequências que precisam ser checadas sem perder segurança poderia tornar esse método ainda mais eficiente. Essas melhorias poderiam ampliar a aplicabilidade da estrutura e melhorar sua eficácia geral.

Conclusão

O uso crescente de modelos de linguagem grandes traz benefícios significativos, mas também exige uma consideração cuidadosa de suas funcionalidades de segurança. A introdução dessa nova estrutura representa um avanço em garantir que os LLMs consigam resistir a truques inteligentes que buscam contornar sua segurança. Ao fornecer garantias verificáveis de segurança, o método aumenta a confiabilidade dos LLMs e ajuda a proteger os usuários de conteúdo nocivo. Com a pesquisa em andamento, esperamos melhorar ainda mais essas medidas de segurança, contribuindo pra um ambiente mais seguro pra todo mundo que usa essas ferramentas avançadas.

Fonte original

Título: Certifying LLM Safety against Adversarial Prompting

Resumo: Large language models (LLMs) are vulnerable to adversarial attacks that add malicious tokens to an input prompt to bypass the safety guardrails of an LLM and cause it to produce harmful content. In this work, we introduce erase-and-check, the first framework for defending against adversarial prompts with certifiable safety guarantees. Given a prompt, our procedure erases tokens individually and inspects the resulting subsequences using a safety filter. Our safety certificate guarantees that harmful prompts are not mislabeled as safe due to an adversarial attack up to a certain size. We implement the safety filter in two ways, using Llama 2 and DistilBERT, and compare the performance of erase-and-check for the two cases. We defend against three attack modes: i) adversarial suffix, where an adversarial sequence is appended at the end of a harmful prompt; ii) adversarial insertion, where the adversarial sequence is inserted anywhere in the middle of the prompt; and iii) adversarial infusion, where adversarial tokens are inserted at arbitrary positions in the prompt, not necessarily as a contiguous block. Our experimental results demonstrate that this procedure can obtain strong certified safety guarantees on harmful prompts while maintaining good empirical performance on safe prompts. Additionally, we propose three efficient empirical defenses: i) RandEC, a randomized subsampling version of erase-and-check; ii) GreedyEC, which greedily erases tokens that maximize the softmax score of the harmful class; and iii) GradEC, which uses gradient information to optimize tokens to erase. We demonstrate their effectiveness against adversarial prompts generated by the Greedy Coordinate Gradient (GCG) attack algorithm. The code for our experiments is available at https://github.com/aounon/certified-llm-safety.

Autores: Aounon Kumar, Chirag Agarwal, Suraj Srinivas, Aaron Jiaxun Li, Soheil Feizi, Himabindu Lakkaraju

Última atualização: 2024-02-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.02705

Fonte PDF: https://arxiv.org/pdf/2309.02705

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes