Um Método Simples pra Proteger Modelos de Linguagem
Essa abordagem usa autoavaliação pra se proteger de resultados prejudiciais em modelos de linguagem.
― 2 min ler
O artigo apresenta um novo método pra proteger modelos de linguagem grandes (LLMs) contra ataques que tentam enganar eles a produzir resultados prejudiciais. Essa abordagem usa Autoavaliação, onde os modelos avaliam suas próprias entradas e saídas sem precisar de treinamento extra. É mais barato e simples do que outros métodos que requerem ajustes nos modelos.
O principal objetivo é baixar a taxa de sucesso dos ataques em LLMs tanto de código aberto quanto de código fechado. O estudo mostra que o método de autoavaliação reduz as taxas de sucesso dos ataques de forma mais eficaz do que ferramentas existentes como Llama-Guard2 e várias APIs de moderação de conteúdo.
Os autores discutem como os LLMs são treinados pra evitar Saídas Prejudiciais, mas alguns ataques ainda conseguem burlar essas Defesas. O método deles envolve introduzir um checkpoint onde outro modelo verifica a segurança da entrada e saída, conseguindo identificar pedidos prejudiciais e prevenir respostas inseguras.
A pesquisa inclui testes em vários cenários, tipo se o avaliador consegue suportar ataques. Os resultados sugerem que, apesar do avaliador poder ser atacado, a defesa continua eficaz, mantendo uma proteção melhor do que modelos que não têm isso.
O estudo foca especificamente em como instruções prejudiciais podem ser avaliadas, usando um conjunto de exemplos prejudiciais bem definidos pra teste. Eles também examinam quão bem a defesa funciona contra diferentes tipos de ataques, como aqueles que adicionam texto indesejado às entradas.
No geral, os resultados indicam que a autoavaliação é um mecanismo de defesa forte e prático pra proteger os LLMs de gerar conteúdo prejudicial, mesmo na presença de ataques. A técnica é elogiada pela sua simplicidade e eficácia, tornando-se uma contribuição valiosa pra garantir a segurança na implementação dos LLMs.
Título: Self-Evaluation as a Defense Against Adversarial Attacks on LLMs
Resumo: We introduce a defense against adversarial attacks on LLMs utilizing self-evaluation. Our method requires no model fine-tuning, instead using pre-trained models to evaluate the inputs and outputs of a generator model, significantly reducing the cost of implementation in comparison to other, finetuning-based methods. Our method can significantly reduce the attack success rate of attacks on both open and closed-source LLMs, beyond the reductions demonstrated by Llama-Guard2 and commonly used content moderation APIs. We present an analysis of the effectiveness of our method, including attempts to attack the evaluator in various settings, demonstrating that it is also more resilient to attacks than existing methods. Code and data will be made available at https://github.com/Linlt-leon/self-eval.
Autores: Hannah Brown, Leon Lin, Kenji Kawaguchi, Michael Shieh
Última atualização: 2024-08-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.03234
Fonte PDF: https://arxiv.org/pdf/2407.03234
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://pratiman-91.github.io/colormaps/docs/collections/scientific
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://platform.openai.com/docs/guides/moderation
- https://azure.microsoft.com/en-us/products/ai-services/ai-content-safety
- https://perspectiveapi.com/
- https://github.com/Linlt-leon/Adversarial-Alignments
- https://github.com/Linlt-leon/self-eval