Avaliando a Segurança de Modelos de Linguagem Grandes Contra Instruções Perigosas
Avaliar a capacidade dos LLMs de detectar instruções prejudiciais em comandos dos usuários.
― 7 min ler
Índice
Modelos de Linguagem Grande (LLMs) viraram ferramentas importantes que conseguem seguir instruções dadas em linguagem natural. Eles são super usados em serviços ao cliente e outras aplicações. Mas, à medida que esses modelos ficam melhores em seguir as instruções, surgem preocupações sobre os riscos que vêm com eles. Um grande problema é a possibilidade de atacantes injetarem instruções prejudiciais na entrada do modelo, o que pode mudar as instruções originais e resultar em ações ou conteúdos indesejados.
Pra garantir que os LLMs sejam seguros para uso no mundo real, é essencial avaliar quão bem eles conseguem distinguir boas instruções das ruins. Neste artigo, a gente apresenta um novo benchmark pra avaliar quão robustos os LLMs são contra instruções prejudiciais que são adicionadas secretamente aos seus prompts. O objetivo é medir o quanto essas instruções prejudiciais podem influenciar os modelos e ver quão bem os LLMs conseguem distinguir entre elas e as instruções originais do usuário.
Por Que Isso Importa
Com o uso crescente dos LLMs em várias aplicações, é crucial garantir sua segurança. Por exemplo, muitos chatbots e assistentes virtuais dependem desses modelos pra fornecer informações ou responder perguntas. Se esses modelos não conseguem detectar instruções prejudiciais de forma precisa, existe o risco de que eles possam revelar informações sensíveis ou realizar outras ações que possam prejudicar os usuários.
Pra testar a Robustez dos LLMs, fizemos experimentos com alguns dos modelos mais recentes e encontramos fraquezas notáveis. Esses achados destacam a necessidade de mais pesquisas sobre como melhorar os LLMs pra que eles entendam melhor as instruções em vez de simplesmente repetir o que é dado a eles.
O Que Fizemos
Focamos em criar um benchmark que avalia sistematicamente os LLMs contra instruções prejudiciais. A situação que analisamos é semelhante ao que os agentes conversacionais comerciais enfrentam, onde eles precisam responder perguntas dos usuários com base em informações retiradas da internet. Essa configuração apresenta uma oportunidade pros atacantes injetarem instruções prejudiciais no conteúdo encontrado online, o que poderia enganar o LLM.
Pra criar nosso benchmark, usamos dois conjuntos de dados de perguntas e respostas, onde adicionamos instruções prejudiciais ao texto que os LLMs usariam pra gerar respostas. Em vez de focar em instruções que levam diretamente a ações prejudiciais, olhamos pra dois tipos de instruções prejudiciais benignas:
- Instruções aleatórias que não têm relação com a pergunta original.
- Perguntas relevantes que poderiam ser respondidas com as mesmas informações, mas são diferentes da pergunta original do usuário.
Essa abordagem nos permite avaliar a capacidade dos LLMs de entender o Contexto e distinguir entre as instruções originais do usuário e as instruções prejudiciais adicionais.
Estrutura de Avaliação
A avaliação se concentra em duas áreas principais:
- Influência de Desempenho: Mede o quanto as respostas dos LLMs são afetadas pelas instruções prejudiciais.
- Discriminação de Instruções: Verifica se os LLMs seguem as instruções originais do usuário em vez de serem influenciados pelas prejudiciais.
Escolhemos uma tarefa de perguntas e respostas como nosso campo de teste, especialmente olhando pra perguntas e respostas extrativas, onde as respostas são selecionadas a partir de um contexto fornecido. Isso reflete situações do mundo real onde os LLMs respondem a perguntas com base em informações retiradas de fontes online.
Nossos Achados
Nas nossas avaliações, analisamos vários LLMs de ponta, incluindo modelos grandes e comercialmente disponíveis e modelos menores e de código aberto.
Diferenças na Robustez
Observamos que havia diferenças significativas em quão bem os modelos podiam lidar com instruções prejudiciais. Alguns modelos como ChatGPT e Claude mostraram melhor robustez em comparação com outros. Em contraste, modelos menores, incluindo alguns otimizados para instruções, foram muito menos robustos e lutaram pra diferenciar entre as instruções originais e as prejudiciais injetadas. Isso indica uma grande área de preocupação sobre a eficácia dos métodos de treinamento usados pra esses modelos menores.
Vulnerabilidade dos Modelos Menores
Os modelos otimizados para instruções não performaram tão bem quanto esperamos. Apesar de terem uma precisão geral decente, eles eram altamente suscetíveis a instruções prejudiciais. Os resultados mostraram que frequentemente falhavam em reconhecer as instruções principais do usuário e, em vez disso, seguiam mais de perto as instruções injetadas. Isso levanta dúvidas sobre a eficácia dos métodos de otimização atuais e enfatiza a necessidade de melhorias que permitam que os modelos equilibrem seguir instruções enquanto também compreendem a verdadeira intenção do usuário.
O Desafio das Instruções Relevantes ao Contexto
Quando comparamos a capacidade dos modelos em lidar com diferentes tipos de instruções prejudiciais, descobrimos que reconhecer instruções prejudiciais relevantes ao contexto era muito mais difícil do que lidar com instruções aleatórias que não tinham relação com os prompts. Isso sugere que os modelos podem estar confiando demais no contexto sem realmente entendê-lo, o que permite uma exploração potencial através de designs de instrução inteligentes.
Posição da Injeção
Também testamos onde as instruções prejudiciais foram colocadas dentro do contexto. Descobrimos que injetar instruções prejudiciais no final do texto era o mais desafiador para os modelos detectarem. Isso demonstra que alguns modelos podem ter dificuldade em compreender completamente todo o prompt e, em vez disso, reagem com base na previsão da próxima palavra mais provável.
O Impacto de Frases Específicas
Na nossa investigação, olhamos como certas frases, como "ignore o prompt anterior," podem afetar o desempenho do modelo. Essa frase pode manipular modelos a desconsiderar totalmente o contexto, deixando-os mais vulneráveis a instruções prejudiciais. Quando essa frase foi incluída, modelos robustos como ChatGPT e Claude tiveram uma queda notável em seu desempenho, indicando que eles ainda podem ser enganados sob certas condições.
Avaliações Humanas
Pra complementar nossas avaliações automatizadas, realizamos avaliações humanas pra ver quão bem os modelos estavam respondendo aos diferentes tipos de instruções prejudiciais. As avaliações humanas revelaram que, enquanto alguns modelos como ChatGPT e Claude se mantiveram basicamente no caminho certo seguindo as perguntas dos usuários, outros modelos otimizados para instruções foram enganados pelas instruções prejudiciais.
Conclusão
Resumindo, nosso trabalho introduziu um novo benchmark pra avaliar quão robustos os LLMs que seguem instruções são contra injeções de instruções prejudiciais. Através de testes extensivos, identificamos limitações sérias em muitos modelos, que lutam pra manter seu desempenho quando enfrentam prompts adversariais.
Os achados dos nossos experimentos destacam uma necessidade urgente por medidas de segurança mais fortes e melhores técnicas de treinamento pra melhorar como os LLMs entendem e respondem a prompts. À medida que os LLMs se tornam mais integrados em aplicações que exigem alta confiança, como serviços ao cliente e recuperação de informações, entender suas vulnerabilidades é essencial pra garantir sua confiabilidade e segurança no uso cotidiano. Pesquisas futuras devem focar em desenvolver métodos aprimorados que ajudem os LLMs a discernir entre instruções genuínas e prejudiciais, melhorando assim seu desempenho geral e confiabilidade em cenários do mundo real.
Título: Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection
Resumo: Large Language Models (LLMs) have demonstrated exceptional proficiency in instruction-following, becoming increasingly crucial across various applications. However, this capability brings with it the risk of prompt injection attacks, where attackers inject instructions into LLMs' input to elicit undesirable actions or content. Understanding the robustness of LLMs against such attacks is vital for their safe implementation. In this work, we establish a benchmark to evaluate the robustness of instruction-following LLMs against prompt injection attacks. Our objective is to determine the extent to which LLMs can be influenced by injected instructions and their ability to differentiate between these injected and original target instructions. Through extensive experiments with leading instruction-following LLMs, we uncover significant vulnerabilities in their robustness to such attacks. Our results indicate that some models are overly tuned to follow any embedded instructions in the prompt, overly focusing on the latter parts of the prompt without fully grasping the entire context. By contrast, models with a better grasp of the context and instruction-following capabilities will potentially be more susceptible to compromise by injected instructions. This underscores the need to shift the focus from merely enhancing LLMs' instruction-following capabilities to improving their overall comprehension of prompts and discernment of instructions that are appropriate to follow. We hope our in-depth analysis offers insights into the underlying causes of these vulnerabilities, aiding in the development of future solutions. Code and data are available at https://github.com/Leezekun/instruction-following-robustness-eval
Autores: Zekun Li, Baolin Peng, Pengcheng He, Xifeng Yan
Última atualização: 2023-11-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.10819
Fonte PDF: https://arxiv.org/pdf/2308.10819
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/Leezekun/Adv-Instruct-Eval
- https://www.anthropic.com/index/introducing-claude
- https://www.bing.com/new
- https://www.perplexity.ai/
- https://openai.com/blog/chatgpt-plugins
- https://platform.openai.com/docs/models
- https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard