Asegurando Modelos de Linguagem: Uma Abordagem Competitiva
A competição revela vulnerabilidades e defesas na segurança dos modelos de linguagem.
― 4 min ler
Índice
Sistemas de modelos de linguagem grandes enfrentam riscos de segurança significativos por causa de mensagens elaboradas que visam sobrescrever as instruções originais do sistema ou vazar dados privados. Pra estudar esse problema, rolou uma competição capture-the-flag no IEEE SaTML 2024, onde o objetivo era proteger uma string secreta no prompt do sistema LLM. A competição foi organizada em duas fases: a fase de defesa, onde as equipes desenvolveram Defesas, e a fase de ataque, onde as equipes tentaram extrair os Segredos.
Configuração da Competição
A competição usou uma interface web onde as equipes podiam criar e editar suas defesas e interagir com o modelo. Cada equipe recebeu créditos pra consultar os modelos. A fase de defesa envolveu equipes criando defesas contra modelos como GPT-3.5 e Llama-2. A fase de ataque permitiu que as equipes testassem suas defesas.
Fase de Defesa
As equipes projetaram defesas que incluíam um prompt de sistema, um filtro em Python e um filtro LLM. As defesas tinham como objetivo impedir que o modelo revelasse o segredo enquanto mantinha sua utilidade para prompts não relacionados.
Fase de Ataque
Durante a fase de ataque, as equipes tentaram quebrar as defesas. Essa fase teve um estágio de reconhecimento onde os atacantes interagiram livremente com as defesas e um estágio de avaliação com um número limitado de interações pontuadas.
Resultados da Competição
A competição contou com 163 equipes registradas, com 72 defesas submetidas. Foram 137.063 chats únicos na fase de ataque, e 35 equipes quebraram pelo menos uma defesa. Um conjunto de dados com mais de 137 mil interações foi criado pra apoiar pesquisas futuras.
O Conjunto de Dados
O conjunto de dados é dividido em defesas e chats. A parte das defesas contém detalhes sobre defesas aceitas, enquanto a parte dos chats contém interações de usuários durante a fase de ataque.
Exploração do Conjunto de Dados
O conjunto de dados de chats inclui conversas de 65 equipes de ataque diferentes. Apenas 4% das entradas envolveram extração de segredos com sucesso. A análise do conjunto de dados revela insights sobre estratégias de ataque e destaca a importância de conversas de múltiplas interações pra Ataques bem-sucedidos.
Defesas Mais Eficazes
- Equipe Hestia: Usou segredos falsos no prompt do sistema como isca e aplicou filtros rigorosos pra ocultar o verdadeiro segredo.
- Equipe RSLLM: Melhorou o prompt do sistema com instruções explícitas pra evitar a revelação de segredos e aplicou filtros de saída eficazes.
- Equipe WreckTheLine: Incorporou segredos de isca e usou uma abordagem em múltiplas etapas focando em tanto segurança quanto utilidade.
Ataques Mais Eficazes
- Equipe WreckTheLine: Adaptou ataques pra explorar fraquezas nas defesas, incluindo uso de sinônimos e evitando palavras proibidas.
- Equipe Shrug Face Shrug: Usou uma mistura de consultas benignas e formatos de pedido específicos pra extrair segredos.
- Equipe Hestia: Estruturou pedidos pra induzir o modelo a revelar segredos indiretamente.
Lições Aprendidas
As principais lições da competição incluem:
- Ataques Adaptativos: Personalizar ataques pra considerar defesas específicas se mostrou essencial.
- Avaliação em Múltiplas Interações: Ataques bem-sucedidos muitas vezes dependeram de interações de múltiplas rodadas, destacando a necessidade de métodos de avaliação complexos.
- Desafios de Filtragem: A filtragem eficaz é difícil, já que até configurações simples podem ser contornadas por atacantes adaptativos.
- Complexidade da Defesa: As defesas devem considerar várias estratégias de ataque potenciais, já que atacantes podem explorar até mesmo fraquezas pequenas.
Conclusão
Essa competição destacou os desafios contínuos em garantir a segurança dos LLMs contra ataques de injeção de prompt. O conjunto de dados criado servirá como um recurso valioso pra pesquisas futuras que buscam melhorar a segurança dos sistemas de modelos de linguagem.
Título: Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition
Resumo: Large language model systems face important security risks from maliciously crafted messages that aim to overwrite the system's original instructions or leak private data. To study this problem, we organized a capture-the-flag competition at IEEE SaTML 2024, where the flag is a secret string in the LLM system prompt. The competition was organized in two phases. In the first phase, teams developed defenses to prevent the model from leaking the secret. During the second phase, teams were challenged to extract the secrets hidden for defenses proposed by the other teams. This report summarizes the main insights from the competition. Notably, we found that all defenses were bypassed at least once, highlighting the difficulty of designing a successful defense and the necessity for additional research to protect LLM systems. To foster future research in this direction, we compiled a dataset with over 137k multi-turn attack chats and open-sourced the platform.
Autores: Edoardo Debenedetti, Javier Rando, Daniel Paleka, Silaghi Fineas Florin, Dragos Albastroiu, Niv Cohen, Yuval Lemberg, Reshmi Ghosh, Rui Wen, Ahmed Salem, Giovanni Cherubin, Santiago Zanella-Beguelin, Robin Schmid, Victor Klemm, Takahiro Miki, Chenhao Li, Stefan Kraft, Mario Fritz, Florian Tramèr, Sahar Abdelnabi, Lea Schönherr
Última atualização: 2024-06-12 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.07954
Fonte PDF: https://arxiv.org/pdf/2406.07954
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.