Asegurando Modelos de Linguagem: Uma Abordagem Competitiva

A competição revela vulnerabilidades e defesas na segurança dos modelos de linguagem.

2025-07-29T17:12:36+00:00 ― 4 min ler

Índice

Configuração da Competição
Resultados da Competição
O Conjunto de Dados
Defesas Mais Eficazes
Ataques Mais Eficazes
Lições Aprendidas
Conclusão
Fonte original
Ligações de referência

Sistemas de modelos de linguagem grandes enfrentam riscos de segurança significativos por causa de mensagens elaboradas que visam sobrescrever as instruções originais do sistema ou vazar dados privados. Pra estudar esse problema, rolou uma competição capture-the-flag no IEEE SaTML 2024, onde o objetivo era proteger uma string secreta no prompt do sistema LLM. A competição foi organizada em duas fases: a fase de defesa, onde as equipes desenvolveram Defesas, e a fase de ataque, onde as equipes tentaram extrair os Segredos.

Configuração da Competição

A competição usou uma interface web onde as equipes podiam criar e editar suas defesas e interagir com o modelo. Cada equipe recebeu créditos pra consultar os modelos. A fase de defesa envolveu equipes criando defesas contra modelos como GPT-3.5 e Llama-2. A fase de ataque permitiu que as equipes testassem suas defesas.

Fase de Defesa

As equipes projetaram defesas que incluíam um prompt de sistema, um filtro em Python e um filtro LLM. As defesas tinham como objetivo impedir que o modelo revelasse o segredo enquanto mantinha sua utilidade para prompts não relacionados.

Fase de Ataque

Durante a fase de ataque, as equipes tentaram quebrar as defesas. Essa fase teve um estágio de reconhecimento onde os atacantes interagiram livremente com as defesas e um estágio de avaliação com um número limitado de interações pontuadas.

Resultados da Competição

A competição contou com 163 equipes registradas, com 72 defesas submetidas. Foram 137.063 chats únicos na fase de ataque, e 35 equipes quebraram pelo menos uma defesa. Um conjunto de dados com mais de 137 mil interações foi criado pra apoiar pesquisas futuras.

O Conjunto de Dados

O conjunto de dados é dividido em defesas e chats. A parte das defesas contém detalhes sobre defesas aceitas, enquanto a parte dos chats contém interações de usuários durante a fase de ataque.

Exploração do Conjunto de Dados

O conjunto de dados de chats inclui conversas de 65 equipes de ataque diferentes. Apenas 4% das entradas envolveram extração de segredos com sucesso. A análise do conjunto de dados revela insights sobre estratégias de ataque e destaca a importância de conversas de múltiplas interações pra Ataques bem-sucedidos.

Defesas Mais Eficazes

Equipe Hestia: Usou segredos falsos no prompt do sistema como isca e aplicou filtros rigorosos pra ocultar o verdadeiro segredo.
Equipe RSLLM: Melhorou o prompt do sistema com instruções explícitas pra evitar a revelação de segredos e aplicou filtros de saída eficazes.
Equipe WreckTheLine: Incorporou segredos de isca e usou uma abordagem em múltiplas etapas focando em tanto segurança quanto utilidade.

Ataques Mais Eficazes

Equipe WreckTheLine: Adaptou ataques pra explorar fraquezas nas defesas, incluindo uso de sinônimos e evitando palavras proibidas.
Equipe Shrug Face Shrug: Usou uma mistura de consultas benignas e formatos de pedido específicos pra extrair segredos.
Equipe Hestia: Estruturou pedidos pra induzir o modelo a revelar segredos indiretamente.

Lições Aprendidas

As principais lições da competição incluem:

Ataques Adaptativos: Personalizar ataques pra considerar defesas específicas se mostrou essencial.
Avaliação em Múltiplas Interações: Ataques bem-sucedidos muitas vezes dependeram de interações de múltiplas rodadas, destacando a necessidade de métodos de avaliação complexos.
Desafios de Filtragem: A filtragem eficaz é difícil, já que até configurações simples podem ser contornadas por atacantes adaptativos.
Complexidade da Defesa: As defesas devem considerar várias estratégias de ataque potenciais, já que atacantes podem explorar até mesmo fraquezas pequenas.

Conclusão

Essa competição destacou os desafios contínuos em garantir a segurança dos LLMs contra ataques de injeção de prompt. O conjunto de dados criado servirá como um recurso valioso pra pesquisas futuras que buscam melhorar a segurança dos sistemas de modelos de linguagem.

Asegurando Modelos de Linguagem: Uma Abordagem Competitiva

A competição revela vulnerabilidades e defesas na segurança dos modelos de linguagem.

#Configuração da Competição

#Fase de Defesa

#Fase de Ataque

#Resultados da Competição

#O Conjunto de Dados

#Exploração do Conjunto de Dados

#Defesas Mais Eficazes

#Ataques Mais Eficazes

#Lições Aprendidas

#Conclusão

Ligações de referência

Tópicos referenciados