Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Ativando uma Memória Melhor em Modelos de IA

Uma olhada na direção de ativação pra melhorar o manuseio da memória da IA.

― 7 min ler


Técnicas de GerenciamentoTécnicas de Gerenciamentode Memória de IApara um recall de modelo eficaz.Explorando a ativação de direcionamento
Índice

Modelos de Linguagem Grande (LLMs) estão bombando hoje em dia. Eles conseguem conversar, escrever histórias e até ajudar com a lição de casa. Mas aqui vai o problema: esses modelos às vezes lembram de coisas que não deviam, tipo informações sensíveis ou coisas protegidas por direitos autorais. Sabe, aquelas paradas que fazem os advogados ficarem bem felizes (ou bem bravos), dependendo de quem tá pagando a conta.

E aí, o que a gente faz? Uns caras espertos pensaram em "Desaprender". Isso significa se livrar daquela memória indesejada sem jogar o modelo todo pela janela. Mas, nossa, não é tão simples quanto parece. Tem maneiras espertas de pessoas mal-intencionadas conseguidas puxar essas informações esquecidas, como tirar um coelho da cartola (mas bem menos divertido). Os métodos atuais muitas vezes só dão uma lista de respostas possíveis ao invés da resposta certa. É como pedir a melhor pizzaria da cidade e receber uma lista de todas as pizzarias, mas não saber qual delas é realmente a melhor.

Neste artigo, vamos falar sobre um método novinho chamado direcionamento de ativação. É tudo sobre guiar esses modelos de volta ao caminho certo quando eles se desviam da boa conduta.

O Problema do Esquecimento

Vamos simplificar um pouco. Quando os LLMs aprendem, eles devoram um monte de texto de toda a internet. Eles ficam muito bons em responder perguntas, mas isso tem um preço. Às vezes, eles lembram de informações sensíveis que não deviam saber. Imagina um modelo que aprendeu sua preferência de pizza secreta em um chat online-socorro! Quanto mais dados eles consomem, mais difícil fica encontrar e apagar aquela Informação específica. É como tentar limpar uma bagunça de espaguete gigante sem derramar mais molho.

Leis como a GDPR estão aí pra proteger nossa privacidade. Elas dizem que as empresas têm que deletar dados pessoais se solicitado. Mas só pedir pra um modelo esquecer alguma coisa não é suficiente, porque treinar do zero é tão prático quanto ensinar um gato a buscar.

Desaprender: O Truque Mágico

Então, o que é desaprender? Pense nisso como um truque de mágica pra IA. Ao invés de começar do zero, os pesquisadores querem fazer os modelos "esquecerem" certas coisas. Eles precisam fazer isso enquanto mantêm o modelo esperto o suficiente pra responder outras perguntas corretamente.

Mas descobrir se um modelo realmente esqueceu algo é complicado. Só porque ele não responde uma pergunta certa, não significa que ele esqueceu a resposta completamente. Imagina seu amigo dizendo que esqueceu seu aniversário, mas ainda lembrando quantos anos você tem. Não é muito convincente, né?

Muitos métodos atuais são como jogar esconde-esconde. Eles buscam informações escondidas, mas muitas vezes não conseguem encontrar a resposta real em meio a um monte de palpites.

Entrando no Direcionamento de Ativação

Agora, vamos falar sobre essa parada de direcionamento de ativação. Pense nisso como uma ferramenta especial pra ajudar a guiar o modelo de volta ao caminho certo. Criando o que chamamos de vetores de direcionamento, conseguimos ajudar o modelo a lembrar a direção certa (como um GPS pro cérebro dele). Essa técnica permite que a gente recupere informações precisas mesmo depois de um desaprendizado.

Então, como isso funciona? A gente gera pares de diferentes perguntas, que são questões elaboradas pra ajudar a identificar informações. Comparando as respostas do modelo a essas perguntas, criamos um vetor de direcionamento que nos diz qual caminho seguir pra pegar a resposta certa.

O Método de Direcionamento de Ativação Anonimizado

Aqui é onde as coisas ficam ainda mais interessantes. Apresentamos algo legal chamado Direcionamento de Ativação Anonimizado. Em vez de usar perguntas diretas que apontam pra informação perdida, criamos versões anonimizadas das perguntas. É como tentar pedir uma pizza sem mencionar seu recheio favorito.

A ideia é criar perguntas que sejam parecidas o suficiente com a original, mas que não revelam demais sobre a informação desaprendida. Fazendo isso, conseguimos criar pares contrastivos e usá-los pra entender como o modelo deve responder.

Por exemplo, se quisermos perguntar sobre um personagem de um livro (digamos Harry Potter-só pra diversão), criamos várias versões da pergunta que escondem o nome do personagem. Isso ajuda a entender o Conhecimento do modelo sobre o assunto sem levar ele de volta aos detalhes.

Experimentando com Diferentes Conjuntos de Dados

Decidimos testar nossa abordagem usando vários métodos e conjuntos de dados. Vimos como o direcionamento de ativação funciona com modelos que desaprenderam pedaços de conhecimento.

Em um experimento, usamos um modelo que foi treinado em tudo sobre Harry Potter. Fizemos várias perguntas simples, como “Quem é o melhor amigo do Harry Potter?” (Facinho, né?) Depois, comparamos as respostas dadas pelo modelo desaprendido e pelo modelo com nosso método de direcionamento de ativação.

Os resultados foram bem fascinantes. Para conhecimento geral, nosso método fez um ótimo trabalho ao puxar as respostas certas. Foi como tirar a poeira de um livro esquecido e descobrir que tinha algumas das melhores histórias escondidas dentro. No entanto, quando se tratava de tópicos mais específicos ou menos populares, encontramos dificuldades. Foi como tentar encontrar o Wally em uma imagem sem suas listras características.

O Conjunto de Dados TOFU e Além

Em seguida, expandimos nossos testes para incluir o conjunto de dados TOFU. Esse conjunto apresenta autores fictícios, e as perguntas são mais focadas. Aqui, queríamos ver se nosso método poderia funcionar igualmente bem. Os resultados foram meio variados. Enquanto tivemos alguns sucessos, também vimos um bom número de fracassos. Foi como tentar pregar gelatina na parede. Não grudava.

Depois jogamos outro cliente complicado na mistura: ROME, outro método de desaprendizado. Com esse, tentamos buscar respostas de um único token. Foi como jogar um jogo de associação de palavras. Tentamos ver se nosso método ainda funcionava. E adivinha? Ele ajudou a guiar o modelo na direção certa, evitando que ele ficasse preso a pistas erradas.

O Escopo Amplo vs. Estreito

A grande lição aqui é que nosso método funciona melhor com um conhecimento mais amplo e interconectado. Por exemplo, com Harry Potter, tem um monte de ligações e conexões entre personagens, tramas e feitiços mágicos. Isso facilita pro modelo recuperar informações relacionadas. É como uma teia de referências que podem apontar de volta pro Harry.

Mas quando a gente reduz pra um nome ou fato específico, como o local de nascimento de um autor específico, as conexões ficam limitadas. É essa falta de links que dificulta a recuperação da informação certa.

Conclusão: O Caminho à Frente

Resumindo, o direcionamento de ativação é um método interessante pra recuperação de informações de LLMs que passaram por desaprendizado. Ele brilha quando lida com conhecimento amplo, mas enfrenta desafios com dados mais específicos. É como tentar se orientar em um parque de diversões gigante-fácil quando você sabe onde estão os brinquedos, mas complicado quando tá tentando achar um banheiro no meio de tudo.

Conforme avançamos, entender onde o direcionamento de ativação brilha e onde precisa melhorar será fundamental pra desenvolver IAs mais seguras e inteligentes. Afinal, ninguém quer acabar com um modelo que acha que seu recheio de pizza favorito é algo estranho. Vamos manter as coisas divertidas e diretas!

Fonte original

Título: Extracting Unlearned Information from LLMs with Activation Steering

Resumo: An unintended consequence of the vast pretraining of Large Language Models (LLMs) is the verbatim memorization of fragments of their training data, which may contain sensitive or copyrighted information. In recent years, unlearning has emerged as a solution to effectively remove sensitive knowledge from models after training. Yet, recent work has shown that supposedly deleted information can still be extracted by malicious actors through various attacks. Still, current attacks retrieve sets of possible candidate generations and are unable to pinpoint the output that contains the actual target information. We propose activation steering as a method for exact information retrieval from unlearned LLMs. We introduce a novel approach to generating steering vectors, named Anonymized Activation Steering. Additionally, we develop a simple word frequency method to pinpoint the correct answer among a set of candidates when retrieving unlearned information. Our evaluation across multiple unlearning techniques and datasets demonstrates that activation steering successfully recovers general knowledge (e.g., widely known fictional characters) while revealing limitations in retrieving specific information (e.g., details about non-public individuals). Overall, our results demonstrate that exact information retrieval from unlearned models is possible, highlighting a severe vulnerability of current unlearning techniques.

Autores: Atakan Seyitoğlu, Aleksei Kuvshinov, Leo Schwinn, Stephan Günnemann

Última atualização: 2024-11-04 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2411.02631

Fonte PDF: https://arxiv.org/pdf/2411.02631

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes