Navegando pelo Direito de Ser Esquecido na IA
Examinando os desafios do RTBF no contexto dos Modelos de Linguagem Grandes.
― 9 min ler
Índice
O Direito ao Esquecimento (RTBF) permite que as pessoas peçam a remoção de informações pessoais da internet. Esse direito surgiu de uma decisão de um tribunal europeu em um caso envolvendo o Google. Ele faz parte de um conjunto maior de leis conhecido como Regulamento Geral sobre a Proteção de Dados (GDPR) na União Europeia. O GDPR tem como objetivo proteger Dados Pessoais, dando às pessoas mais controle sobre suas informações.
A Necessidade do RTBF
A Privacidade é um direito humano básico, reconhecido em acordos internacionais e regionais. O RTBF surgiu em resposta à quantidade crescente de dados pessoais disponíveis online e ao impacto que isso pode ter na vida das pessoas. Ele permite que indivíduos solicitem que motores de busca e outras organizações removam links ou informações sobre eles de suas plataformas. Esse direito é especialmente importante no mundo digital de hoje, onde um único post online pode ter consequências duradouras.
Como o RTBF Funciona?
Sob o GDPR, as pessoas podem pedir que seus dados pessoais sejam apagados em situações específicas. Isso inclui quando os dados não são mais necessários ou quando o consentimento foi retirado. No entanto, o RTBF não é um direito absoluto; existem circunstâncias em que ele pode não se aplicar, como quando entra em conflito com a liberdade de expressão ou interesses públicos.
Exemplos do RTBF em Ação
Desde a introdução do RTBF, o Google recebeu milhões de pedidos de indivíduos que querem que suas informações pessoais sejam removidas dos resultados de busca. A maioria desses pedidos envolve links para artigos de notícias, posts nas redes sociais e outros dados disponíveis ao público.
Modelos de Linguagem de Grande Escala: Uma Visão Geral
Modelos de Linguagem de Grande Escala (LLMs) são programas de computador avançados que conseguem entender e gerar texto parecido com o humano. Esses modelos são treinados em grandes quantidades de dados de texto da internet, permitindo que eles respondam a perguntas, escrevam ensaios, criem poesias e muito mais.
Como os LLMs São Treinados
Os LLMs usam técnicas de aprendizado profundo para aprender padrões na linguagem. Eles são treinados em fontes de dados diversas, incluindo livros, sites e redes sociais. O processo de treinamento envolve alimentar o modelo com texto e ensiná-lo a prever a próxima palavra em uma frase. Isso permite que os LLMs gerem respostas coerentes e relevantes em contexto.
A Crescente Popularidade dos LLMs
Os LLMs ganharam atenção significativa devido à sua capacidade de gerar texto de alta qualidade. Eles foram integrados em várias aplicações, incluindo chatbots, assistentes virtuais e motores de busca. Como resultado, muitas pessoas agora estão usando LLMs para buscar informações e interagir com a tecnologia.
Desafios com LLMs e RTBF
Embora os LLMs sejam ferramentas poderosas, eles também apresentam desafios em relação a dados pessoais e privacidade. A maneira como esses modelos são treinados e operam pode complicar a aplicação do RTBF.
Memorização de Dados Pessoais
Um dos principais problemas com os LLMs é que eles podem memorizar dados pessoais durante o treinamento. Isso significa que, mesmo que um ponto de dado específico não seja mais desejado, ele pode ainda aparecer nas saídas do modelo. Isso cria um dilema para indivíduos que querem que suas informações pessoais sejam removidas, já que o modelo pode ainda reter e produzir essas informações.
Alucinação de Informação
Os LLMs também podem gerar informações incorretas ou enganosas, conhecidas como "alucinação". Isso acontece quando o modelo cria conteúdo que parece plausível, mas não é preciso. Por exemplo, um LLM pode fornecer uma citação falsa ou tirar conclusões erradas com base no contexto que lhe foi dado. Esse problema complica ainda mais o esforço para implementar o RTBF, já que os dados produzidos podem não refletir com precisão as informações originais.
Comparação Entre LLMs e Motores de Busca
O RTBF foi inicialmente estabelecido no contexto de motores de busca, que indexam e organizam informações da web. Comparar LLMs e motores de busca ajuda a identificar desafios únicos relacionados ao Direito ao Esquecimento.
Semelhanças Entre LLMs e Motores de Busca
- Fonte de Dados: Tanto os LLMs quanto os motores de busca coletam dados da internet, embora as formas como processam e apresentam esses dados sejam diferentes.
- Acesso à Informação: Os usuários normalmente contam com ambos, LLMs e motores de busca, para obter informações. Os LLMs geram respostas enquanto os motores de busca fornecem uma lista de links relevantes.
- Tecnologias Interligadas: Os LLMs estão sendo cada vez mais incorporados a motores de busca, enquanto os motores de busca também utilizam LLMs para melhorar seus serviços.
Diferenças Entre LLMs e Motores de Busca
- Processamento de Dados: Os LLMs focam em prever a próxima palavra em uma sequência, enquanto os motores de busca indexam e classificam páginas da web com base nas consultas dos usuários.
- Interação com o Usuário: Os LLMs costumam engajar os usuários por meio de conversas, permitindo trocas mais interativas, enquanto os motores de busca dependem de consultas baseadas em palavras-chave.
- Retenção de Dados: Os LLMs podem reter dados pessoais de seus conjuntos de treinamento de forma mais persistente do que os motores de busca, que podem remover dados através de mudanças simples de indexação.
Aplicando RTBF a LLMs: Desafios Principais
Os LLMs enfrentam vários obstáculos quando se trata de cumprir o RTBF. A natureza única desses modelos complica a aplicação de regras estabelecidas de proteção de dados.
Histórico de Chat do Usuário
Quando as pessoas interagem com LLMs, costumam fornecer informações pessoais durante suas conversas. Esse histórico de chat pode conter dados sensíveis, colocando-o sob o escopo do RTBF. Se um usuário quiser que seus dados sejam removidos, deve ser capaz de retirar o consentimento e ter suas informações deletadas do sistema.
Dados Dentro do Modelo
Informações pessoais também podem existir dentro do próprio LLM devido à forma como esses modelos são treinados. Extrair esses dados ou garantir que não sejam utilizados nas respostas do modelo apresenta desafios significativos. Como os LLMs não armazenam dados de maneira simples, é difícil para os usuários acessarem, corrigirem ou deletarem suas informações.
Direito de Acesso
Em motores de busca tradicionais, os usuários podem acessar facilmente seus dados através de consultas por palavras-chave. No entanto, nos LLMs, determinar quais dados pessoais foram usados para treinamento não é tão simples. As pessoas podem achar difícil saber sobre seus dados, já que os conjuntos de dados de treinamento costumam ser proprietários e não divulgados.
Direito à Eliminação
Os métodos para remover dados pessoais diferem significativamente entre LLMs e motores de busca. Para os motores de busca, remover uma página da web ou deslistar um link é direto e imediato. Em contraste, os LLMs exigem tempo e recursos extensivos para re-treinar o modelo após remover dados do conjunto de treinamento. Esse prazo muitas vezes excede os requisitos legais estabelecidos pelo GDPR.
Soluções para Abordar o RTBF em LLMs
Apesar dos desafios, pesquisadores estão trabalhando em soluções para lidar com questões relacionadas ao RTBF em LLMs. Esses esforços podem ser categorizados em dois tipos principais: aprendizado de máquina que preserva a privacidade e métodos pós-treinamento.
Aprendizado de Máquina que Preserva a Privacidade
Essa área foca em proteger dados pessoais durante todo o processo de aprendizado de máquina. Técnicas como Privacidade Diferencial visam garantir que as informações individuais permaneçam confidenciais enquanto ainda permitem que o modelo seja treinado de forma eficaz.
Corrigindo o Modelo Original
Métodos voltados para corrigir problemas dentro do modelo original incluem o aprendizado de máquina desfeito. Essa técnica ajuda a remover pontos de dados específicos do modelo, permitindo que ele esqueça informações indesejadas.
Aprendizado de Máquina Exato
Métodos de aprendizado de máquina exatos envolvem remover pontos de dados específicos do modelo por meio de re-treinamento acelerado. Essas técnicas podem ajudar a resolver o problema da memorização, mas suas aplicações no mundo real ainda são limitadas.
Aprendizado de Máquina Aproximado
Essa abordagem estima os efeitos de deletar dados em vez de removê-los completamente. Embora possa oferecer alguns benefícios, também pode levar a problemas, como "over-unlearning", o que pode afetar o desempenho do modelo.
Abordagens de Curativo
Esses métodos não alteram o modelo original, mas introduzem mudanças em seu comportamento. Por exemplo, ajustes podem ser feitos para orientar os LLMs de uma maneira que respeite pedidos de RTBF. No entanto, essa abordagem não remove os dados como exigido por lei.
Perspectivas Legais sobre RTBF e LLMs
À medida que a tecnologia avança, os marcos legais devem se adaptar às novas realidades. O princípio da privacidade continua sendo essencial, mas o surgimento dos LLMs criou novos desafios para as leis de proteção de dados. Novas interpretações das leis existentes podem ser necessárias para equilibrar os interesses dos indivíduos com os avanços tecnológicos.
Discussões em Andamento
Há discussões em andamento sobre como regulamentar tecnologias de IA, incluindo propostas para novas leis em níveis nacional e internacional. Esses desenvolvimentos visam esclarecer a aplicação de direitos como o RTBF no contexto da IA e dos LLMs.
Conclusão
O Direito ao Esquecimento é um conceito importante que permite que as pessoas controlem seus dados pessoais online. À medida que a tecnologia evolui, especialmente com o surgimento dos Modelos de Linguagem de Grande Escala, novos desafios surgem na aplicação desse direito. Ao entender as implicações e explorar soluções potenciais, os envolvidos podem trabalhar juntos para garantir que os direitos de privacidade sejam respeitados na era digital.
Chamada à Ação: É vital continuar a atenção e a pesquisa sobre a interseção dos direitos de privacidade e os avanços tecnológicos. Isso ajudará a proteger os direitos dos indivíduos e a criar uma estrutura responsável para o futuro da IA.
Título: Right to be Forgotten in the Era of Large Language Models: Implications, Challenges, and Solutions
Resumo: The Right to be Forgotten (RTBF) was first established as the result of the ruling of Google Spain SL, Google Inc. v AEPD, Mario Costeja Gonz\'alez, and was later included as the Right to Erasure under the General Data Protection Regulation (GDPR) of European Union to allow individuals the right to request personal data be deleted by organizations. Specifically for search engines, individuals can send requests to organizations to exclude their information from the query results. It was a significant emergent right as the result of the evolution of technology. With the recent development of Large Language Models (LLMs) and their use in chatbots, LLM-enabled software systems have become popular. But they are not excluded from the RTBF. Compared with the indexing approach used by search engines, LLMs store, and process information in a completely different way. This poses new challenges for compliance with the RTBF. In this paper, we explore these challenges and provide our insights on how to implement technical solutions for the RTBF, including the use of differential privacy, machine unlearning, model editing, and guardrails. With the rapid advancement of AI and the increasing need of regulating this powerful technology, learning from the case of RTBF can provide valuable lessons for technical practitioners, legal experts, organizations, and authorities.
Autores: Dawen Zhang, Pamela Finckenberg-Broman, Thong Hoang, Shidong Pan, Zhenchang Xing, Mark Staples, Xiwei Xu
Última atualização: 2024-06-04 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.03941
Fonte PDF: https://arxiv.org/pdf/2307.03941
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.ohchr.org/en/instruments-mechanisms/instruments/international-covenant-civil-and-political-rights#article-17
- https://www.un.org/en/about-us/universal-declaration-of-human-rights
- https://fra.europa.eu/en/law-reference/european-convention-human-rights-article-8-0
- https://commission.europa.eu/aid-development-cooperation-fundamental-rights/your-rights-eu/eu-charter-fundamental-rights_en
- https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=ecli:ECLI:EU:C:2014:317
- https://gdpr.eu/article-17-right-to-be-forgotten/
- https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:32016R0679
- https://commission.europa.eu/law/law-topic/data-protection/reform
- https://eur-lex.europa.eu/legal-content/en/TXT/?uri=CELEX:62020CJ0460
- https://europa.eu/youreurope/business/dealing-with-customers/data-protection/data-protection-gdpr/index_en.htm
- https://reportcontent.google.com/forms/rtbf
- https://openai.com/blog/new-ways-to-manage-your-data-in-chatgpt
- https://openai.com/blog/chatgpt
- https://huggingface.co/docs/transformers/model_doc/flan-t5
- https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
- https://www.anthropic.com/product
- https://crfm.stanford.edu/2023/03/13/alpaca.html
- https://www.bing.com/new
- https://github.com/features/copilot
- https://blog.google/technology/ai/bard-google-ai-search-updates/
- https://openai.com/blog/chatgpt-plugins
- https://openai.com/blog/our-approach-to-ai-safety
- https://www.nytimes.com/2022/12/21/technology/ai-chatgpt-google-search.html
- https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/
- https://www.scientificamerican.com/article/ai-chatbots-can-diagnose-medical-conditions-at-home-how-good-are-they/
- https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md
- https://gdpr.eu/right-to-be-forgotten/
- https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:52021PC0206
- https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
- https://www.whitehouse.gov/ostp/ai-bill-of-rights/