Uma Nova Métrica para Medir a Privacidade em Aprendizado de Máquina
Apresentando uma nova maneira de avaliar os riscos de privacidade em modelos de aprendizado de máquina.
― 6 min ler
Ataques de Inferência de Membros (MIA) são ferramentas usadas pra conferir quão privada tá a info quando se usa modelos de machine learning. Esses ataques ajudam a ver se alguém consegue descobrir se um determinado conjunto de dados foi usado pra treinar um modelo. Se alguém consegue descobrir isso, pode significar que informações sensíveis vazaram, o que é um grande problema, especialmente quando os dados envolvem detalhes pessoais como registros médicos ou informações financeiras.
Atualmente, a forma como as pessoas medem a privacidade em modelos de machine learning é através do que chamam de "Vantagem" ou "gap". Isso mede quão diferentes são os resultados quando um modelo olha pra dados de treino em comparação com dados de teste. Porém, tem um problema: esses ataques funcionam melhor em modelos menores ou mais simples, mas nos modelos maiores e bem estruturados, as vantagens costumam ser menores. Além disso, alguns métodos exigem muito poder computacional porque precisam treinar vários modelos pra ter sucesso.
Nesse trabalho, a gente introduz um novo jeito de medir a privacidade que é mais fácil de calcular e pode ser aplicado em modelos maiores. Essa nova métrica, chamada CPM, é baseada em um conceito da teoria da discrepância. A gente descobriu que o CPM tende a mostrar valores mais altos do que muitos métodos existentes. Isso é significativo porque pode ser usado com modelos em larga escala que são comumente usados hoje, como os de classificação do ImageNet.
Curiosamente, a gente também viu que pra modelos avançados, as diferenças entre nossa nova métrica e as vantagens dadas por outros métodos são maiores. Isso significa que os métodos existentes podem não funcionar tão bem pra modelos mais complexos, o que nos levou a desenvolver novos tipos de MIAs adaptadas pra esses modelos.
À medida que o machine learning vai se tornando mais comum em áreas sensíveis, é crucial garantir que não revele mais do que deveria. Já teve muita pesquisa focando em medir quanto de informações de treino vaza de modelos de machine learning. Um dos principais métodos pra isso é a Inferência de Membros. Organizações governamentais até já sinalizaram esses ataques como riscos potenciais à privacidade e eles foram incorporados em várias aplicações na indústria.
Quando se usa MIA, o objetivo é determinar se um determinado conjunto de dados fez parte do conjunto de treino de um modelo. Se alguém consegue perceber se o registro médico de uma pessoa foi usado no treino, isso pode ser uma violação de privacidade. A vantagem é quão mais eficaz é o ataque nos dados de treino em comparação com os dados de teste. Quanto maior a vantagem, mais privacidade foi comprometida.
Existem duas principais categorias de MIA na pesquisa atual. A primeira é chamada de MIA baseada em pontuação. Essa abordagem assume que certas pontuações calculadas no modelo-como a perda durante o treino-vão geralmente mostrar valores diferentes entre os dados de treino e os de teste. Baseado nessa ideia, várias funções de pontuação foram criadas. Embora essas abordagens sejam eficientes, elas costumam ter vantagens menores quando aplicadas a modelos maiores e bem projetados.
A segunda categoria usa Modelos Sombra, que são modelos semelhantes treinados em dados diferentes. Isso permite que atacantes usem técnicas mais sofisticadas, mas essa abordagem requer treinar vários modelos, tornando-a menos prática pra modelos maiores devido ao alto custo computacional.
Nosso trabalho propõe um novo jeito de calcular a privacidade em modelos. A gente observa que as diferenças entre os dados de treino e os dados de teste podem servir como um forte limite superior na eficácia do MIA quando se trata de certas funções de pontuação. Essa nova medição não só fornece um limite superior importante, mas também pode distinguir facilmente entre diferentes modelos e conjuntos de dados.
E mais, enquanto calcular essa nova métrica com precisão pode ser complicado, a gente sugere um jeito de aproximá-la usando uma função de perda mais simples. Essa aproximação pode alcançar resultados fortes com menos esforço computacional do que os métodos tradicionais. Nossos testes numéricos mostram que esse novo método pode diferenciar efetivamente entre vários modelos.
Na nossa avaliação extensa, comparamos nosso método com os existentes e encontramos que ele oferece uma medição de privacidade mais forte. Também observamos que o gap entre nosso novo método e os métodos de pontuação atuais é menor pra modelos mais simples, mas muito maior pra modelos que usam técnicas de treino mais avançadas ou sofisticadas.
Nossas descobertas sugerem que os métodos existentes pra medir privacidade podem não ser suficientes pra modelos modernos, que estão sendo cada vez mais treinados com métodos complexos. Diante disso, criamos novos ataques de inferência de membros que se alinham melhor com esses modelos avançados.
Com novos modelos treinados em dados complexos, a eficácia do MIA tradicional muitas vezes diminui. Portanto, surge uma pergunta: conseguimos criar novas funções de pontuação que funcionem melhor pra esses modelos? Acreditamos que há uma forte possibilidade disso. Por exemplo, métodos que se alinham com procedimentos de treino específicos mostram resultados promissores.
Pra modelos treinados usando um processo chamado MixUp, desenvolvemos um novo método de pontuação que reflete a natureza de como esses modelos treinam. Da mesma forma, pra outra técnica chamada RelaxLoss, propomos uma pontuação que captura a dinâmica de como esses modelos se ajustam durante o treino.
Através dos nossos experimentos com essas novas pontuações, descobrimos que elas de fato oferecem a maior precisão quando usadas com modelos treinados pelos procedimentos correspondentes. Isso sugere que quando o método usado pra atacar um modelo se alinha com o processo de treino, conseguimos obter melhores resultados.
A gente também explora os limites da literatura atual de MIA olhando pra grandes modelos fundamentais e várias novas técnicas de treino aplicadas a esses modelos. Embora esse trabalho foque principalmente em modelos de classificação, observamos um crescente interesse em aplicar MIA em modelos não supervisionados e modelos multimodais.
Em conclusão, essa nova métrica baseada na distância de discrepância oferece um jeito mais eficaz de medir privacidade em modelos de machine learning. Nossas abordagens fornecem um limite superior útil que é computacionalmente eficiente, e identificamos lacunas claras na eficácia entre os métodos tradicionais e nossas novas pontuações. Direções futuras pra esse trabalho incluem explorar tipos mais amplos de dados e aprimorar pontuações de MIA adaptadas pra modelos treinados com técnicas modernas.
Título: Better Membership Inference Privacy Measurement through Discrepancy
Resumo: Membership Inference Attacks have emerged as a dominant method for empirically measuring privacy leakage from machine learning models. Here, privacy is measured by the {\em{advantage}} or gap between a score or a function computed on the training and the test data. A major barrier to the practical deployment of these attacks is that they do not scale to large well-generalized models -- either the advantage is relatively low, or the attack involves training multiple models which is highly compute-intensive. In this work, inspired by discrepancy theory, we propose a new empirical privacy metric that is an upper bound on the advantage of a family of membership inference attacks. We show that this metric does not involve training multiple models, can be applied to large Imagenet classification models in-the-wild, and has higher advantage than existing metrics on models trained with more recent and sophisticated training recipes. Motivated by our empirical results, we also propose new membership inference attacks tailored to these training losses.
Autores: Ruihan Wu, Pengrun Huang, Kamalika Chaudhuri
Última atualização: 2024-05-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.15140
Fonte PDF: https://arxiv.org/pdf/2405.15140
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.