Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique

Une nouvelle métrique pour mesurer la vie privée dans l'apprentissage automatique

Présentation d'une nouvelle façon d'évaluer les risques de confidentialité dans les modèles d'apprentissage automatique.

― 7 min lire


Nouvelle Métrique deNouvelle Métrique deConfidentialité enApprentissage Automatiquemodèles avancés.confidentialité des données dans desMéthodes améliorées pour évaluer la
Table des matières

Les attaques d'inférence d'appartenance (MIA) sont des outils utilisés pour vérifier à quel point les données privées sont protégées quand on utilise des modèles d'apprentissage automatique. Ces attaques aident à voir si quelqu'un peut dire si une donnée spécifique a été utilisée pour entraîner un modèle. Si quelqu'un peut le découvrir, ça veut dire qu'il y a peut-être une fuite d'infos sensibles, ce qui est super inquiétant, surtout quand les données impliquent des trucs personnels comme des dossiers médicaux ou des infos financières.

Actuellement, la manière dont les gens mesurent la vie privée dans les modèles d'apprentissage automatique passe par ce qu'on appelle "l'avantage" ou "l'écart". Ça mesure à quel point les résultats sont différents quand un modèle regarde les données d'entraînement par rapport aux données de test. Mais y'a un souci : ces attaques fonctionnent mieux sur des modèles petits ou plus simples, mais quand il s'agit de modèles plus grands et bien structurés, les Avantages sont souvent plus faibles. En plus, certaines méthodes nécessitent beaucoup de puissance informatique parce qu'elles doivent entraîner plusieurs modèles pour réussir.

Dans ce travail, on introduit une nouvelle façon de mesurer la vie privée qui est plus facile à calculer et peut s'appliquer à des modèles plus grands. Cette nouvelle métrique, appelée CPM, est basée sur un concept de la théorie de la discrépance. On a constaté que le CPM a tendance à montrer des valeurs plus élevées que de nombreuses méthodes existantes. C'est important parce que ça peut être utilisé avec des modèles à grande échelle qu'on utilise souvent aujourd'hui, comme ceux dans la classification ImageNet.

Fait intéressant, on a aussi remarqué que pour les modèles avancés, les différences entre notre nouvelle métrique et les avantages donnés par d'autres méthodes sont plus grandes. Ça veut dire que les méthodes existantes pourraient pas être aussi efficaces pour les modèles plus complexes, ce qui nous a poussés à développer de nouveaux types de MIA adaptés à ces modèles.

Avec l'apprentissage automatique qui devient de plus en plus courant dans des domaines sensibles, c'est crucial de s'assurer qu'il ne révèle pas plus que ce qu'il ne devrait. Il y a eu beaucoup de recherche qui se concentre sur la mesure à quel point les infos d'entraînement fuient depuis les modèles d'apprentissage automatique. L'une des principales méthodes pour ça, c'est l'inférence d'appartenance. Des organisations gouvernementales ont même signalé ces attaques comme des risques potentiels pour la vie privée et elles ont été intégrées dans diverses applications industrielles.

En utilisant le MIA, l'objectif est de déterminer si une donnée spécifique faisait partie de l'ensemble d'entraînement d'un modèle. Si quelqu'un peut dire si le dossier médical d'une personne a été utilisé dans l'entraînement, c'est une possible violation de la vie privée. L'avantage, c'est à quel point l'attaque est plus efficace sur les données d'entraînement comparées aux données de test. Plus l'avantage est élevé, plus la vie privée a été compromise.

Il y a deux grandes catégories de MIA dans la recherche actuelle. La première s'appelle le MIA basé sur les scores. Cette approche suppose que certains scores calculés sur le modèle-comme la perte pendant l'entraînement-montreront généralement des valeurs différentes entre les données d'entraînement et de test. Sur cette idée, plusieurs fonctions de scoring ont été créées. Bien que ces approches soient efficaces, elles ont souvent des avantages plus faibles quand appliquées à des modèles plus grands et bien conçus.

La deuxième catégorie utilise des modèles ombres, qui sont des modèles similaires entraînés sur des données différentes. Ça permet aux attaquants d'utiliser des techniques plus sophistiquées, mais cette approche nécessite d'entraîner plusieurs modèles, ce qui la rend moins pratique pour des modèles plus grands à cause du coût computationnel élevé.

Notre travail propose une nouvelle façon de calculer la vie privée dans les modèles. On observe que les différences entre les données d'entraînement et de test peuvent servir de limite supérieure forte sur l'efficacité du MIA quand il s'agit de certaines fonctions de scoring. Cette nouvelle mesure fournit non seulement une limite supérieure importante, mais elle peut aussi facilement distinguer entre différents modèles et ensembles de données.

De plus, bien que calculer cette nouvelle métrique précisément puisse être compliqué, on suggère une façon de l’approximer en utilisant une fonction de perte plus simple. Cette approximation peut obtenir de bons résultats avec moins d'efforts computationnels que les méthodes traditionnelles. Nos tests numériques montrent que cette nouvelle méthode peut efficacement différencier entre divers modèles.

Dans notre évaluation approfondie, on compare notre méthode aux méthodes existantes, et on trouve qu'elle fournit une mesure de vie privée plus solide. On observe aussi que l'écart entre notre nouvelle méthode et les méthodes de scoring actuelles est plus petit pour les modèles simples, mais beaucoup plus grand pour les modèles utilisant des techniques d'entraînement plus avancées ou sophistiquées.

Nos résultats suggèrent que les méthodes existantes pour mesurer la vie privée peuvent ne pas être suffisantes pour les modèles modernes, qui sont de plus en plus entraînés avec des méthodes complexes. En tenant compte de cela, on a créé de nouvelles attaques d'inférence d'appartenance qui s'alignent mieux avec ces modèles avancés.

Avec les nouveaux modèles entraînés sur des données complexes, l'efficacité du MIA traditionnel diminue souvent. Donc, se pose la question : peut-on concevoir de nouvelles fonctions de scoring qui fonctionnent mieux pour ces modèles ? On pense qu'il y a de fortes chances que ce soit possible. Par exemple, des méthodes qui s'alignent sur des procédures d'entraînement spécifiques montrent des résultats prometteurs.

Pour les modèles entraînés en utilisant un processus appelé MixUp, on développe une nouvelle méthode de scoring qui reflète la nature de la façon dont ces modèles s'entraînent. De même, pour une autre technique appelée RelaxLoss, on propose un score qui capture la nature dynamique de la façon dont ces modèles s'ajustent pendant l'entraînement.

À travers nos expériences avec ces nouveaux scores, on trouve qu'ils offrent effectivement la meilleure précision quand ils sont utilisés avec des modèles entraînés selon les procédures correspondantes. Ça suggère que quand la méthode utilisée pour attaquer un modèle s'aligne avec le processus d'entraînement, on peut obtenir de meilleurs résultats.

On explore aussi les limites de la littérature actuelle sur le MIA en regardant de grands modèles fondamentaux et diverses nouvelles méthodes d'entraînement appliquées à ces modèles. Bien que ce travail se concentre principalement sur des modèles de classification, on observe un intérêt croissant pour appliquer le MIA dans des modèles non supervisés et des modèles multi-modaux.

En conclusion, cette nouvelle métrique basée sur la distance de discrépance offre une manière plus efficace de mesurer la vie privée dans les modèles d'apprentissage automatique. Nos approches fournissent une limite supérieure utile qui est efficace sur le plan computationnel, et on a identifié des lacunes claires en termes d'efficacité entre les méthodes traditionnelles et nos nouveaux scores. Les directions futures pour ce travail incluent l'exploration de types de données plus larges et l'amélioration des scores de MIA adaptés aux modèles entraînés avec des techniques modernes.

Source originale

Titre: Better Membership Inference Privacy Measurement through Discrepancy

Résumé: Membership Inference Attacks have emerged as a dominant method for empirically measuring privacy leakage from machine learning models. Here, privacy is measured by the {\em{advantage}} or gap between a score or a function computed on the training and the test data. A major barrier to the practical deployment of these attacks is that they do not scale to large well-generalized models -- either the advantage is relatively low, or the attack involves training multiple models which is highly compute-intensive. In this work, inspired by discrepancy theory, we propose a new empirical privacy metric that is an upper bound on the advantage of a family of membership inference attacks. We show that this metric does not involve training multiple models, can be applied to large Imagenet classification models in-the-wild, and has higher advantage than existing metrics on models trained with more recent and sophisticated training recipes. Motivated by our empirical results, we also propose new membership inference attacks tailored to these training losses.

Auteurs: Ruihan Wu, Pengrun Huang, Kamalika Chaudhuri

Dernière mise à jour: 2024-05-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.15140

Source PDF: https://arxiv.org/pdf/2405.15140

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires