Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité# Apprentissage automatique

Améliorer la vie privée dans l'apprentissage fractionné avec le chiffrement homomorphe

Une nouvelle méthode protège les données sensibles pendant l'entraînement des modèles de machine learning.

― 7 min lire


La vie privée dansLa vie privée dansl'apprentissageautomatiquedonnées sans sacrifier la précision.De nouvelles méthodes protègent les
Table des matières

L'apprentissage fractionné (SL) est une méthode où deux parties, généralement un client et un serveur, collaborent pour entraîner des modèles de machine learning sans que le client ait à partager des données sensibles. Au lieu d'envoyer des données brutes au serveur, le client traite les données avec une partie du modèle, génère des Cartes d'activation et envoie ces cartes au serveur pour un entraînement supplémentaire. Ce système vise à garder les données des utilisateurs privées tout en permettant le développement collaboratif du modèle.

Le défi de la vie privée

Bien que le SL offre un certain niveau de protection de la vie privée, des recherches antérieures ont montré que les cartes d'activation peuvent toujours divulguer des informations sensibles. Si quelqu'un peut reconstruire les données brutes à partir de ces cartes, cela va à l'encontre de l'idée de la vie privée. Les solutions existantes à ce problème entraînent souvent une réduction de la Précision du modèle, ce qui peut être un inconvénient majeur.

Une nouvelle approche avec le chiffrement homomorphe

Dans notre travail, on propose une méthode qui combine le SL avec le chiffrement homomorphe (HE). Avec le HE, le client crypte les cartes d'activation avant de les envoyer au serveur. De cette façon, le serveur peut encore effectuer des calculs sur ces cartes cryptées sans avoir accès aux données originales. Ainsi, la vie privée des utilisateurs est mieux protégée tout en permettant l'entraînement du machine learning.

Comment fonctionne l'apprentissage fractionné

Dans le SL, le processus d'entraînement est divisé en deux parties :

  1. Entraînement côté client : Le client traite ses données avec les premières couches du modèle, créant des cartes d'activation qui résument les données.
  2. Entraînement côté serveur : Le serveur reçoit les cartes d'activation et les utilise pour continuer le processus d'entraînement.

Dans les configurations SL typiques, les deux parties partagent des données sur la performance du modèle, mais elles ne partagent pas les données brutes. Cela réduit le risque de fuites de données, mais pas complètement.

Pourquoi utiliser le chiffrement homomorphe ?

Le chiffrement homomorphe permet des calculs sur des données cryptées. En envoyant des cartes d'activation cryptées au lieu de texte brut, le serveur ne peut pas tirer d'informations utiles sur les données brutes. Même si un attaquant intercepte les cartes cryptées, il ne peut pas les déchiffrer pour révéler les données originales.

Cette méthode est significative car elle ajoute une couche de sécurité supplémentaire sans compromettre la capacité du serveur à entraîner le modèle.

Entraînement d'un CNN 1D avec l'apprentissage fractionné

On a appliqué cette méthode SL à un type spécifique de réseau de neurones appelé réseau de neurones convolutionnel 1D (CNN), utilisé principalement pour traiter des données de séries temporelles, comme les battements cardiaques capturés par des machines ECG. Notre approche implique plusieurs couches, chacune ayant une fonction spécifique pour analyser et classifier les données.

Le CNN 1D se compose de :

  • Couches Convolutionnelles : Ces couches extraient les caractéristiques des données.
  • Fonctions d'Activation : Fonctions qui introduisent de la non-linéarité dans le modèle, l'aidant à apprendre des motifs complexes.
  • Couches de Pooling : Ces couches réduisent la dimensionnalité des données, en gardant les informations les plus importantes.
  • Couche de Classification Finale : Cette couche sort des prédictions sur les classes à partir des données.

Préoccupations concernant la vie privée des données

Des recherches ont montré que le partage des cartes d'activation peut encore conduire à des préoccupations concernant la vie privée. Par exemple, les motifs dans les cartes d'activation pourraient ressembler étroitement aux données originales, rendant possible pour quelqu'un de deviner ou de reconstruire les données brutes juste à partir de ces cartes.

Pour résoudre ces problèmes de confidentialité, on a introduit le chiffrement homomorphe dans le processus SL. Au lieu d'envoyer des cartes d'activation en texte clair, le client les crypte d'abord. Ensuite, il envoie ces cartes cryptées au serveur pour un entraînement supplémentaire.

Les bénéfices de l'utilisation du chiffrement homomorphe

En utilisant le HE, on a trouvé plusieurs avantages :

  1. Vie privée améliorée : Les données brutes ne quittent jamais le client, et le serveur ne peut pas y accéder à travers les cartes d'activation.
  2. Précision du modèle maintenue : Nos expériences ont montré que la précision peut être presque aussi élevée avec des données cryptées qu'avec des données en texte clair.
  3. Risques réduits : Puisque le serveur ne voit jamais les données brutes, il y a moins de chances de fuites de données.

Configuration expérimentale

Pour tester notre approche, on a utilisé un grand ensemble de données open-source d'ECG, composé de différents signaux de battement cardiaque. Chaque signal de battement est divisé en segments et étiqueté selon des conditions spécifiques, comme des rythmes normaux ou de possibles problèmes cardiaques.

On a entraîné notre modèle de deux manières :

  1. Avec des cartes d'activation en texte clair : Dans ce cas, on a partagé les cartes d'activation sans cryptage.
  2. Avec des cartes d'activation cryptées : Ici, on a appliqué le HE aux cartes d'activation avant de les partager.

En comparant la performance dans les deux scénarios, on a pu évaluer l'efficacité de notre méthode.

Résultats de l'entraînement

Dans nos tests, entraîner le modèle avec des cartes en texte clair a abouti à un certain niveau de précision. Quand on est passé à des cartes cryptées, on a observé une légère baisse de précision, montrant que nos méthodes étaient toujours efficaces.

Le coût de communication et la durée d'entraînement étaient notably plus élevés en utilisant des données cryptées, mais le compromis pour une meilleure protection de la vie privée en valait la peine.

Conclusion et directions futures

En résumé, notre travail démontre une nouvelle direction pour le développement de modèles de machine learning préservant la vie privée en utilisant l'apprentissage fractionné et le chiffrement homomorphe. En permettant une collaboration d'entraînement sans exposer les données brutes, on a abordé des préoccupations significatives en matière de vie privée qui existaient dans les modèles précédents.

Bien que les résultats initiaux soient prometteurs, il y a encore de la place pour de futures explorations. Les travaux futurs pourront se concentrer sur l'optimisation de l'efficacité de communication et de la durée d'entraînement, garantissant que la vie privée puisse être maintenue sans sacrifier la performance.

En avançant, l'objectif est d'élargir l'applicabilité de ces méthodes à divers ensembles de données et tâches de machine learning, permettant une utilisation plus sûre des données à travers différents domaines.

En combinant des méthodes avancées comme l'apprentissage fractionné et le chiffrement homomorphe, on espère faire des progrès dans des pratiques de machine learning responsables qui respectent la vie privée et la sécurité des individus.

Source originale

Titre: Love or Hate? Share or Split? Privacy-Preserving Training Using Split Learning and Homomorphic Encryption

Résumé: Split learning (SL) is a new collaborative learning technique that allows participants, e.g. a client and a server, to train machine learning models without the client sharing raw data. In this setting, the client initially applies its part of the machine learning model on the raw data to generate activation maps and then sends them to the server to continue the training process. Previous works in the field demonstrated that reconstructing activation maps could result in privacy leakage of client data. In addition to that, existing mitigation techniques that overcome the privacy leakage of SL prove to be significantly worse in terms of accuracy. In this paper, we improve upon previous works by constructing a protocol based on U-shaped SL that can operate on homomorphically encrypted data. More precisely, in our approach, the client applies homomorphic encryption on the activation maps before sending them to the server, thus protecting user privacy. This is an important improvement that reduces privacy leakage in comparison to other SL-based works. Finally, our results show that, with the optimum set of parameters, training with HE data in the U-shaped SL setting only reduces accuracy by 2.65% compared to training on plaintext. In addition, raw training data privacy is preserved.

Auteurs: Tanveer Khan, Khoa Nguyen, Antonis Michalas, Alexandros Bakas

Dernière mise à jour: 2023-09-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.10517

Source PDF: https://arxiv.org/pdf/2309.10517

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires