Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Cryptographie et sécurité

Améliorations de l'apprentissage fédéré grâce à la sélection de caractéristiques

Une nouvelle méthode améliore la sélection des caractéristiques dans l'apprentissage fédéré tout en garantissant la confidentialité des données.

― 8 min lire


Améliorer l'apprentissageAméliorer l'apprentissagefédérécompromettre la vie privée.sélection des features sansUne nouvelle méthode améliore la
Table des matières

L'Apprentissage Fédéré Vertical (VFL) permet à différents propriétaires de données, chacun ayant des caractéristiques uniques mais partageant des données similaires, de collaborer pour entraîner un modèle utile. Ce système est super pour des secteurs comme la banque et le e-commerce, où différentes entreprises peuvent contribuer à mieux comprendre le comportement des clients ou détecter des fraudes.

Dans le VFL, la sélection des caractéristiques (FS) est hyper importante. Elle aide à identifier quelles caractéristiques sont utiles pour le modèle tout en ignorant celles qui n'apportent rien. Cependant, les méthodes actuelles de sélection des caractéristiques dans le VFL reposent souvent sur des connaissances préalables sur les données. Par exemple, elles pourraient avoir besoin de savoir combien de caractéristiques bruitées il y a ou quel devrait être le seuil pour les caractéristiques utiles après l'entraînement. Cette dépendance rend ces méthodes peu pratiques dans des scénarios réels.

Pour résoudre ces problèmes, on propose une nouvelle méthode appelée Sélection de caractéristiques Basée sur des Double Portes Stochastiques Fédérées (FedSDG-FS). Cette méthode utilise un système capable d'estimer efficacement quelles caractéristiques sélectionner tout en garantissant la Confidentialité des données grâce au chiffrement.

Importance de la Sélection des Caractéristiques

Dans le VFL, les caractéristiques locales des propriétaires de données influencent directement l'efficacité de leurs modèles locaux, ce qui affecte la performance globale du modèle. Souvent, les propriétaires de données peuvent avoir des caractéristiques non pertinentes ou redondantes qui peuvent dégrader la performance du modèle. Notre recherche se concentre sur l'élimination de ces caractéristiques bruitées et sur la sélection des caractéristiques importantes qui peuvent aider à créer un meilleur modèle.

Les scénarios VFL impliquent souvent des organisations ayant des données qui se chevauchent sur les mêmes sujets mais manquent de jeux de données complets. Par exemple, une banque, une entreprise de covoiturage et une plateforme de e-commerce peuvent travailler ensemble pour identifier des fraudeurs potentiels en analysant le comportement des clients sous différents angles.

Différentes méthodes ont été développées pour la sélection des caractéristiques dans l'apprentissage machine centralisé. Elles peuvent être classées en trois groupes :

  1. Méthodes de Filtrage : Elles évaluent les caractéristiques en fonction de mesures statistiques avant l'entraînement du modèle.
  2. Méthodes de Wrapper : Elles évaluent différentes combinaisons de caractéristiques selon leurs performances lors de l'entraînement d'un modèle.
  3. Méthodes Intégrées : Elles intègrent la sélection des caractéristiques directement dans le processus d'entraînement du modèle.

Cependant, peu de méthodes répondent spécifiquement aux besoins du VFL, qui présente des défis uniques en raison des préoccupations de confidentialité et de la structure des données.

Défis des Approches Existantes

Les approches actuelles de sélection des caractéristiques dans le VFL font face à deux défis majeurs :

  1. Elles ont souvent besoin d'un accès direct aux échantillons d'entraînement et aux étiquettes en même temps, ce qui va à l'encontre des principes de confidentialité des données du VFL.
  2. Ces méthodes nécessitent généralement de nombreuses itérations d'entraînement, ce qui engendre des coûts de calcul et de communication élevés.

Pour surmonter ces obstacles, notre méthode FedSDG-FS a deux composantes principales : un module d'initialisation de l'importance des caractéristiques et un module de sélection sécurisée des caractéristiques.

Avantages Clés de FedSDG-FS

FedSDG-FS présente plusieurs avantages :

  1. Conscience du Contexte : Cette méthode peut effectuer la sélection des caractéristiques en même temps que l'entraînement du modèle, garantissant que les caractéristiques choisies sont pertinentes pour le contexte du modèle.

  2. Efficacité : En utilisant l'Impureté de Gini pour évaluer l'importance des caractéristiques, FedSDG-FS accélère l'identification des caractéristiques bruitées et importantes, améliorant ainsi le temps d'entraînement global du modèle.

  3. Sécurité : Elle maintient la confidentialité des données grâce au chiffrement. Pendant l'entraînement et la sélection des caractéristiques, aucune donnée brute ni étiquettes ne sont partagées avec quiconque d'autre que leurs propriétaires d'origine.

Vue d'Ensemble du Système FedSDG-FS

Le cadre FedSDG-FS se compose de deux modules principaux :

  1. Initialisation de l'Importance des Caractéristiques : Avant l'entraînement, les clients locaux calculent l'importance initiale de chaque caractéristique en utilisant l'impureté de Gini. Cela se fait de manière sécurisée, garantissant que les données sensibles sont protégées.

  2. Sélection de Caractéristiques Importantes Pendant l'Entraînement : Après l'initialisation, le serveur coordonne avec les clients pour sélectionner les caractéristiques importantes tout en continuant l'entraînement du modèle. Ce processus garantit que les caractéristiques sélectionnées sont précieuses pour la performance du modèle.

Mise en Œuvre de l'Initialisation de l'Importance des Caractéristiques

L'initialisation de l'importance des caractéristiques consiste à évaluer les caractéristiques en termes de leur pertinence pour le succès du modèle global. Pour chaque caractéristique, on calcule un score d'impureté de Gini, ce qui aide à déterminer quelles caractéristiques doivent être prioritaires. Cela se fait de manière collaborative entre les clients et le serveur pour garder les données privées.

Une fois que les scores de Gini sont calculés, ils sont renvoyés au serveur, qui attribue ensuite des valeurs d'importance plus élevées aux caractéristiques avec des scores d'impureté de Gini plus bas. Cette étape améliore considérablement l'efficacité tout en garantissant la confidentialité.

Sélection Sécurisée des Caractéristiques Importantes

Après que les scores d'importance initiaux soient établis, l'étape suivante consiste à sélectionner en toute sécurité ces caractéristiques pendant l'entraînement du modèle. Chaque client sélectionne aléatoirement certaines de ses données privées et calcule le vecteur d'incorporation en utilisant son modèle local. Ce vecteur chiffré est ensuite envoyé au serveur.

Le serveur traite ces embeddings chiffrés, effectuant les opérations nécessaires à l'entraînement du modèle global. Il s'assure que pendant ce processus, les clients restent inconscients des données des autres, maintenant ainsi la confidentialité.

Analyse de la Convergence de la Méthode

FedSDG-FS a été conçu pour garantir qu'au fur et à mesure que l'entraînement progresse, le modèle converge vers une solution optimale de manière efficace. On démontre la relation entre notre méthode de sélection de caractéristiques proposée et la sélection de caractéristiques basée sur l'indépendance statistique.

De plus, notre méthode veille à ce que l'entraînement du modèle soit stable, conduisant à des performances cohérentes sur différents ensembles de données et circonstances d'entraînement.

Évaluation Expérimentale de FedSDG-FS

Dans nos expériences, nous avons évalué FedSDG-FS sur une variété d'ensembles de données, y compris des données synthétiques et réelles. Les résultats montrent que notre méthode dépasse non seulement les approches existantes en termes de précision mais utilise aussi moins de caractéristiques, réduisant ainsi les coûts de calcul.

Nous avons testé plusieurs configurations pour différents types de données, y compris des données tabulaires, des images et des fichiers audio. Une constatation notable de nos analyses est la capacité de FedSDG-FS à maintenir une haute précision avec moins de caractéristiques sélectionnées, prouvant son efficacité.

Conclusion

La méthode FedSDG-FS représente une avancée significative dans la sélection des caractéristiques pour le VFL. En combinant une évaluation efficace des caractéristiques avec des mesures de confidentialité améliorées, on peut améliorer la performance des modèles sans compromettre les données sensibles. Notre approche équilibre efficacement le besoin d'un entraînement de modèle précis avec une forte confidentialité des données, ce qui la rend adaptée aux applications réelles dans divers secteurs.

Ce travail ouvre de nouvelles voies pour améliorer les capacités de l'apprentissage fédéré, en particulier dans des environnements où la confidentialité des données est primordiale, tout en atteignant de hautes performances et une efficacité dans l'entraînement des modèles.

Source originale

Titre: FedSDG-FS: Efficient and Secure Feature Selection for Vertical Federated Learning

Résumé: Vertical Federated Learning (VFL) enables multiple data owners, each holding a different subset of features about largely overlapping sets of data sample(s), to jointly train a useful global model. Feature selection (FS) is important to VFL. It is still an open research problem as existing FS works designed for VFL either assumes prior knowledge on the number of noisy features or prior knowledge on the post-training threshold of useful features to be selected, making them unsuitable for practical applications. To bridge this gap, we propose the Federated Stochastic Dual-Gate based Feature Selection (FedSDG-FS) approach. It consists of a Gaussian stochastic dual-gate to efficiently approximate the probability of a feature being selected, with privacy protection through Partially Homomorphic Encryption without a trusted third-party. To reduce overhead, we propose a feature importance initialization method based on Gini impurity, which can accomplish its goals with only two parameter transmissions between the server and the clients. Extensive experiments on both synthetic and real-world datasets show that FedSDG-FS significantly outperforms existing approaches in terms of achieving accurate selection of high-quality features as well as building global models with improved performance.

Auteurs: Anran Li, Hongyi Peng, Lan Zhang, Jiahui Huang, Qing Guo, Han Yu, Yang Liu

Dernière mise à jour: 2023-02-20 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2302.10417

Source PDF: https://arxiv.org/pdf/2302.10417

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires