Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Maschinelles Lernen# Kryptographie und Sicherheit

Verbesserungen beim föderierten Lernen durch Merkmalsauswahl

Eine neue Methode verbessert die Merkmalsauswahl im föderierten Lernen und sorgt gleichzeitig für Datenschutz.

― 6 min Lesedauer


Federated LearningFederated Learningverbessernzu gefährden.Merkmalsauswahl, ohne die PrivatsphäreNeue Methode verbessert die
Inhaltsverzeichnis

Vertikale föderierte Lernverfahren (VFL) erlauben es verschiedenen Datenbesitzern, die einzigartige Merkmale, aber ähnliche Datenproben haben, zusammenzuarbeiten, um ein nützliches Modell zu trainieren. Das ist besonders vorteilhaft für Branchen wie Banken und E-Commerce, wo verschiedene Unternehmen zur Analyse des Kundenverhaltens oder zur Betrugserkennung beitragen können.

Im VFL spielt die Merkmalsauswahl (FS) eine entscheidende Rolle. Sie hilft dabei, herauszufinden, welche Merkmale für das Modell nützlich sind, während irrelevante ignoriert werden. Aktuelle Methoden zur Merkmalsauswahl im VFL basieren jedoch oft auf Vorwissen über die Daten. Zum Beispiel könnte man wissen müssen, wie viele störende Merkmale es gibt oder was die Schwelle für nützliche Merkmale nach dem Training sein sollte. Diese Abhängigkeit macht diese Methoden in der realen Welt unpraktisch.

Um diese Probleme anzugehen, schlagen wir eine neue Methode namens Federated Stochastic Dual-Gate basierte Merkmalsauswahl (FedSDG-FS) vor. Diese Methode nutzt ein System, das effizient abschätzen kann, welche Merkmale auszuwählen sind, und dabei die Datensicherheit durch Verschlüsselung gewährleistet.

Bedeutung der Merkmalsauswahl

Im VFL haben die lokalen Merkmale der Datenbesitzer direkte Auswirkungen auf die Effektivität ihrer lokalen Modelle, was wiederum die Gesamtleistung des globalen Modells beeinflusst. Oft haben Datenbesitzer irrelevante oder redundante Merkmale, die die Leistung des Modells verschlechtern können. Unsere Forschung konzentriert sich darauf, diese störenden Merkmale zu entfernen und die wichtigen auszuwählen, die zur Erstellung eines besseren Modells beitragen.

VFL-Szenarien beinhalten oft Organisationen, die überlappende Daten über dieselben Subjekte haben, aber nicht vollständige Datensätze besitzen. Zum Beispiel können eine Bank, ein Mitfahrdienst und eine E-Commerce-Plattform gemeinsam arbeiten, um potenzielle Betrüger zu identifizieren, indem sie das Kundenverhalten aus verschiedenen Perspektiven analysieren.

Es wurden verschiedene Methoden zur Merkmalsauswahl im zentralisierten maschinellen Lernen entwickelt. Diese lassen sich grob in drei Gruppen unterteilen:

  1. Filtermethoden: Diese bewerten Merkmale basierend auf statistischen Massstäben vor dem Training des Modells.
  2. Wrapper-Methoden: Diese bewerten verschiedene Kombinationen von Merkmalen basierend darauf, wie gut sie beim Training eines Modells abschneiden.
  3. Einbettungsmethoden: Diese integrieren die Merkmalsauswahl direkt in den Trainingsprozess des Modells.

Allerdings gibt es nur wenige Methoden, die speziell auf die Bedürfnisse von VFL eingehen, da diese aufgrund von Datenschutzbedenken und der Struktur der Daten einzigartige Herausforderungen darstellen.

Herausforderungen bestehender Ansätze

Aktuelle Ansätze zur Merkmalsauswahl im VFL stehen vor zwei wesentlichen Herausforderungen:

  1. Sie benötigen oft gleichzeitig direkten Zugriff auf Trainingsproben und Labels, was gegen die Prinzipien der Datensicherheit im VFL verstösst.
  2. Diese Methoden erfordern normalerweise viele Trainingsdurchläufe, was zu hohen Rechen- und Kommunikationskosten führt.

Um diese Hindernisse zu überwinden, hat unsere FedSDG-FS-Methode zwei Hauptkomponenten: ein Modul zur Initialisierung der Merkmalsbedeutung und ein Modul zur sicheren Merkmalsauswahl.

Hauptvorteile von FedSDG-FS

FedSDG-FS bringt mehrere Vorteile mit sich:

  1. Kontextbewusstsein: Diese Methode kann die Merkmalsauswahl parallel zum Modelltraining durchführen und sicherstellen, dass die gewählten Merkmale für den Kontext des Modells relevant sind.

  2. Effizienz: Durch die Nutzung der Gini-Unreinheit zur Bewertung der Merkmalsbedeutung beschleunigt FedSDG-FS die Identifizierung störender und wichtiger Merkmale und verbessert so die Gesamttrainingszeit des Modells.

  3. Sicherheit: Sie sorgt für Datenschutz durch Verschlüsselung. Während des Trainings und der Merkmalsauswahl werden weder Rohdaten noch Labels mit jemandem geteilt, ausser mit den ursprünglichen Eigentümern.

Systemübersicht von FedSDG-FS

Das FedSDG-FS-Framework besteht aus zwei Hauptmodulen:

  1. Initialisierung der Merkmalsbedeutung: Vor dem Training berechnen lokale Clients die anfängliche Bedeutung jedes Merkmals mithilfe der Gini-Unreinheit. Dies geschieht sicher, um sensible Daten zu schützen.

  2. Wichtige Merkmalsauswahl während des Trainings: Nach der Initialisierung koordiniert der Server mit den Clients, um wichtige Merkmale auszuwählen, während das Modell gleichzeitig trainiert wird. Dieser Prozess stellt sicher, dass die ausgewählten Merkmale für die Leistung des Modells wertvoll sind.

Implementierung der Merkmalsbedeutungsinitialisierung

Die Initialisierung der Merkmalsbedeutung umfasst die Bewertung von Merkmalen hinsichtlich ihrer Relevanz für den Erfolg des globalen Modells. Für jedes Merkmal berechnen wir einen Gini-Unreinheitsscore, der dabei hilft, festzustellen, welche Merkmale priorisiert werden sollten. Dies geschieht in Zusammenarbeit zwischen Clients und Server, um die Daten privat zu halten.

Sobald die Gini-Scores berechnet sind, werden sie an den Server zurückgesendet, der dann Merkmale mit niedrigeren Gini-Unreinheitsscores höhere Bedeutungswerte zuweist. Dieser Schritt verbessert die Effizienz erheblich und gewährleistet gleichzeitig die Privatsphäre.

Sichere Auswahl wichtiger Merkmale

Nachdem die anfänglichen Bedeutungsscores festgelegt sind, besteht der nächste Schritt darin, diese Merkmale während des Modelltrainings sicher auszuwählen. Jeder Client wählt zufällig einige seiner privaten Daten aus und berechnet den Einbettungsvektor mithilfe seines lokalen Modells. Dieser verschlüsselte Vektor wird dann an den Server gesendet.

Der Server verarbeitet diese verschlüsselten Einbettungen und führt die notwendigen Operationen für das Training des globalen Modells durch. Dabei wird sichergestellt, dass die Clients während dieses Prozesses nicht von den Daten der anderen wissen, um die Privatsphäre zu wahren.

Analyse der Konvergenz der Methode

FedSDG-FS wurde so konzipiert, dass das Modell während des Trainings effizient zu einer optimalen Lösung konvergiert. Wir zeigen die Beziehung zwischen unserer vorgeschlagenen Merkmalsauswahlmethode und der Auswahl von Merkmalen basierend auf statistischer Unabhängigkeit auf.

Darüber hinaus sorgt unsere Methode dafür, dass das Modelltraining stabil ist, was zu einer konsistenten Leistung über verschiedene Datensätze und Trainingsumstände hinweg führt.

Experimentelle Bewertung von FedSDG-FS

In unseren Experimenten haben wir FedSDG-FS über eine Vielzahl von Datensätzen, einschliesslich sowohl synthetischer als auch realer Daten, evaluiert. Die Ergebnisse zeigen, dass unsere Methode nicht nur bestehende Ansätze hinsichtlich der Genauigkeit übertrifft, sondern auch weniger Merkmale verwendet, was die Rechenkosten senkt.

Wir haben verschiedene Konfigurationen für verschiedene Datenarten getestet, darunter tabellarische Daten, Bilder und Audiodateien. Ein bemerkenswerter Befund aus unseren Analysen ist die Fähigkeit von FedSDG-FS, hohe Genauigkeit mit weniger ausgewählten Merkmalen aufrechtzuerhalten, was seine Effizienz beweist.

Fazit

Die FedSDG-FS-Methode stellt einen bedeutenden Fortschritt bei der Merkmalsauswahl für VFL dar. Durch die Kombination einer effizienten Merkmalsbewertung mit verbesserten Datenschutzmassnahmen können wir die Modellleistung verbessern, ohne sensible Daten zu kompromittieren. Unser Ansatz balanciert effektiv die Notwendigkeit für genaues Modelltraining mit robustem Datenschutz, was ihn für reale Anwendungen in verschiedenen Branchen geeignet macht.

Diese Arbeit eröffnet neue Wege zur Verbesserung der Möglichkeiten des föderierten Lernens, insbesondere in Umgebungen, in denen Datenschutz von grösster Bedeutung ist, während gleichzeitig hohe Leistung und Effizienz im Modelltraining erreicht werden.

Originalquelle

Titel: FedSDG-FS: Efficient and Secure Feature Selection for Vertical Federated Learning

Zusammenfassung: Vertical Federated Learning (VFL) enables multiple data owners, each holding a different subset of features about largely overlapping sets of data sample(s), to jointly train a useful global model. Feature selection (FS) is important to VFL. It is still an open research problem as existing FS works designed for VFL either assumes prior knowledge on the number of noisy features or prior knowledge on the post-training threshold of useful features to be selected, making them unsuitable for practical applications. To bridge this gap, we propose the Federated Stochastic Dual-Gate based Feature Selection (FedSDG-FS) approach. It consists of a Gaussian stochastic dual-gate to efficiently approximate the probability of a feature being selected, with privacy protection through Partially Homomorphic Encryption without a trusted third-party. To reduce overhead, we propose a feature importance initialization method based on Gini impurity, which can accomplish its goals with only two parameter transmissions between the server and the clients. Extensive experiments on both synthetic and real-world datasets show that FedSDG-FS significantly outperforms existing approaches in terms of achieving accurate selection of high-quality features as well as building global models with improved performance.

Autoren: Anran Li, Hongyi Peng, Lan Zhang, Jiahui Huang, Qing Guo, Han Yu, Yang Liu

Letzte Aktualisierung: 2023-02-20 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2302.10417

Quell-PDF: https://arxiv.org/pdf/2302.10417

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel