Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Mathematik# Maschinelles Lernen# Kryptographie und Sicherheit# Verteiltes, paralleles und Cluster-Computing# Optimierung und Kontrolle

Ein neuer Ansatz für föderiertes Unlernen

SFU erlaubt Datenlöschung, während die Privatsphäre im maschinellen Lernen geschützt wird.

― 6 min Lesedauer


Überarbeitung vonÜberarbeitung vonföderiertenLernframeworksin KI.datenschutzorientierten DatenentfernungNeue Methode zur
Inhaltsverzeichnis

In der heutigen Welt ist Datenschutz super wichtig. Die Leute wollen sicherstellen, dass ihre Infos sicher sind und sie die Kontrolle darüber haben. Das gilt besonders, wenn es um sensible Daten wie medizinische Unterlagen geht. Traditionelle Machine Learning-Methoden erfordern normalerweise, dass alle Daten an einem Ort gesammelt werden, aber das ist wegen Datenschutzbedenken nicht immer möglich. Federated Learning (FL) ist eine Methode, die es mehreren Clients ermöglicht, ein Machine Learning-Modell zu trainieren, ohne ihre lokalen Daten zu teilen, was eine gute Option zum Schutz der Privatsphäre ist.

Mit neuen Datenschutzgesetzen bekommen die Leute aber auch mehr Rechte über ihre Daten. Eines dieser Rechte ist die Möglichkeit, ihre Daten vergessen zu lassen. Im Kontext des Machine Learning bedeutet das, dass nicht nur die Daten gelöscht werden sollten, sondern auch die Auswirkungen dieser Daten auf alle Modelle entfernt werden müssen. Dieser Prozess wird als federated unlearning bezeichnet. Das Hauptziel des federated unlearning ist es, den Einfluss der Daten eines bestimmten Clients vom globalen Modell zu entfernen, während die Genauigkeit des Modells erhalten bleibt.

Herausforderungen des Federated Unlearning

Federated unlearning bringt einige Herausforderungen mit sich, die aus der Art und Weise resultieren, wie federated learning funktioniert:

  1. Eingeschränkter Zugriff auf Daten: Der zentrale Server hat keinen direkten Zugriff auf alle Daten der Clients, was es schwierig macht, traditionelle Unlearning-Methoden anzuwenden.

  2. Modellaggregation: Das Modell jedes Clients basiert auf der vorherigen Aggregation der Modelle, daher kann das Entfernen des Beitrags eines Clients das Modell aller anderen beeinflussen.

  3. Client-Auswahl: Nicht alle Clients nehmen an jeder Trainingsrunde teil, was die Verfolgung der Beiträge kompliziert macht.

Bestehende Methoden und ihre Einschränkungen

Viele aktuelle Methoden des federated unlearning beinhalten entweder das erneute Trainieren des Modells nur mit den verbleibenden Clients oder das Speichern von historischen Update-Daten auf dem Server. Die erste Methode kann unpraktisch sein, da Clients möglicherweise nicht dieselben Daten behalten, die sie beim ursprünglichen Training hatten. Die zweite Methode kann speicherintensiv sein und ist oft nicht umsetzbar in Szenarien mit begrenzten Server-Ressourcen.

Eine gängige Idee ist es, das globale Modell von Grund auf neu ohne den Ziel-Client zu trainieren. Aber wenn Clients ihre Daten nach dem Training löschen, kann diese Methode nicht effektiv funktionieren. Eine andere Idee ist es, die historischen Änderungen, die der Ziel-Client gemacht hat, nachzuverfolgen, was ebenfalls unpraktisch sein kann, wenn der Server Platzbeschränkungen hat.

Stattdessen stellen wir eine neue Methode namens Subspace Based Federated Unlearning (SFU) vor, die es nicht erfordert, dass der Server historische Daten speichert.

Was ist Subspace Based Federated Unlearning (SFU)?

SFU ist eine einfache und effektive Methode, die es dem globalen Modell ermöglicht, sich in einem bestimmten Raum anzupassen, um den Beitrag eines Ziel-Clients zu eliminieren. Anstatt auf historische Datenspeicherung zu setzen, kann der Server Gradientenupdates vom Ziel-Client sammeln und eine Repräsentationsmatrix von den anderen Clients berechnen. Dieser Ansatz nutzt das Konzept der Projektion in einen orthogonalen Raum, was bedeutet, dass er auf eine Weise funktioniert, die die Modellleistung nicht negativ beeinflusst.

Gradient Ascent in SFU

In SFU funktioniert die Methode, indem der Ziel-Client ein lokales Update mit Gradient Ascent durchführt. Das bedeutet, dass der Ziel-Client versucht, seinen eigenen empirischen Verlust zu erhöhen, was eine Möglichkeit ist, den Datenbeitrag, den er zuvor geleistet hat, "rückgängig zu machen". Die Änderungen, die der Ziel-Client vornimmt, werden in einen Raum projiziert, der orthogonal zu den Eingaben der anderen Clients ist, wodurch sichergestellt wird, dass die allgemeine Modellqualität hoch bleibt.

Wie funktioniert SFU?

Im SFU-Verfahren gibt es drei Hauptteilnehmer:

  1. Ziel-Client: Das ist der Client, dessen Beitrag entfernt werden muss.

  2. Verbleibende Clients: Das sind die anderen Clients, deren Dateninformationen zur Erstellung der Repräsentationsmatrix beitragen.

  3. Server: Dieser zentrale Punkt sammelt die Informationen und verarbeitet sie.

Der Prozess kann in mehrere Schritte unterteilt werden:

  1. Auswahl der Proben: Jeder verbleibende Client wählt eine Anzahl lokaler Proben aus, um eine Repräsentationsmatrix zu erstellen, die er nach dem Hinzufügen zufälliger Faktoren zum Datenschutz an den Server sendet.

  2. Gradientenupdate vom Ziel-Client: Der Ziel-Client führt mehrere Runden Gradient Ascent auf seinen eigenen Daten durch und sendet diese aktualisierten Informationen an den Server.

  3. Server-Operationen: Der Server sammelt die Repräsentationsmatrizen von den verbleibenden Clients und erstellt einen Subraum. Dann projiziert er den Gradienten des Ziel-Clients in diesen Raum und aktualisiert das globale Modell entsprechend.

Datenschutz in SFU

Um Datenschutzbedenken während des SFU-Prozesses zu adressieren, wird eine Methode implementiert, die zufälliges Rauschen zu den von den Clients gesendeten Repräsentationsmatrizen hinzufügt. Das sorgt dafür, dass selbst wenn jemand die Übertragung abfängt, sie keine sensiblen Informationen daraus ableiten können.

Experimentelle Ergebnisse

Es wurden Experimente mit beliebten Datensätzen wie MNIST, CIFAR10 und CIFAR100 durchgeführt. Der Fokus lag darauf, die Effektivität von SFU bei der Entfernung der Beiträge bestimmter Clients zu bewerten, während die Genauigkeit des globalen Modells beibehalten wird.

Beschreibung der Datensätze

  • MNIST: Ein Datensatz mit 60.000 Trainingsbildern und 10.000 Testbildern von handgeschriebenen Ziffern.

  • CIFAR10: Enthält 60.000 Farb-Bilder in 10 Kategorien, die jeweils 32x32 Pixel messen.

  • CIFAR100: Ähnlich wie CIFAR10, besteht aber aus 100 Klassen mit weniger Bildern pro Klasse.

Bewertungsmetriken

Die Effizienz von SFU wurde anhand von zwei Hauptaspekten bewertet:

  1. Entfernung der Beiträge des Ziel-Clients: Dies wurde mit Backdoor-Triggers durchgeführt, die die Anfälligkeit des Modells für spezifische Manipulationen testen, die darauf hinweisen würden, dass die Daten des Ziel-Clients nicht richtig eliminiert wurden.

  2. Wiederherstellung der Modellleistung: Das überprüft, wie gut das Modell nach dem Unlearning-Vorgang in Bezug auf seine Genauigkeit bei sauberen Testdaten abschneidet.

Überblick über die Ergebnisse

Die Ergebnisse zeigten, dass SFU die Beiträge des Ziel-Clients effektiv entfernt hat, mit minimalen Auswirkungen auf die Modellgenauigkeit im Vergleich zu traditionellen Methoden. Ausserdem erwies es sich als robust über verschiedene Datensätze und Datenheterogenität hinweg.

Fazit

Subspace Based Federated Unlearning (SFU) bietet einen neuen Ansatz, um das Recht auf Vergessenwerden in federated learning-Einstellungen zu verwalten. Durch die Nutzung des orthogonalen Ansatzes ermöglicht SFU die effektive Entfernung spezifischer Client-Beiträge, ohne die Leistung stark zu beeinträchtigen. Zudem werden während des Prozesses Datenschutzbedenken berücksichtigt, was es für reale Anwendungen geeignet macht.

Da die Nachfrage nach datenschutzbewahrenden Technologien im Machine Learning wächst, bietet SFU eine praktische Lösung, um diese Herausforderungen zu meistern und zu sichereren und verantwortungsbewussteren Datenhandlungspraktiken beizutragen.

Originalquelle

Titel: Subspace based Federated Unlearning

Zusammenfassung: Federated learning (FL) enables multiple clients to train a machine learning model collaboratively without exchanging their local data. Federated unlearning is an inverse FL process that aims to remove a specified target client's contribution in FL to satisfy the user's right to be forgotten. Most existing federated unlearning algorithms require the server to store the history of the parameter updates, which is not applicable in scenarios where the server storage resource is constrained. In this paper, we propose a simple-yet-effective subspace based federated unlearning method, dubbed SFU, that lets the global model perform gradient ascent in the orthogonal space of input gradient spaces formed by other clients to eliminate the target client's contribution without requiring additional storage. Specifically, the server first collects the gradients generated from the target client after performing gradient ascent, and the input representation matrix is computed locally by the remaining clients. We also design a differential privacy method to protect the privacy of the representation matrix. Then the server merges those representation matrices to get the input gradient subspace and updates the global model in the orthogonal subspace of the input gradient subspace to complete the forgetting task with minimal model performance degradation. Experiments on MNIST, CIFAR10, and CIFAR100 show that SFU outperforms several state-of-the-art (SOTA) federated unlearning algorithms by a large margin in various settings.

Autoren: Guanghao Li, Li Shen, Yan Sun, Yue Hu, Han Hu, Dacheng Tao

Letzte Aktualisierung: 2023-02-23 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2302.12448

Quell-PDF: https://arxiv.org/pdf/2302.12448

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel