Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Kryptographie und Sicherheit# Maschinelles Lernen

Privatsphäre im Split Learning mit homomorpher Verschlüsselung verbessern

Eine neue Methode schützt sensible Daten während des Trainings von Machine Learning.

― 5 min Lesedauer


Privatsphäre imPrivatsphäre immaschinellen LernenGenauigkeit zu opfern.Neue Methoden schützen Daten, ohne die
Inhaltsverzeichnis

Split Learning (SL) ist eine Methode, bei der zwei Parteien, normalerweise ein Client und ein Server, zusammenarbeiten, um Machine Learning-Modelle zu trainieren, ohne dass der Client sensible Daten teilen muss. Anstatt rohe Daten an den Server zu senden, verarbeitet der Client die Daten mit einem Teil des Modells, erstellt Aktivierungskarten und sendet diese Karten an den Server für weiteres Training. Dieses Setup zielt darauf ab, Benutzerdaten privat zu halten und dennoch eine gemeinsame Modellentwicklung zu ermöglichen.

Die Herausforderung der Privatsphäre

Obwohl SL ein gewisses Mass an Datenschutz bietet, haben frühere Forschungen ergeben, dass die Aktivierungskarten dennoch sensible Informationen preisgeben können. Wenn jemand die Rohdaten aus diesen Karten rekonstruieren kann, ist der Zweck des Datenschutzes hinfällig. Bestehende Lösungen für dieses Problem führten oft zu einer reduzierten Genauigkeit des Modells, was ein erhebliches Manko sein kann.

Ein neuer Ansatz mit homomorpher Verschlüsselung

In unserer Arbeit schlagen wir eine Methode vor, die SL mit homomorpher Verschlüsselung (HE) kombiniert. Dabei verschlüsselt der Client die Aktivierungskarten, bevor er sie an den Server sendet. So kann der Server weiterhin Berechnungen auf diesen verschlüsselten Karten durchführen, ohne Zugriff auf die Originaldaten zu haben. Dadurch wird der Datenschutz der Nutzer besser geschützt, während dennoch Machine Learning-Training ermöglicht wird.

Wie Split Learning funktioniert

Bei SL wird der Trainingsprozess in zwei Teile unterteilt:

  1. Clientseitiges Training: Der Client verarbeitet seine Daten mit den ersten Schichten des Modells und erstellt Aktivierungskarten, die die Daten zusammenfassen.
  2. Serverseitiges Training: Der Server erhält die Aktivierungskarten und nutzt sie, um den Trainingsprozess fortzusetzen.

In typischen SL-Setups teilen beide Parteien einige Daten über die Leistung des Modells, aber sie teilen nicht die Rohdaten. Das reduziert das Risiko von Datenlecks, aber nicht vollständig.

Warum Homomorphe Verschlüsselung verwenden?

Homomorphe Verschlüsselung ermöglicht es, Berechnungen auf verschlüsselten Daten durchzuführen. Indem verschlüsselte Aktivierungskarten anstelle von Klartext gesendet werden, kann der Server keine nützlichen Informationen über die Rohdaten ableiten. Selbst wenn ein Angreifer die verschlüsselten Karten abfängt, kann er sie nicht zurückentwickeln, um die Originaldaten zu enthüllen.

Diese Methode ist bedeutend, weil sie eine zusätzliche Sicherheitsschicht hinzufügt, ohne die Fähigkeit des Servers zur Modellentwicklung zu beeinträchtigen.

Training eines 1D CNN mit Split Learning

Wir haben diese SL-Methode auf einen speziellen Typ von neuronalen Netzwerken angewendet, der als 1D convolutional neural network (CNN) bekannt ist, das hauptsächlich zur Verarbeitung von Zeitreihendaten, wie Herzschlägen von EKG-Maschinen, verwendet wird. Unser Ansatz umfasst mehrere Schichten, die jeweils eine spezifische Funktion bei der Analyse und Klassifizierung der Daten haben.

Das 1D CNN besteht aus:

  • Konvolutionalen Schichten: Diese Schichten extrahieren Merkmale aus den Daten.
  • Aktivierungsfunktionen: Funktionen, die Nichtlinearität ins Modell einführen und ihm helfen, komplexe Muster zu lernen.
  • Pooling-Schichten: Diese Schichten reduzieren die Dimensionalität der Daten und bewahren die wichtigsten Informationen.
  • Letzte Klassifizierungsschicht: Diese Schicht gibt Vorhersagen über die Klassen aus den Daten aus.

Bedenken hinsichtlich des Datenschutzes

Forschungen haben gezeigt, dass das Teilen von Aktivierungskarten weiterhin zu Datenschutzbedenken führen kann. Zum Beispiel könnten die Muster in den Aktivierungskarten den Originaldaten sehr ähnlich sein, was es jemandem ermöglichen könnte, die Rohdaten nur aus diesen Karten zu erraten oder zu rekonstruieren.

Um diese Datenschutzprobleme anzugehen, haben wir homomorphe Verschlüsselung in den SL-Prozess eingeführt. Anstatt Aktivierungskarten im Klartext zu senden, verschlüsselt der Client sie zuerst. Dann sendet er diese verschlüsselten Karten an den Server für weiteres Training.

Die Vorteile der Verwendung von homomorpher Verschlüsselung

Durch die Verwendung von HE haben wir mehrere Vorteile festgestellt:

  1. Verbesserter Datenschutz: Rohdaten verlassen den Client nie, und der Server kann nicht über die Aktivierungskarten darauf zugreifen.
  2. Beibehaltung der Modellgenauigkeit: Unsere Experimente haben gezeigt, dass die Genauigkeit bei der Verwendung verschlüsselter Daten nahezu so hoch sein kann wie bei der Verwendung von Klartextdaten.
  3. Reduziertes Risiko: Da der Server nie die Rohdaten sieht, gibt es weniger Chancen für Datenlecks.

Experimenteller Aufbau

Um unseren Ansatz zu testen, verwendeten wir einen grossen Open-Source-Datensatz mit EKG-Daten, der verschiedene Herzschlagsignale umfasst. Jedes Herzschlagsignal wird in Segmente unterteilt und nach bestimmten Bedingungen, wie normalen Rhythmen oder potenziellen Herzproblemen, gekennzeichnet.

Wir trainierten unser Modell auf zwei Arten:

  1. Verwendung von Klartext-Aktivierungskarten: In diesem Szenario teilten wir Aktivierungskarten ohne Verschlüsselung.
  2. Verwendung von verschlüsselten Aktivierungskarten: Hierbei wandten wir HE auf Aktivierungskarten an, bevor wir sie teilten.

Durch den Vergleich der Leistung in beiden Szenarien konnten wir die Wirksamkeit unserer Methode beurteilen.

Trainingsergebnisse

In unseren Tests führte das Training des Modells mit Klartextkarten zu einem gewissen Mass an Genauigkeit. Als wir zu verschlüsselten Karten wechselten, stellten wir nur einen leichten Rückgang der Genauigkeit fest, was zeigt, dass unsere Methoden weiterhin effektiv waren.

Die Kommunikationskosten und die Trainingsdauer waren merklich höher, wenn verschlüsselte Daten verwendet wurden, aber der Kompromiss für verbesserten Datenschutz war es wert.

Fazit und zukünftige Richtungen

Zusammenfassend zeigt unsere Arbeit eine neue Richtung zur Entwicklung von datenschutzfreundlichen Machine Learning-Modellen unter Verwendung von Split Learning und homomorpher Verschlüsselung. Indem wir eine Zusammenarbeit beim Training ermöglichen, ohne Rohdaten preiszugeben, haben wir bedeutende Datenschutzbedenken angesprochen, die in früheren Modellen bestanden.

Obwohl die anfänglichen Ergebnisse vielversprechend sind, gibt es noch Raum für weitere Erkundungen. Zukünftige Arbeiten können sich darauf konzentrieren, sowohl die Kommunikationseffizienz als auch die Trainingsdauer zu optimieren, um sicherzustellen, dass Datenschutz gewahrt bleibt, ohne die Leistung zu opfern.

Wenn wir voranschreiten, ist es das Ziel, die Anwendbarkeit dieser Methoden auf verschiedene Datensätze und Machine Learning-Aufgaben zu erweitern, um eine sicherere Datennutzung in verschiedenen Bereichen zu ermöglichen.

Durch die Kombination fortschrittlicher Methoden wie Split Learning und homomorpher Verschlüsselung freuen wir uns darauf, Fortschritte in verantwortungsvollen Praktiken des Machine Learning zu machen, die die Privatsphäre und Sicherheit des Einzelnen respektieren.

Originalquelle

Titel: Love or Hate? Share or Split? Privacy-Preserving Training Using Split Learning and Homomorphic Encryption

Zusammenfassung: Split learning (SL) is a new collaborative learning technique that allows participants, e.g. a client and a server, to train machine learning models without the client sharing raw data. In this setting, the client initially applies its part of the machine learning model on the raw data to generate activation maps and then sends them to the server to continue the training process. Previous works in the field demonstrated that reconstructing activation maps could result in privacy leakage of client data. In addition to that, existing mitigation techniques that overcome the privacy leakage of SL prove to be significantly worse in terms of accuracy. In this paper, we improve upon previous works by constructing a protocol based on U-shaped SL that can operate on homomorphically encrypted data. More precisely, in our approach, the client applies homomorphic encryption on the activation maps before sending them to the server, thus protecting user privacy. This is an important improvement that reduces privacy leakage in comparison to other SL-based works. Finally, our results show that, with the optimum set of parameters, training with HE data in the U-shaped SL setting only reduces accuracy by 2.65% compared to training on plaintext. In addition, raw training data privacy is preserved.

Autoren: Tanveer Khan, Khoa Nguyen, Antonis Michalas, Alexandros Bakas

Letzte Aktualisierung: 2023-09-19 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.10517

Quell-PDF: https://arxiv.org/pdf/2309.10517

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel