Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Kryptographie und Sicherheit# Maschinelles Lernen

Herausforderungen bei der Modellerfassung unter Hard-Label-Einstellungen

Ein Blick darauf, wie Angreifer neuronale Netze mit begrenztem Zugriff auf die Ausgaben replizieren.

Yi Chen, Xiaoyang Dong, Jian Guo, Yantian Shen, Anyu Wang, Xiaoyun Wang

― 7 min Lesedauer


Modellextraktion inModellextraktion inHard-Label-Szenarienbegrenztem Zugriff auf die Ausgaben.Angriffe auf neuronale Netzwerke trotz
Inhaltsverzeichnis

In den letzten Jahren hat das Gebiet des maschinellen Lernens schnelle Fortschritte gemacht, besonders bei der Entwicklung von neuronalen Netzen. Diese komplexen Modelle werden für verschiedene Aufgaben wie Bild- und Spracherkennung eingesetzt. Eine Herausforderung, mit der Forscher konfrontiert sind, ist, wie sie diese Modelle vor unbefugtem Zugriff oder Angriffen schützen können, die darauf abzielen, sensible Informationen über ihre Struktur und Parameter zu extrahieren.

Ein solches Problem wird als Modellextraktion bezeichnet. Dabei versucht ein Angreifer, ein neuronales Netzwerk zu replizieren, ohne direkten Zugriff auf die internen Parameter zu haben. Stattdessen interagiert der Angreifer mit dem Modell über dessen Ausgaben und versucht im Grunde, sein Verhalten zu lernen. Das Ziel ist es, ein neues Modell zu erstellen, das sich ähnlich wie das Original verhält, oft als funktional äquivalentes Modell bezeichnet.

In dieser Studie konzentrieren wir uns auf einen spezifischen Fall der Modellextraktion, bei dem der Angreifer nur begrenzten Zugang zu den Ausgaben des neuronalen Netzwerks hat, insbesondere in dem, was als "Hard-Label-Setting" bezeichnet wird. In diesem Setting kann der Angreifer nur die endgültige Klassenvorhersage des Modells erhalten, anstatt detaillierte Wahrscheinlichkeitswerte. Diese Einschränkung macht die Extraktion erheblich schwieriger.

Hintergrund

Modellextraktion ist seit vielen Jahren ein Thema von Interesse. Verschiedene Ansätze wurden vorgeschlagen, um Details aus neuronalen Netzen zu extrahieren, selbst wenn sie geschützt sind. In der Vergangenheit ermöglichte der Zugang zu den rohen Ausgaben den Angreifern erheblichen Spielraum, um das Modell zu analysieren und zu rekonstruieren. Die Herausforderung steigt jedoch, wenn es um Hard-Label-Ausgaben geht, was bedeutet, dass der Angreifer nur die vorhergesagte Klasse ohne zusätzliche Wahrscheinlichkeiten erhält.

Das Hard-Label-Setting schafft ein schwierigeres Szenario für Angreifer, da sie keine detaillierten Informationen über das Vertrauen des Modells in seine Vorhersagen erhalten können. Diese Situation führt zu weniger verfügbaren Abfragen und weniger Informationen für mögliche Versuche zur Modellextraktion. Dennoch wurden einige theoretische Grundlagen gelegt, die zeigen, dass es dennoch möglich sein könnte, zufriedenstellende Ergebnisse bei der Modellextraktion zu erzielen, selbst unter diesen Einschränkungen.

Hard-Label-Setting

Um das Hard-Label-Setting zu verdeutlichen, betrachten wir, was passiert, wenn ein neuronales Netzwerk von einem Angreifer abgefragt wird. Normalerweise gibt das Netzwerk, wenn ein Input bereitgestellt wird, einen Vektor von Wahrscheinlichkeiten aus - eine für jede mögliche Klasse. Im Hard-Label-Setting hingegen komprimiert das Netzwerk diese Informationen in ein einzelnes Label: die Klasse mit der höchsten Wahrscheinlichkeit. Wenn zum Beispiel ein neuronales Netzwerk trainiert wurde, um verschiedene Tierarten zu erkennen, und ein Bild eines Hundes eingegeben wird, könnte das Modell "Hund" als Label ausgeben, ohne preiszugeben, wie sicher es über dieses Label im Vergleich zu anderen war.

Das Fehlen detaillierter Rückmeldungen bedeutet, dass Angreifer auf clevere Methoden angewiesen sind, um so viel wie möglich aus den begrenzten Informationen herauszufiltern, die sie erhalten können. Dieses Szenario stellt eine einzigartige Herausforderung für Gegner dar, die versuchen, das Verhalten des neuronalen Netzwerks zu verstehen und zu replizieren.

Funktional äquivalente Extraktion

Das Konzept der funktional äquivalenten Extraktion steht im Mittelpunkt dieser Studie. Das Ziel ist es, ein extrahiertes Modell zu erstellen, das sich in Bezug auf die Ausgabe für einen gegebenen Input genauso verhält wie das Originalmodell. Dies erfordert nicht die genauen Modellparameter, sondern vielmehr ein Modell, das in der Praxis dieselben Vorhersagen geben kann.

Um dies zu veranschaulichen, stellen wir uns zwei Modelle vor - eines ist das ursprüngliche neuronale Netzwerk und das andere das extrahierte Modell, das der Angreifer erstellt hat. Wenn für jeden bereitgestellten Input beide Modelle dasselbe Label zurückgeben, dann ist das extrahierte Modell funktional äquivalent zum Original. Diese Beziehung ist entscheidend, weil sie dem Angreifer ermöglicht, das Verhalten des Originals auszunutzen, ohne Zugang zu den internen Abläufen zu haben.

Der Angriffsprozess

Um eine funktional äquivalente Extraktion in einem Hard-Label-Setting zu erreichen, kann ein Angreifer mehrere Schritte befolgen:

Schritt 1: Entscheidunggrenzen sammeln

Der erste Schritt besteht darin, Datenpunkte zu sammeln, die sich in der Nähe der Entscheidunggrenzen des neuronalen Netzwerks befinden. Eine Entscheidunggrenze ist der Punkt, an dem sich die Vorhersage des Modells von einer Klasse zur anderen ändert. Diese Punkte können wertvolle Einblicke geben, wie das Modell funktioniert. Der Angreifer fragt das Modell mit verschiedenen Inputs ab und zeichnet die Hard-Label-Ausgaben auf.

Schritt 2: Modell-Signatur wiederherstellen

Als Nächstes versucht der Angreifer, das, was als Modell-Signatur bezeichnet wird, wiederherzustellen. Dieser Prozess beinhaltet die Analyse der Entscheidunggrenzen-Punkte, um die Struktur des neuronalen Netzwerks zu erschliessen. Indem er untersucht, wie sich die Ausgaben als Reaktion auf leichte Eingangsvariationen ändern, kann der Angreifer beginnen, Informationen über die Parameter des neuronalen Netzwerks zusammenzufügen.

Schritt 3: Gewichte Schicht für Schicht wiederherstellen

Nachdem die Modell-Signatur erhalten wurde, kann der Angreifer fortfahren, die Gewichte des neuronalen Netzwerks wiederherzustellen. Dies geschieht Schicht für Schicht - für jede Schicht wendet der Angreifer Entscheidunggrenzen-Punkte an, um Informationen über die Gewichte der Neuronen in dieser Schicht zu extrahieren. Der Prozess umfasst das Lösen von Gleichungen basierend auf bekannten Inputs und Modell-Ausgaben.

Schritt 4: Alle Biases wiederherstellen

Sobald die Gewichte extrahiert wurden, besteht der nächste Schritt darin, die Biases abzurufen, die mit jedem Neuron verbunden sind. Biases sind zusätzliche Parameter, die helfen, die Ausgabe der Neuronen anzupassen und so ein flexibleres Modellverhalten zu ermöglichen. Diese können mit ähnlichen Techniken wie bei den Gewichten wiederhergestellt werden.

Schritt 5: Funktional ungleichwertige Modelle filtern

Schliesslich muss der Angreifer die Modelle, die er erstellt hat, durchgehen und identifizieren, welche von ihnen funktional äquivalent zum Original sind. Dieser Schritt beinhaltet das Testen der verschiedenen extrahierten Modelle gegen eine Reihe von Inputs, um zu sehen, wie eng deren Ausgaben denen des Originalmodells entsprechen.

Praktische Experimente

Um die Angriffsmethoden zu validieren, wurden verschiedene Experimente durchgeführt, bei denen echte neuronale Netzwerke verwendet wurden, die auf gängigen Datensätzen trainiert wurden. Diese Datensätze umfassen MNIST, das aus handgeschriebenen Ziffern besteht, und CIFAR10, das Bilder von gängigen Objekten enthält.

Die Experimente gaben zwei Hauptinformationen:

  1. Die Angriffe konnten funktional äquivalente Modelle erfolgreich wiederherstellen, was zeigt, dass es möglich ist, das Verhalten des ursprünglichen Modells selbst bei Hard-Label-Ausgaben zu approximieren.

  2. Die Effizienz des Angriffs hängt erheblich von der Präzision ab, mit der Entscheidunggrenzen-Punkte ausgewählt werden, und von der Anzahl der Abfragen, die an das Modell gestellt werden.

Durch diese praktischen Tests wurde gezeigt, dass der Ansatz effektiv funktioniert und vielversprechende Ergebnisse erzielt, trotz der herausfordernden Umgebung des Hard-Label-Settings.

Fazit und zukünftige Arbeiten

Die Studie führt erfolgreich einen neuartigen Ansatz zur Extraktion von Modellen unter Hard-Label-Settings ein und zeigt, dass es machbar ist, funktional äquivalente Extraktionen zu erreichen. Die Ergebnisse deuten darauf hin, dass Angreifer selbst mit begrenzten Ausgabedaten immer noch bedeutende Informationen ableiten und das Verhalten komplexer neuronaler Netze approximieren können.

In Zukunft gibt es zahlreiche Möglichkeiten zur Verbesserung und Erkundung. Die Reduzierung der Komplexität des Extraktionsprozesses wird entscheidend sein, insbesondere für Modelle mit einer grossen Anzahl von Neuronen. Ausserdem könnte das Verallgemeinern von Extraktionsmethoden zur Handhabung anderer Netzwerkarchitekturen den Einfluss dieser Arbeit erhöhen.

Die breiteren Auswirkungen dieser Forschung unterstreichen die Notwendigkeit robusterer Sicherheitsmassnahmen in maschinellen Lernmodellen, insbesondere da sie zunehmend in verschiedenen sensiblen Anwendungen integriert werden. Während sich das Feld weiterentwickelt, wird es entscheidend sein, diese Schwachstellen zu verstehen, sowohl für Entwickler als auch für Forscher.

Originalquelle

Titel: Hard-Label Cryptanalytic Extraction of Neural Network Models

Zusammenfassung: The machine learning problem of extracting neural network parameters has been proposed for nearly three decades. Functionally equivalent extraction is a crucial goal for research on this problem. When the adversary has access to the raw output of neural networks, various attacks, including those presented at CRYPTO 2020 and EUROCRYPT 2024, have successfully achieved this goal. However, this goal is not achieved when neural networks operate under a hard-label setting where the raw output is inaccessible. In this paper, we propose the first attack that theoretically achieves functionally equivalent extraction under the hard-label setting, which applies to ReLU neural networks. The effectiveness of our attack is validated through practical experiments on a wide range of ReLU neural networks, including neural networks trained on two real benchmarking datasets (MNIST, CIFAR10) widely used in computer vision. For a neural network consisting of $10^5$ parameters, our attack only requires several hours on a single core.

Autoren: Yi Chen, Xiaoyang Dong, Jian Guo, Yantian Shen, Anyu Wang, Xiaoyun Wang

Letzte Aktualisierung: 2024-09-17 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.11646

Quell-PDF: https://arxiv.org/pdf/2409.11646

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel