Aktivierung besserer Erinnerungen in KI-Modellen
Ein Blick auf Aktivierungslenkung zur Verbesserung des KI-Gedächtnismanagements.
Atakan Seyitoğlu, Aleksei Kuvshinov, Leo Schwinn, Stephan Günnemann
― 7 min Lesedauer
Inhaltsverzeichnis
Grosse Sprachmodelle (LLMs) sind momentan echt ein big deal. Die können chatten, Geschichten schreiben und sogar bei den Hausaufgaben helfen. Aber hier kommt der Clou: Diese Modelle erinnern sich manchmal an Dinge, die sie nicht Wissen sollten, wie sensible Infos oder urheberrechtlich geschützte Sachen. Du weisst schon, das Zeug, das Anwälte richtig happy (oder super sauer) machen kann, je nachdem, wer die Rechnung bezahlt.
Was machen wir also? Einige schlaue Köpfe haben über „Unlearning“ nachgedacht. Das bedeutet, die unerwünschten Erinnerungen loszuwerden, ohne das ganze Modell aus dem Fenster zu werfen. Aber, oh Mann, so einfach ist das nicht. Es gibt fiese Wege, wie böse Akteure die vergessenen Infos wieder hervorzaubern können, wie einen Hasen aus dem Hut ziehen (aber viel weniger spassig). Aktuelle Methoden geben oft nur eine Liste möglicher Antworten und nicht die tatsächliche Antwort. Das ist, als würdest du nach der besten Pizzabude in der Stadt fragen und eine Liste von jeder Pizzeria bekommen, ohne zu wissen, welche tatsächlich die beste ist.
In diesem Artikel reden wir über eine coole neue Methode namens Aktivierungssteuerung. Dabei geht's darum, die Modelle wieder auf den richtigen Weg zu bringen, wenn sie vom Pfad guter Manieren abkommen.
Das Problem mit dem Vergessen
Lass es uns mal genauer anschauen. Wenn LLMs lernen, fressen sie eine Menge Texte aus dem Internet. Sie werden richtig gut darin, Fragen zu beantworten, aber das hat seinen Preis. Manchmal erinnern sie sich an sensible Infos, die sie nicht wissen sollten. Stell dir vor, ein Modell hat deinen geheimen Pizzageschmack aus einem Online-Chat aufgeschnappt-wow! Je mehr Daten sie verarbeiten, desto schwieriger wird es, diese spezifischen Infos zu finden und zu löschen. Das ist, als würdest du versuchen, ein riesiges Spaghetti-Chaos zu reinigen, ohne mehr Sosse zu verschütten.
Gesetze wie die DSGVO sind hier, um unsere Privatsphäre zu schützen. Die besagen, Firmen müssen persönliche Daten auf Anfrage löschen. Aber einfach ein Modell zu bitten, etwas zu vergessen, reicht nicht aus, denn es von Grund auf neu zu trainieren, ist so praktisch wie einer Katze beizubringen, Apportieren zu spielen.
Unlearning: Der Zaubertrick
Also, was ist Unlearning? Denk daran wie an einen Zaubertrick für KI. Statt neu anzufangen, wollen die Forscher, dass Modelle bestimmte Dinge „vergessen“. Dabei müssen sie sicherstellen, dass das Modell schlau genug bleibt, um andere Fragen richtig zu beantworten.
Aber herauszufinden, ob ein Modell wirklich etwas vergessen hat, ist tricky. Nur weil es eine Frage nicht richtig beantwortet, heisst das nicht, dass es die Antwort komplett vergessen hat. Stell dir vor, dein Freund sagt, er hat deinen Geburtstag vergessen, weiss aber noch, wie alt du bist. Das ist nicht gerade überzeugend, oder?
Viele aktuelle Methoden sind wie ein Spiel von Verstecken. Sie suchen nach versteckten Informationen, finden aber oft die tatsächliche Antwort nicht unter einer Menge von Vermutungen.
Jetzt kommt die Aktivierungssteuerung
Jetzt reden wir über diese Aktivierungssteuerung. Denk daran wie an ein spezielles Werkzeug, um das Modell wieder auf den richtigen Weg zu lenken. Indem wir, was wir Steuerungsvektoren nennen, können wir dem Modell helfen, sich an die richtige Richtung zu erinnern (wie ein GPS für sein Gehirn). Diese Technik ermöglicht es uns, präzise Informationen abzurufen, selbst nachdem etwas Unlearning stattgefunden hat.
Wie funktioniert das? Wir generieren Paare von verschiedenen Eingabeaufforderungen, also Fragen, die helfen, Informationen zu pinpointen. Indem wir die Antworten des Modells auf diese Aufforderungen vergleichen, erstellen wir einen Steuerungsvektor, der uns sagt, in welche Richtung wir gehen müssen, um die richtige Antwort zu bekommen.
Die anonymisierte Aktivierungssteuerungsmethode
Hier wird's noch interessanter. Wir stellen etwas Cooles namens anonymisierte Aktivierungssteuerung vor. Anstatt direkte Fragen zu verwenden, die auf die verlorene Information hinweisen, erstellen wir anonymisierte Versionen der Fragen. Es ist, als würdest du nach Pizza fragen, ohne deinen Lieblingsbelag zu erwähnen.
Die Idee ist, Fragen zu erstellen, die ähnlich genug wie die Originale sind, aber nicht zu viel über die ungelernten Infos verraten. Dadurch können wir kontrastive Paare erstellen und diese nutzen, um herauszufinden, wie das Modell reagieren sollte.
Zum Beispiel, wenn wir nach einer Figur aus einem Buch fragen wollen (sagen wir Harry Potter-nur zum Spass), erstellen wir mehrere Versionen der Frage, die den Namen der Figur verbergen. So können wir das Wissen des Modells zu dem Thema verstehen, ohne es auf spezifische Details zurückzuführen.
Experimentieren mit verschiedenen Datensätzen
Wir haben beschlossen, unseren Ansatz mit verschiedenen Methoden und Datensätzen zu testen. Wir haben geschaut, wie gut die Aktivierungssteuerung bei Modellen funktioniert, die Bits von Wissen unlernt haben.
In einem Experiment haben wir ein Modell verwendet, das auf alles rund um Harry Potter trainiert wurde. Wir haben eine Menge einfacher Fragen gestellt, wie „Wer ist Harry Potters bester Freund?“ (Einfach, oder?). Dann haben wir die Antworten des unlernten Modells mit dem Modell unserer Aktivierungssteuerungsmethode verglichen.
Die Ergebnisse waren ziemlich faszinierend. Bei allgemeinem Wissen hat unsere Methode hervorragend geholfen, die richtigen Antworten rauszuziehen. Das war wie das Abstauben eines vergessenen Buches und Entdecken, dass es einige der besten Geschichten darin versteckt hat. Aber als es um spezifischere oder weniger populäre Themen ging, sind wir an eine Wand gestossen. Das war, als würdest du versuchen, Waldo in einem Bild zu finden, ohne seine typischen Streifen.
Der TOFU-Datensatz und darüber hinaus
Als Nächstes haben wir unsere Tests ausgeweitet und den TOFU-Datensatz einbezogen. Dieser Datensatz enthält fiktive Autoren, und die Fragen sind gezielter. Hier wollten wir sehen, ob unsere Methode genauso gut funktionieren könnte. Die Ergebnisse waren ein gemischtes Bild. Während wir einige Erfolge hatten, gab es auch eine faire Anzahl von Misserfolgen. Es war, als würdest du versuchen, Gelatine an die Wand zu nageln. Es hat einfach nicht gehalten.
Dann haben wir einen weiteren kniffligen Kunden ins Spiel gebracht: ROME, eine andere Unlearning-Methode. Dabei haben wir versucht, nach Einzelfragmente-Antworten zu suchen. Das war wie ein Wortassoziationsspiel. Wir wollten sehen, ob unsere Methode trotzdem helfen könnte. Und rate mal? Es hat geholfen, das Modell in eine bessere Richtung zu lenken und zu verhindern, dass es an falschen Hinweisen festhält.
Der breite vs. der enge Umfang
Das Wichtigste hier ist, dass unsere Methode am besten mit breiterem und stärker verknüpftem Wissen funktioniert. Zum Beispiel gibt es bei Harry Potter tonnenweise Verbindungen und Beziehungen zwischen Charakteren, Handlungssträngen und magischen Sprüchen. Das macht es dem Modell leichter, verwandte Informationen abzurufen. Es ist wie ein Netz von Referenzen, das alle zurück zu Harry zeigen kann.
Aber wenn wir es auf einen einzelnen Namen oder Fakt, wie den Geburtsort eines bestimmten Autors, eingrenzen, werden die Verbindungen begrenzt. Es ist dieser Mangel an Verknüpfungen, der es dem Modell schwerer macht, die richtige Information abzurufen.
Fazit: Der Weg nach vorn
Zusammengefasst ist die Aktivierungssteuerung eine schicke Methode für die Informationsbeschaffung aus LLMs, die Unlearning durchlaufen haben. Sie glänzt beim Umgang mit breit gefächertem Wissen, hat aber Schwierigkeiten mit spezifischeren Daten. Es ist ein bisschen so, als würdest du versuchen, dich in einem riesigen Freizeitpark zurechtzufinden-einfach, wenn du weisst, wo die Fahrgeschäfte sind, aber tricky, wenn du versuchst, eine Toilette mitten im Geschehen zu finden.
Wenn wir vorankommen, wird es entscheidend sein, zu verstehen, wo die Aktivierungssteuerung glänzt und wo sie Verbesserungsbedarf hat, um sicherere und schlauere KI zu entwickeln. Schliesslich möchte niemand ein Modell haben, das denkt, dein Lieblingspizzabelag sei etwas Seltsames. Lass es uns lustig und einfach halten!
Titel: Extracting Unlearned Information from LLMs with Activation Steering
Zusammenfassung: An unintended consequence of the vast pretraining of Large Language Models (LLMs) is the verbatim memorization of fragments of their training data, which may contain sensitive or copyrighted information. In recent years, unlearning has emerged as a solution to effectively remove sensitive knowledge from models after training. Yet, recent work has shown that supposedly deleted information can still be extracted by malicious actors through various attacks. Still, current attacks retrieve sets of possible candidate generations and are unable to pinpoint the output that contains the actual target information. We propose activation steering as a method for exact information retrieval from unlearned LLMs. We introduce a novel approach to generating steering vectors, named Anonymized Activation Steering. Additionally, we develop a simple word frequency method to pinpoint the correct answer among a set of candidates when retrieving unlearned information. Our evaluation across multiple unlearning techniques and datasets demonstrates that activation steering successfully recovers general knowledge (e.g., widely known fictional characters) while revealing limitations in retrieving specific information (e.g., details about non-public individuals). Overall, our results demonstrate that exact information retrieval from unlearned models is possible, highlighting a severe vulnerability of current unlearning techniques.
Autoren: Atakan Seyitoğlu, Aleksei Kuvshinov, Leo Schwinn, Stephan Günnemann
Letzte Aktualisierung: 2024-11-04 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2411.02631
Quell-PDF: https://arxiv.org/pdf/2411.02631
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.