Neue Angriffe zeigen Schwächen im Text-Wasserzeichen auf
Forschung zeigt Schwachstellen bei Wasserzeichen-Methoden für KI-generierte Texte.
― 13 min Lesedauer
Inhaltsverzeichnis
Watermarking ist eine Methode, um ein verborgenes Signal in den von grossen Sprachmodellen (LLMs) erzeugten Text einzufügen. So kann die Quelle des Textes identifiziert werden. Wir stellen jedoch eine neue Angriffsform vor, die als Smoothing-Angriffe bekannt ist. Unsere Ergebnisse zeigen, dass aktuelle Watermarking-Techniken anfällig für kleine Änderungen im Text sind. Ein Angreifer kann weniger fortschrittliche Sprachmodelle verwenden, um die durch Wasserzeichen verursachten Veränderungen zu entfernen, ohne die Gesamtqualität des Textes zu beeinträchtigen. Der veränderte Text bleibt dem ähnlich, was das ursprüngliche Modell ohne Wasserzeichen produziert hätte. Unser Angriff zeigt eine wesentliche Schwäche vieler Watermarking-Methoden auf.
Mit der Verbesserung der LLMs wird es immer schwieriger zu erkennen, ob ein Text von KI oder einem Menschen erstellt wurde. Eine Möglichkeit, dem entgegenzuwirken, ist das Text-Watermarking, das kleine technische Änderungen an der Art und Weise vornimmt, wie Token-Sequenzen generiert werden. Diese Änderungen ermöglichen es einem Detektor, die Wasserzeichen zu identifizieren, ohne dass es den Menschen auffällt. Der Watermarking-Prozess erhöht die Wahrscheinlichkeit, bestimmte Tokens auszuwählen – in diesem Fall als "grüne Liste" bezeichnet. Watermarking steht vor zwei Hauptproblemen: die Textqualität hoch zu halten und es schwierig zu machen, das Wasserzeichen zu entfernen. Wir konzentrieren uns auf die zweite Herausforderung und testen, wie gut Watermarking-Techniken gegen Versuche der Löschung standhalten.
Der Angreifer will die Wasserzeichen nicht blind entfernen. Stattdessen ist das Ziel, Text zu erzeugen, der dem ähnelt, was das ursprüngliche Modell generiert hätte, ohne Anzeichen des Wasserzeichens. Daher sollte die Stärke der Watermarking-Strategien darauf bewertet werden, wie herausfordernd es ist, qualitativ hochwertigen Text zu produzieren, der das ursprüngliche Modell imitiert, ohne Wasserzeichen-Spuren zu hinterlassen. In diesem Artikel präsentieren wir starke Watermark-Smoothing-Angriffe, die dieses Ziel erreichen.
Wir nehmen an, dass der Angreifer Zugang zu einem schwächeren Sprachmodell hat als das Zielmodell. Aufgrund dieses Fähigkeitsunterschieds erwarten wir, dass die beiden Modelle unterschiedliche Vorstellungen davon haben, welche Tokens als nächstes ausgewählt werden sollen. Ein kleiner Teil dieser Variation stammt aus der Watermarking-Technik. Wir haben einen Algorithmus entwickelt, der das schwächere Modell nutzt, um diese Unterschiede zu Glätten, die in verschiedenen Proben konsistent sind. Wir betrachten die beiden Modelle als zwei Arten der Token-Rangordnung und führen einen statistischen Test durch, um zu bestimmen, wie jeder Token zu den durch die Wasserzeichen verursachten Rangunterschieden beiträgt. Indem wir diese Bewertung über mehrere Tests hinweg wiederholen, können wir die Wahrscheinlichkeit schätzen, dass jeder Token von der wasserzeichenmarkierten Liste stammt. Basierend darauf findet unsere Watermark-Smoothing-Methode die Wahrscheinlichkeit des nächsten Tokens, indem eine Mischung aus beiden Modellen verwendet wird, wobei das schwächere Modell für als wasserzeichenmarkiert identifizierte Tokens bevorzugt wird. Dies ermöglicht es dem Angreifer, die Entdeckung zu umgehen, während qualitativ hochwertigerer Text im Vergleich zum schwächeren Modell erzeugt wird.
Watermarking-Techniken
Watermarking-Techniken führen kleine Verschiebungen in den Chancen ein, Tokens auszuwählen, damit ein Detektionsalgorithmus diese Verschiebungen in einer langen Token-Sequenz finden kann, während sie für menschliche Leser unsichtbar bleiben. In dieser Methode erhöht der Watermarking-Algorithmus die Chancen, bestimmte Tokens zu sampeln. Dies kann auf verschiedene Arten erreicht werden. Eine gängige Methode besteht darin, einige Tokens auszuwählen, die die grüne Liste (oder die wasserzeichenmarkierte Menge) bilden, und ihre zugewiesenen Werte zu erhöhen, während andere Tokenwerte unverändert bleiben.
Bei der Generierung des nächsten Tokens kann der Auswahlprozess für grüne Tokens von den vorherigen Tokens abhängen. Auf diese Weise wird ein Wasserzeichen in den ausgewählten Tokens eingebettet, was die Ausgabe zugunsten der Tokens der grünen Liste verzerrt. Das wasserzeichenmarkierte Modell wird als "W" gekennzeichnet. Angesichts des zufälligen Prozesses zur Erstellung der grünen Liste und einer Token-Sequenz der Länge "n" sucht ein Detektionsalgorithmus nach Anzeichen für zu viele wasserzeichenmarkierte Tokens. Wenn ein nicht wasserzeichenmarkierter Text vorhanden ist, ist es unwahrscheinlich, dass er fälschlicherweise als wasserzeichenmarkiert eingestuft wird, aufgrund der Zufälligkeit der grünen und roten Listen.
Wenn der generierte Text frei von Wasserzeichen ist, erwarten wir, dass die Anzahl der grünen Tokens im Text, bezeichnet als "g", nahe bei "k" liegt, wobei "k" die erwartete Anzahl für jede Sequenz der Länge "n" ist. Der Detektionsalgorithmus berechnet einen Wert namens z-Score. Wenn dieser Wert eine spezifische Schwelle überschreitet, wird die Sequenz als wasserzeichenmarkiert klassifiziert.
Die Teilung in grüne und rote Listen hängt von einem Kontext der vorherigen "k" Tokens ab. Eine kontextunabhängige Teilung wird als Unigram-Watermark bezeichnet, während eine Teilung, die nur vom letzten Token abhängt, als 2-Gramm-Watermark bezeichnet wird. Die Kontextlänge kann weiter erhöht werden. Eine Methode namens Self-Hash berücksichtigt sowohl vorherige Tokens als auch das Token, das gerade generiert wird.
Problemstellung
Unser Ziel ist es, die Stärke statistischer Wasserzeichen zu analysieren. Dazu erstellen wir einen Angriffsalgorithmus, der Text generiert, der dem ähnelt, was das ursprüngliche nicht wasserzeichenmarkierte Modell produzieren würde, während es den Wasserzeichen-Detektor umgeht.
Wir nehmen an, dass der Angreifer vollständigen Zugriff auf ein schwächeres Modell hat, das als Referenzmodell bezeichnet wird. In realen Szenarien sollte dieses Referenzmodell weniger leistungsfähig sein als das Zielmodell, da der Angreifer sonst wenig Grund hätte, das wasserzeichenmarkierte Modell anzugreifen. Mit dem Referenzmodell kann der Angreifer Text für jedes Prompt während des Textgenerierungsprozesses erzeugen. Der Angreifer nutzt das Ranking der Tokens, um auf das wasserzeichenmarkierte Modell zuzugreifen. Wir gehen davon aus, dass der Angreifer den verwendeten Watermarking-Algorithmus kennt, einschliesslich der Kontextlänge, jedoch keine Informationen über die Werte der Wasserzeichenverschiebung oder den Anteil der grünen Tokens hat.
Angriffsrahmen
Unser Angriffsrahmen hat zwei Phasen. In der ersten Phase identifiziert der Angreifer die grüne Liste und damit die Wasserzeichen. In der zweiten Phase glättet der Angreifer die Wasserzeichen, indem er die Wahrscheinlichkeit, grüne Tokens auszuwählen, an das Referenzmodell anpasst, was zu wasserzeichenfreiem Text führt, während eine hohe Qualität erreicht wird, die Text simuliert, der vom Zielmodell erzeugt wurde.
Phase I: Wasserzeichen-Inferenz
Die zentrale Idee ist, dass vernünftige Sprachmodelle, gegeben den Kontext des Präfixes, dazu tendieren, sich über die besten Tokens, die verwendet werden sollen, einig zu sein. Zum Beispiel, wenn man aufgefordert wird mit "Warum der Himmel ist," sollte die Wahrscheinlichkeit des Tokens "blau" viel höher sein als die anderer wie "@." Anders gesagt, die Rankings von Tokens zwischen der vom Wasserzeichen betroffenen und der unmarkierten Referenzmodellen sollten ähnlich sein. Es ist unüblich, dass Modelle bei einem bestimmten Token über viele Präfixe hinweg konsequent uneinig sind. Im Gegensatz dazu drückt die Wasserzeichen-Perturbation das Wasserzeichenmodell die grünen Tokens nach oben und zieht die roten Tokens nach unten, unabhängig von der Bedeutung des Präfixes. Diese konsistente Verschiebung kann erkannt werden, indem die Ränge von Tokens im wasserzeichenmarkierten Modell mit denen in einem beliebigen unmarkierten Referenzmodell verglichen werden.
Unser Ansatz beginnt damit, die Uneinigkeit zwischen den beiden Modellen in Bezug auf die Platzierung der Tokens zu bewerten. Hier kommt die Rangkorrelation ins Spiel. Wir werden überprüfen, wie ähnlich oder unterschiedlich die Rankings zwischen den beiden Modellen sind. Die Idee der Rangkorrelation wurde umfassend untersucht. Insbesondere misst die Spearman-Korrelation die Summe der quadrierten Unterschiede zwischen den Rängen der Tokens.
Um das Wasserzeichen genau zu erkennen, müssen wir bewerten, wie viel jeder Token zur Korrelation beiträgt. Dieser Schritt ist entscheidend, da grüne und rote Tokens die Rankings unterschiedlich beeinflussen - sie bewegen grüne Tokens nach oben, während sie rote Tokens nach unten ziehen. Durch die Berücksichtigung, wie jeder Token die Rankings beeinflusst, können wir die gegensätzlichen Verschiebungen identifizieren. Der Unterschied in den Rankings für jeden Token dient als Indikator dafür, ob er grün oder rot ist.
Die relative Position misst, wie ein Token im Vergleich zu allen anderen eingestuft wird, bewertet durch das Modell während jedes Schrittes. Ein höherer Score wird Tokens gegeben, die wahrscheinlicher ausgewählt werden. Verschiedene Metriken können verwendet werden, um die relative Position zu messen. Wenn der Angreifer Ausgabewahrscheinlichkeiten für alle Tokens hat, kann der Standardwert als relative Position dienen, die angibt, wie viele Standardabweichungen die Wahrscheinlichkeit eines Tokens von der Durchschnittswahrscheinlichkeit abweicht. Wenn nur die besten “m” Tokens sichtbar sind, kann der Angreifer eine Technik namens Logit-Bias verwenden, die Anpassungen für jeden Token ermöglicht, was eine vollständige Rangliste aller Tokens ergibt.
Der Unterschied in der relativen Position misst, wie der Rang eines Tokens im wasserzeichenmarkierten Modell im Vergleich zu seinem Rang im Referenzmodell abweicht. Diese Metrik ist entscheidend, da das Wasserzeichen grüne und rote Tokens in entgegengesetzte Richtungen verschiebt. Für grüne Tokens wird dieser Unterschied grösser sein, während er für rote Tokens kleiner ist.
Um die Auswirkungen von Modellen zu mildern, fragt der Angreifer beide Modelle mit verschiedenen Präfixen an. Die grüne Liste hängt von vorherigen Tokens ab, sodass bei festen vorherigen Tokens die durch das Wasserzeichen induzierten Verschiebungen konstant bleiben. Die verschiedenen Antworten der beiden Modelle basierend auf verschiedenen Präfixen ermöglichen es dem Angreifer, die Unterschiede in der relativen Position zu mitteln, während die letzten “k” Tokens unverändert bleiben.
Der Wasserzeichen-Inferenz-Score wird als der durchschnittliche Unterschied in der relativen Position über mehrere Präfixe definiert. Ein Token wird als grün vorhergesagt, wenn dieser Score eine Schwelle überschreitet, andernfalls wird er rot markiert.
Phase II: Wasserzeichen-Glättung
Nachdem die grüne Liste erhalten wurde, besteht der nächste Schritt darin, die Ausgabeverteilung des nicht wasserzeichenmarkierten Modells zu schätzen. Das Ziel ist es, die im Logit vorhandene Wasserzeichen-Verschiebung zu entfernen.
In einem idealen Szenario - in dem der Inferenzscore für grüne Tokens viel höher ist als der für rote Tokens und der Angreifer die genauen Werte des Anteils an grünen Tokens und der Verschiebung kennt, die auf ihre Logits angewendet wurde - würde der Angreifer einfach die Logits der besten “m” Tokens mit den höchsten Inferenzscores reduzieren. Das ist jedoch nicht möglich, wenn diese Werte unbekannt bleiben.
Unser Angriff macht weiche Vorhersagen über die Identitäten der Tokens. Insbesondere beurteilt der Angreifer, wie wahrscheinlich es ist, dass jeder Token in der grünen Liste ist, indem er seinen Score mit denen anderer Tokens vergleicht. Wenn der Angreifer zwei Tokens in der Top-Gruppe basierend auf dem Inferenzscore vergleicht, könnte er sich sicherer fühlen, dass ein Token grün ist, wenn sein Score höher ist als der des anderen.
Für jeden Token definiert der Angreifer seine Inferenz-Konfidenz als eine Metrik, die zeigt, wie sicher er sich über den Status eines Tokens ist. Mit dieser Konfidenz wählt der Angreifer, ob er das Logit vom wasserzeichenmarkierten Modell oder dem Referenzmodell verwenden möchte. Wenn der Angreifer sich sehr sicher ist, dass ein Token grün ist, verwendet er mehr Ausgabewahrscheinlichkeit aus dem Referenzmodell anstelle des wasserzeichenmarkierten. Dies erstellt ein gemischtes Set von Logits für das nächste Token, indem die Werte aus den beiden Modellen auf spezifische Weise kombiniert werden.
Obwohl dieser Ansatz zur Kombination von Logits einfach erscheinen mag, wird seine Effektivität durch gründliche Bewertungen hervorgehoben. Wenn beide Modelle aus einer idealen Parameterverteilung für Sprachmodelle arbeiten, kann dieser Vorgang die Varianz des Samplings sowie die durch die Wasserzeichenverschiebung verursachte Verzerrung reduzieren. Dies führt zu qualitativ hochwertigem Text und vermeidet gleichzeitig die Wasserzeichen-Erkennung.
Effektivität des Angriffs
Die Effektivität unseres Angriffs, Wasserzeichen zu entfernen und gleichzeitig die Textqualität hoch zu halten, wird in diesem Abschnitt demonstriert. Die Experimente werden auf zwei leistungsstarken GPUs durchgeführt, wobei spezifische Modelle und Datensätze für die Tests verwendet werden.
Für unsere Haupttests nutzen wir Llama2-7B-Chat als Zielmodell und TinyLlama-1.3B als Referenzmodell. Die Vokabelgrösse für diese Modelle wird ebenfalls definiert. Wir evaluieren auch OPT-6.8B als Zielmodell mit dem schwächeren Modell OPT-125m als Benchmark. Sowohl Unigram- als auch 2-Gramm-Watermark-Techniken werden in unserer Studie berücksichtigt.
Textqualität und Wasserzeichenstärke
Wir verwenden Metriken, um die Qualität des von verschiedenen Quellen erzeugten Textes zu bewerten. Perplexität ist eine solche Massnahme, die misst, wie wahrscheinlich ein Text unter einem Sprachmodell produziert wird. Ein Oracle-Modell wird für diese Messung verwendet. Wir berechnen auch die Perplexität basierend auf dem nicht wasserzeichenmarkierten Modell, um zu überprüfen, wie gut der erzeugte Text mit dem Original übereinstimmt.
Der Detektionsalgorithmus berechnet den z-Score, um zu sehen, ob der Text vom wasserzeichenmarkierten Modell stammt. Ein höherer z-Score bedeutet, dass der Algorithmus eher geneigt ist, den Text als wasserzeichenmarkiert einzustufen. Ein niedrigerer z-Score deutet darauf hin, dass der Angriff effektiver war. Das Ziel ist es, eine niedrigere positive Vorhersagequote (PPR) zu erreichen, die den Anteil der Samples angibt, die der Algorithmus fälschlicherweise als wasserzeichenmarkiert klassifiziert.
Die Experimente zur Effektivität der Wasserzeichen-Inferenz gegen das Unigram-Watermark zeigen, dass der von uns entwickelte Inferenzscore grüne und rote Tokens effektiv trennt. Mit der Anzahl der Präfixe steigt der Bereich unter der Kurve für den Inferenzangriff. Mit zusätzlichen Abfragen kann der AUC beeindruckende Ergebnisse erzielen, was die Stärke unseres Wasserzeichen-Inferenzangriffs anzeigt.
Die Effektivität der Smoothing-Angriffe über verschiedene Datensätze und Modelle wurde getestet. Die Ergebnisse zeigen die Ergebnisse zur Textqualität, gemessen an der Perplexität, und zur Nachweisbarkeit, bewertet durch den z-Score. Die Vergleiche werden mit Text durchgeführt, der sowohl vom nicht wasserzeichenmarkierten Referenzmodell als auch vom wasserzeichenmarkierten Modell ohne Angriffe erzeugt wurde. Die Ergebnisse zeigen konstant, dass unser Angriff Text von höherer Qualität erzeugt, der der Entdeckung entgeht.
Unsere Methode entfernt effektiv Wasserzeichen-Spuren, trotz der Variationen in der Wasserzeichenstärke. Die Ergebnisse zeigen, dass unser Angriff eine hohe Qualität aufrechterhält und gleichzeitig den z-Score erheblich senkt, sogar niedriger als der des nicht wasserzeichenmarkierten Modells. Das bedeutet, dass der Wasserzeichen-Detektionsalgorithmus Schwierigkeiten hat, unseren erzeugten Text als wasserzeichenmarkiert zu klassifizieren, was auf einen erheblichen Erfolg des Angriffs hinweist.
Diskussion
Unsere Untersuchung hebt ernsthafte Schwächen in bestehenden Watermarking-Methoden im Licht der schnellen Fortschritte bei Sprachmodellen hervor. Die schnellen Veränderungen in den Fähigkeiten der Modelle werfen Fragen zur Widerstandsfähigkeit der aktuellen Techniken auf. Die praktischen Implikationen unserer Ergebnisse deuten darauf hin, dass viele Watermarking-Strategien neu bewertet und verbessert werden müssen, um einen verantwortungsvollen Einsatz von KI-Technologien zu gewährleisten.
Zukünftige Forschungen könnten darauf abzielen, robustere Watermarking-Methoden zu entwickeln, die solchen Smoothing-Angriffen standhalten können. Eine andere Richtung könnte sich auf die Begrenzung der für diese Angriffe benötigten Abfragen konzentrieren, was die Effizienz steigern könnte.
Fazit
Zusammenfassend präsentieren wir neuartige Smoothing-Angriffe, die Schwächen in bestehenden Watermarking-Techniken für grosse Sprachmodelle aufdecken. Indem wir ein schwächeres Referenzmodell nutzen, entfernt unser Ansatz effektiv Wasserzeichen und erhält gleichzeitig die Qualität des erzeugten Textes. Die Ergebnisse unterstreichen kritische Schwächen und fordern weitere Verbesserungen der Watermarking-Strategien, während sich das Feld weiter entwickelt.
Titel: Watermark Smoothing Attacks against Language Models
Zusammenfassung: Watermarking is a technique used to embed a hidden signal in the probability distribution of text generated by large language models (LLMs), enabling attribution of the text to the originating model. We introduce smoothing attacks and show that existing watermarking methods are not robust against minor modifications of text. An adversary can use weaker language models to smooth out the distribution perturbations caused by watermarks without significantly compromising the quality of the generated text. The modified text resulting from the smoothing attack remains close to the distribution of text that the original model (without watermark) would have produced. Our attack reveals a fundamental limitation of a wide range of watermarking techniques.
Autoren: Hongyan Chang, Hamed Hassani, Reza Shokri
Letzte Aktualisierung: 2024-07-19 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.14206
Quell-PDF: https://arxiv.org/pdf/2407.14206
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.