Sichere Sprachmodelle: Ein wettbewerbsfähiger Ansatz

Wettbewerb zeigt Schwächen und Abwehrmechanismen in der Sicherheit von Sprachmodellen.

2025-07-29T17:12:36+00:00 ― 3 min Lesedauer

Inhaltsverzeichnis

Wettbewerbssetup
Wettbewerbsergebnisse
Der Datensatz
Effektivste Verteidigungen
Effektivste Angriffe
Erkenntnisse
Fazit
Originalquelle
Referenz Links

Grosse Sprachmodell-Systeme stehen vor erheblichen Sicherheitsrisiken durch gezielt gestaltete Nachrichten, die darauf abzielen, die ursprünglichen Instruktionen des Systems zu überschreiben oder private Daten zu leaken. Um dieses Problem zu untersuchen, wurde bei IEEE SaTML 2024 ein Capture-the-Flag-Wettbewerb veranstaltet, bei dem es darum ging, einen geheimen String im LLM-System-Prompt zu schützen. Der Wettbewerb war in zwei Phasen unterteilt: die Verteidigungsphase, in der Teams Verteidigungen entwickelten, und die Angriffsphase, in der Teams versuchten, die Geheimnisse zu extrahieren.

Wettbewerbssetup

Der Wettbewerb nutzte eine Weboberfläche, auf der Teams ihre Verteidigungen erstellen und bearbeiten sowie mit dem Modell interagieren konnten. Jedes Team erhielt Credits, um die Modelle abzufragen. In der Verteidigungsphase ging es darum, Verteidigungen gegen Modelle wie GPT-3.5 und Llama-2 zu erstellen. Die Angriffsphase erlaubte es den Teams, ihre Verteidigungen zu testen.

Verteidigungsphase

Die Teams entwarfen Verteidigungen, die einen System-Prompt, einen Python-Filter und einen LLM-Filter beinhalteten. Die Verteidigungen sollten verhindern, dass das Modell das Geheimnis offenbart, während es gleichzeitig nützlich für nicht verwandte Prompts bleibt.

Angriffsphase

Während der Angriffsphase versuchten die Teams, die Verteidigungen zu brechen. Diese Phase hatte eine Aufklärungsstufe, in der Angreifer frei mit den Verteidigungen interagieren konnten, sowie eine Bewertungsstufe mit einer begrenzten Anzahl von bewerteten Interaktionen.

Wettbewerbsergebnisse

Am Wettbewerb nahmen 163 registrierte Teams teil, wobei 72 Verteidigungen eingereicht wurden. Es gab 137.063 einzigartige Chats in der Angriffsphase, und 35 Teams haben mindestens eine Verteidigung gebrochen. Ein Datensatz von über 137k Interaktionen wurde erstellt, um zukünftige Forschungen zu unterstützen.

Der Datensatz

Der Datensatz ist in Verteidigungen und Chats unterteilt. Der Verteidigungsbereich enthält Details zu akzeptierten Verteidigungen, während der Chatbereich Benutzerinteraktionen während der Angriffsphase enthält.

Datensatz-Exploration

Der Chat-Datensatz umfasst Gespräche von 65 verschiedenen Angriffs-Teams. Nur 4% der Einträge beinhalteten eine erfolgreiche Geheimnisextraktion. Die Analyse des Datensatzes liefert Einblicke in Angriffsstrategien und hebt die Bedeutung von mehrstufigen Gesprächen für erfolgreiche Angriffe hervor.

Effektivste Verteidigungen

Team Hestia: Nutzten Mock-Geheimnisse im System-Prompt als Ablenkungen und setzten strenge Filter ein, um das echte Geheimnis zu verschleiern.
Team RSLLM: Verbesserten den System-Prompt mit klaren Anweisungen, Geheimnisse nicht preiszugeben, und wenden effektive Ausgabefilter an.
Team WreckTheLine: Integrierten Ablenkungsgeheimnisse und verwendeten einen mehrstufigen Ansatz, der sowohl Sicherheit als auch Nützlichkeit fokussierte.

Effektivste Angriffe

Team WreckTheLine: Passten Angriffe an, um Schwächen in den Verteidigungen auszunutzen, einschliesslich der Verwendung von Synonymen und dem Vermeiden verbotener Wörter.
Team Shrug Face Shrug: Setzten eine Mischung aus harmlosen Anfragen und spezifischen Anfrageformaten ein, um Geheimnisse zu extrahieren.
Team Hestia: Formulierten Anfragen so, dass das Modell Geheimnisse indirekt preisgab.

Erkenntnisse

Wichtige Erkenntnisse aus dem Wettbewerb sind:

Adaptive Angriffe: Angriffe anzupassen, um spezifische Verteidigungen zu berücksichtigen, war entscheidend.
Mehrstufige Bewertung: Erfolgreiche Angriffe beruhten oft auf mehrstufigen Interaktionen, was die Notwendigkeit komplexer Bewertungsmethoden deutlich macht.
Filter-Herausforderungen: Effektives Filtern ist schwierig, da selbst einfache Setups von adaptiven Angreifern umgangen werden können.
Verteidigungs-Komplexität: Verteidigungen müssen verschiedene potenzielle Angriffsstrategien berücksichtigen, da Angreifer selbst geringfügige Schwächen ausnutzen können.

Fazit

Dieser Wettbewerb hat die fortwährenden Herausforderungen bei der Sicherung von LLMs gegen Angriffe durch Prompt-Injection hervorgehoben. Der erstellte Datensatz wird als wertvolle Ressource für zukünftige Forschungen dienen, die darauf abzielen, die Sicherheit von Sprachmodell-Systemen zu verbessern.

Sichere Sprachmodelle: Ein wettbewerbsfähiger Ansatz

Wettbewerb zeigt Schwächen und Abwehrmechanismen in der Sicherheit von Sprachmodellen.

#Wettbewerbssetup

#Verteidigungsphase

#Angriffsphase

#Wettbewerbsergebnisse

#Der Datensatz

#Datensatz-Exploration

#Effektivste Verteidigungen

#Effektivste Angriffe

#Erkenntnisse

#Fazit

Referenz Links

Referenzierte Themen