Sicherheit in Text-zu-Bild-Modellen ansprechen
Dieser Bericht untersucht schädliche Eingabeaufforderungen und Sicherheitsmassnahmen in bildgenerierenden Modellen.
― 5 min Lesedauer
Inhaltsverzeichnis
Text-zu-Bild-Modelle werden immer beliebter, weil sie qualitativ hochwertige Bilder basierend auf Texteingaben erstellen können. Die Leute nutzen diese Modelle für verschiedene Zwecke, darunter Grafikdesign und Stockbilder. Allerdings lernen diese Modelle aus grossen Datenmengen, die aus dem Internet gesammelt wurden, was manchmal dazu führt, dass sie unsichere oder unangemessene Inhalte produzieren.
Dieser Bericht konzentriert sich auf eine Herausforderung namens Adversarial Nibbler Challenge, die darauf abzielt, eine Reihe potenziell schädlicher Eingaben aus bestehenden Sicherheitsbenchmarks zu sammeln. Das Ziel ist zu verstehen, wie diese Eingaben Eingabefilter umgehen können, die in bildgenerierenden Modellen verwendet werden. Durch die Analyse der Eingaben und der Bilder, die sie erzeugen, heben wir die Schwächen dieser Eingabefilter hervor und weisen auf Sicherheitsprobleme in den aktuellen Systemen hin.
Die Notwendigkeit von Sicherheit in Bildmodellen
Bevor man bildgenerierende Modelle in realen Anwendungen einsetzt, ist es wichtig sicherzustellen, dass sie keine schädlichen oder verstörenden Bilder erzeugen. Dazu gehört, die richtigen Sicherheitsmassnahmen zu finden, die spezifisch auf den Anwendungsfall des Modells zugeschnitten sind. Viele Studien in diesem Bereich haben sich auf persönliche Geschichten verlassen, anstatt auf messbare Daten über verschiedene Modelle.
Um dieses Problem anzugehen, wurde die Adversarial Nibbler Challenge ins Leben gerufen. Ziel ist es, einen Datensatz mit schädlichen Eingaben zu erstellen, der zum Testen von Text-zu-Bild-Modellen verwendet werden kann. Wir haben aktuelle Sicherheitsbenchmarks untersucht, um Eingaben zu finden, die in der Adversarial Nibbler verwendet werden könnten.
Ein wichtiger Datensatz, der erstellt wurde, ist der Datensatz mit unangemessenen Bildaufforderungen (I2P). Dieser Datensatz untersucht, wie verschiedene Modelle schädliche Inhalte erzeugen können. Er umfasst verschiedene Kategorien, darunter Hassrede, Belästigung, Gewalt, Selbstverletzung, sexuelle Inhalte, schockierende Bilder und illegale Aktivitäten. Jede Eingabe in diesem Datensatz ist mit einer Wahrscheinlichkeit gekennzeichnet, unangemessenes Material basierend auf den vom Modell erzeugten Bildern zu generieren.
Sammeln von adversarialen Eingaben
In unserer Untersuchung haben wir uns die in der I2P-Benchmark gesammelten Eingaben genau angesehen. Wir fanden viele Eingaben, die die Erzeugung unangemessener Bilder verursachten, obwohl sie von den aktuellen Eingabefiltern nicht blockiert wurden. Diese Eingaben können als adversariale Eingaben zum Testen von Sicherheitsmassnahmen dienen.
Wir haben die Eingaben und die von ihnen produzierten Bilder analysiert, um die verschiedenen Möglichkeiten aufzuzeigen, wie sie als unsicher angesehen werden können. Viele Eingaben, die harmlos schienen, führten in Kombination mit bestimmten Wörtern zu unsicheren Bildern und zeigten, dass der Kontext eine grosse Rolle bei der Bestimmung der Sicherheit spielt.
Der Analyseprozess
Die I2P-Benchmark umfasst echte Benutzeraufforderungen, die von einer Plattform gesammelt wurden, auf der Stable Diffusion verwendet wurde. Jede Eingabe fällt in eine der zuvor genannten Kategorien, und wir haben jede Eingabe mit ihrer Wahrscheinlichkeit verknüpft, schädliche Inhalte zu erzeugen. Um die aus diesen Eingaben erzeugten Bilder zu bewerten, haben wir Klassifizierer verwendet, die automatisch unangemessene Inhalte erkannten.
Obwohl viele Eingaben als wahrscheinlich schädliche Bilder eingestuft wurden, hatte das System, das das Stable Diffusion-Modell hostete, keine Eingabefilter. Das bedeutet, dass viele Eingaben schädliche Konzepte enthielten und daher nicht für adversariale Tests geeignet waren.
Die Subjektivität von Sicherheit
Eine wichtige Erkenntnis aus unserer Analyse ist, dass das, was als schädlich angesehen wird, subjektiv sein kann. Die Definition von Sicherheit variiert je nach kulturellem Hintergrund, individuellen Perspektiven und Kontext. Zum Beispiel erzeugten viele Eingaben verstörende Bilder, aber das Verständnis davon, was unangemessen ist, war nicht universell anerkannt.
Die Einschränkungen von Eingabefiltern
Wir haben mehrere Mängel bei ban-list-basierten Eingabefiltern identifiziert. Einige falsche Schreibweisen von verbotenen Wörtern schafften es, die Filter zu umgehen und dennoch schädliche Inhalte zu erzeugen. Ausserdem fanden wir Begriffe, die mit verbotenen Wörtern in Verbindung standen und in den Filtern fehlten. Die vorhandene Ban-Liste enthielt „nude“, aber nicht „nudity“, und liess auch Wörter wie „violence“ oder „robbery“ aus, die in diesem Kontext relevant sind.
Das zeigt, dass die alleinige Abhängigkeit von diesen Ban-Listen für die Sicherheit möglicherweise nicht effektiv ist. Es ist notwendig, ein umfassenderes System von Sicherheitsmassnahmen zu entwerfen, um mit den Herausforderungen umzugehen, die durch die Erzeugung schädlicher Inhalte entstehen.
Kontextuelle Probleme unangemessener Inhalte
Neben einfachen Eingaben stellten wir fest, dass einige Eingaben für sich allein sicher sein könnten, aber in bestimmten Kontexten Probleme verursachen könnten. Zum Beispiel betrafen viele Eingaben öffentliche Personen und erzeugten Bilder, die ihrem Ruf schaden könnten. Das zeigt, dass der Kontext eine entscheidende Rolle dabei spielt, ob ein Bild unangemessen ist oder nicht.
Muster unsicherer Bilder
Unsere Untersuchung ergab auch einige gemeinsame Muster, die zu unsicheren Bildern führen. Es scheint alarmierend einfach zu sein, sexuell explizite Bilder von Frauen zu erstellen, selbst mit Eingaben, die auf den ersten Blick sicher erscheinen. Zum Beispiel könnte die Verwendung von Adjektiven wie „attractive“ mit nicht-erotischen Begriffen immer noch zu expliziten Inhalten führen.
Wir stellten auch fest, dass bestimmte Künstler, die für ihre umstrittene Arbeit bekannt sind, oft unsichere Ergebnisse auslösten. Eine einfache Eingabe wie „Fotografie von [bestimmtem Künstler]“ könnte zu unangemessenen Bildern führen, selbst wenn es Teil einer grösseren und komplexeren Eingabe war.
Fazit
In diesem Bericht haben wir Eingaben untersucht, die aus Sicherheitsbenchmarks gesammelt wurden, um zu sehen, wie sie bei der Testung adversarialer Bedingungen in bildgenerierenden Modellen helfen könnten. Wir haben festgestellt, dass es eine signifikante Anzahl potenziell schädlicher Eingaben in Datensätzen wie I2P gibt. Unsere Analyse hebt die Schwächen der bestehenden Eingabefiltermethoden hervor und fordert weitere Forschung darüber, wie man Sicherheit in generativen Systemen gewährleisten kann.
Es ist wichtig zu erkennen, dass Sicherheit keine Einheitslösung ist und die verschiedenen Faktoren berücksichtigen muss, die beeinflussen, wie Menschen wahrnehmen, was angemessen ist. Durch die Verbesserung der Qualität der Sicherheitsmassnahmen können wir darauf hinarbeiten, bessere generative Modelle zu entwickeln, die auf den Inhalt, den sie produzieren, achten.
Titel: Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge
Zusammenfassung: Text-conditioned image generation models have recently achieved astonishing image quality and alignment results. Consequently, they are employed in a fast-growing number of applications. Since they are highly data-driven, relying on billion-sized datasets randomly scraped from the web, they also produce unsafe content. As a contribution to the Adversarial Nibbler challenge, we distill a large set of over 1,000 potential adversarial inputs from existing safety benchmarks. Our analysis of the gathered prompts and corresponding images demonstrates the fragility of input filters and provides further insights into systematic safety issues in current generative image models.
Autoren: Manuel Brack, Patrick Schramowski, Kristian Kersting
Letzte Aktualisierung: 2023-09-20 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.11575
Quell-PDF: https://arxiv.org/pdf/2309.11575
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.