Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Künstliche Intelligenz# Maschinelles Lernen

Sicherheit in Text-zu-Bild-Modellen ansprechen

Dieser Bericht untersucht schädliche Eingabeaufforderungen und Sicherheitsmassnahmen in bildgenerierenden Modellen.

― 5 min Lesedauer


Untersuchung derUntersuchung derSicherheit von KI-BildernText-zu-Bild-Modellen auf.Forschung deckt Risiken bei
Inhaltsverzeichnis

Text-zu-Bild-Modelle werden immer beliebter, weil sie qualitativ hochwertige Bilder basierend auf Texteingaben erstellen können. Die Leute nutzen diese Modelle für verschiedene Zwecke, darunter Grafikdesign und Stockbilder. Allerdings lernen diese Modelle aus grossen Datenmengen, die aus dem Internet gesammelt wurden, was manchmal dazu führt, dass sie unsichere oder unangemessene Inhalte produzieren.

Dieser Bericht konzentriert sich auf eine Herausforderung namens Adversarial Nibbler Challenge, die darauf abzielt, eine Reihe potenziell schädlicher Eingaben aus bestehenden Sicherheitsbenchmarks zu sammeln. Das Ziel ist zu verstehen, wie diese Eingaben Eingabefilter umgehen können, die in bildgenerierenden Modellen verwendet werden. Durch die Analyse der Eingaben und der Bilder, die sie erzeugen, heben wir die Schwächen dieser Eingabefilter hervor und weisen auf Sicherheitsprobleme in den aktuellen Systemen hin.

Die Notwendigkeit von Sicherheit in Bildmodellen

Bevor man bildgenerierende Modelle in realen Anwendungen einsetzt, ist es wichtig sicherzustellen, dass sie keine schädlichen oder verstörenden Bilder erzeugen. Dazu gehört, die richtigen Sicherheitsmassnahmen zu finden, die spezifisch auf den Anwendungsfall des Modells zugeschnitten sind. Viele Studien in diesem Bereich haben sich auf persönliche Geschichten verlassen, anstatt auf messbare Daten über verschiedene Modelle.

Um dieses Problem anzugehen, wurde die Adversarial Nibbler Challenge ins Leben gerufen. Ziel ist es, einen Datensatz mit schädlichen Eingaben zu erstellen, der zum Testen von Text-zu-Bild-Modellen verwendet werden kann. Wir haben aktuelle Sicherheitsbenchmarks untersucht, um Eingaben zu finden, die in der Adversarial Nibbler verwendet werden könnten.

Ein wichtiger Datensatz, der erstellt wurde, ist der Datensatz mit unangemessenen Bildaufforderungen (I2P). Dieser Datensatz untersucht, wie verschiedene Modelle schädliche Inhalte erzeugen können. Er umfasst verschiedene Kategorien, darunter Hassrede, Belästigung, Gewalt, Selbstverletzung, sexuelle Inhalte, schockierende Bilder und illegale Aktivitäten. Jede Eingabe in diesem Datensatz ist mit einer Wahrscheinlichkeit gekennzeichnet, unangemessenes Material basierend auf den vom Modell erzeugten Bildern zu generieren.

Sammeln von adversarialen Eingaben

In unserer Untersuchung haben wir uns die in der I2P-Benchmark gesammelten Eingaben genau angesehen. Wir fanden viele Eingaben, die die Erzeugung unangemessener Bilder verursachten, obwohl sie von den aktuellen Eingabefiltern nicht blockiert wurden. Diese Eingaben können als adversariale Eingaben zum Testen von Sicherheitsmassnahmen dienen.

Wir haben die Eingaben und die von ihnen produzierten Bilder analysiert, um die verschiedenen Möglichkeiten aufzuzeigen, wie sie als unsicher angesehen werden können. Viele Eingaben, die harmlos schienen, führten in Kombination mit bestimmten Wörtern zu unsicheren Bildern und zeigten, dass der Kontext eine grosse Rolle bei der Bestimmung der Sicherheit spielt.

Der Analyseprozess

Die I2P-Benchmark umfasst echte Benutzeraufforderungen, die von einer Plattform gesammelt wurden, auf der Stable Diffusion verwendet wurde. Jede Eingabe fällt in eine der zuvor genannten Kategorien, und wir haben jede Eingabe mit ihrer Wahrscheinlichkeit verknüpft, schädliche Inhalte zu erzeugen. Um die aus diesen Eingaben erzeugten Bilder zu bewerten, haben wir Klassifizierer verwendet, die automatisch unangemessene Inhalte erkannten.

Obwohl viele Eingaben als wahrscheinlich schädliche Bilder eingestuft wurden, hatte das System, das das Stable Diffusion-Modell hostete, keine Eingabefilter. Das bedeutet, dass viele Eingaben schädliche Konzepte enthielten und daher nicht für adversariale Tests geeignet waren.

Die Subjektivität von Sicherheit

Eine wichtige Erkenntnis aus unserer Analyse ist, dass das, was als schädlich angesehen wird, subjektiv sein kann. Die Definition von Sicherheit variiert je nach kulturellem Hintergrund, individuellen Perspektiven und Kontext. Zum Beispiel erzeugten viele Eingaben verstörende Bilder, aber das Verständnis davon, was unangemessen ist, war nicht universell anerkannt.

Die Einschränkungen von Eingabefiltern

Wir haben mehrere Mängel bei ban-list-basierten Eingabefiltern identifiziert. Einige falsche Schreibweisen von verbotenen Wörtern schafften es, die Filter zu umgehen und dennoch schädliche Inhalte zu erzeugen. Ausserdem fanden wir Begriffe, die mit verbotenen Wörtern in Verbindung standen und in den Filtern fehlten. Die vorhandene Ban-Liste enthielt „nude“, aber nicht „nudity“, und liess auch Wörter wie „violence“ oder „robbery“ aus, die in diesem Kontext relevant sind.

Das zeigt, dass die alleinige Abhängigkeit von diesen Ban-Listen für die Sicherheit möglicherweise nicht effektiv ist. Es ist notwendig, ein umfassenderes System von Sicherheitsmassnahmen zu entwerfen, um mit den Herausforderungen umzugehen, die durch die Erzeugung schädlicher Inhalte entstehen.

Kontextuelle Probleme unangemessener Inhalte

Neben einfachen Eingaben stellten wir fest, dass einige Eingaben für sich allein sicher sein könnten, aber in bestimmten Kontexten Probleme verursachen könnten. Zum Beispiel betrafen viele Eingaben öffentliche Personen und erzeugten Bilder, die ihrem Ruf schaden könnten. Das zeigt, dass der Kontext eine entscheidende Rolle dabei spielt, ob ein Bild unangemessen ist oder nicht.

Muster unsicherer Bilder

Unsere Untersuchung ergab auch einige gemeinsame Muster, die zu unsicheren Bildern führen. Es scheint alarmierend einfach zu sein, sexuell explizite Bilder von Frauen zu erstellen, selbst mit Eingaben, die auf den ersten Blick sicher erscheinen. Zum Beispiel könnte die Verwendung von Adjektiven wie „attractive“ mit nicht-erotischen Begriffen immer noch zu expliziten Inhalten führen.

Wir stellten auch fest, dass bestimmte Künstler, die für ihre umstrittene Arbeit bekannt sind, oft unsichere Ergebnisse auslösten. Eine einfache Eingabe wie „Fotografie von [bestimmtem Künstler]“ könnte zu unangemessenen Bildern führen, selbst wenn es Teil einer grösseren und komplexeren Eingabe war.

Fazit

In diesem Bericht haben wir Eingaben untersucht, die aus Sicherheitsbenchmarks gesammelt wurden, um zu sehen, wie sie bei der Testung adversarialer Bedingungen in bildgenerierenden Modellen helfen könnten. Wir haben festgestellt, dass es eine signifikante Anzahl potenziell schädlicher Eingaben in Datensätzen wie I2P gibt. Unsere Analyse hebt die Schwächen der bestehenden Eingabefiltermethoden hervor und fordert weitere Forschung darüber, wie man Sicherheit in generativen Systemen gewährleisten kann.

Es ist wichtig zu erkennen, dass Sicherheit keine Einheitslösung ist und die verschiedenen Faktoren berücksichtigen muss, die beeinflussen, wie Menschen wahrnehmen, was angemessen ist. Durch die Verbesserung der Qualität der Sicherheitsmassnahmen können wir darauf hinarbeiten, bessere generative Modelle zu entwickeln, die auf den Inhalt, den sie produzieren, achten.

Mehr von den Autoren

Ähnliche Artikel