Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Ein neuer Ansatz zur Reduzierung von toxischer Sprache in KI-Modellen

Diese Studie stellt eine Methode vor, um schädliche Ausgaben in grossen Sprachmodellen zu begrenzen.

― 8 min Lesedauer


Entgiftende SprachmodelleEntgiftende Sprachmodelletoxischen Inhalt von KI-Ausgaben.Neue Methode reduziert effektiv den
Inhaltsverzeichnis

Grosse Sprachmodelle haben gute Ergebnisse bei Aufgaben mit natürlicher Sprache gezeigt. Allerdings können diese Modelle manchmal schädliche Inhalte erzeugen, wie Beleidigungen, Bedrohungen und schlechtes Vokabular, wenn sie mit bestimmten Eingabeaufforderungen gefüttert werden. Das ist eine grosse Einschränkung für ihren Einsatz in der realen Welt. Um dieses Problem zu lösen, wurden verschiedene Methoden entwickelt, um toxische Ausgaben zu reduzieren. Viele dieser Methoden erfordern zusätzliche Ressourcen, wie hochwertige Trainingsdaten oder zusätzliche Modelle.

Einleitung

Grosse Sprachmodelle, wie die GPT- und Llama-Serien, glänzen bei vielen Aufgaben der natürlichen Sprache. Allerdings können sie Inhalte produzieren, die beleidigend oder toxisch sind, was Bedenken hinsichtlich ihrer Sicherheit in Anwendungen aufwirft. Es ist wichtig, Wege zu finden, um die Produktion solcher schädlichen Texte zu begrenzen, was wir als Entgiftung bezeichnen.

Forscher konzentrieren sich zunehmend darauf, sicherzustellen, dass grosse Sprachmodelle sichere Inhalte erzeugen. Zu den gängigen Techniken gehört das weitere Trainieren des Modells auf nicht-toxischen Datensätzen. Während diese Methode helfen kann, schädliche Ausgaben zu reduzieren, erfordert sie viel Rechenleistung und kann die Fähigkeit des Modells, bei anderen Aufgaben zu funktionieren, einschränken.

Eine andere Methode ändert die Wahrscheinlichkeit, toxische Wörter während des Textgenerierungsprozesses zu erzeugen. Obwohl dies kein zusätzliches Training benötigt, benötigt es ein zusätzliches leitendes Modell, um die Wahrscheinlichkeiten der Wörter anzupassen. Ausserdem benötigt dieses zusätzliche Modell während des Generierungsprozesses Speicherplatz.

Eine einfachere Methode nutzt Eingabeaufforderungen, um das interne Wissen des Modells darüber zu lenken, was toxisch ist. Es ist jedoch nicht viel darüber bekannt, wie diese Sicherheitsaufforderungen funktionieren, was die Fähigkeit einschränkt, sie zur Sicherheit der Nutzer zu verbessern.

In dieser Arbeit schlagen wir einen Weg vor, um Texte ohne zusätzliches Training oder Daten zu entgiften, indem wir selbstgenerierte Präfixe verwenden. Unser Ansatz basiert auf drei Beobachtungen:

  1. Die Texte, die von grossen Sprachmodellen produziert werden, spiegeln ihre eingebaute Toxizität wider. Sie können einige der toxischen Inhalte identifizieren, die sie erzeugen.
  2. Das Hinzufügen positiver Präfixe (sichere Anweisungen) oder negativer Präfixe (unsichere Anweisungen) zu Eingabeaufforderungen kann das Modell dazu bringen, sichere oder schädliche Texte zu erstellen. Die Art und Weise, wie Informationen im Modell fliessen, kann dabei helfen.
  3. Jede Eingabeaufforderung kann mit mehreren negativen Präfixen in Verbindung stehen. Das bedeutet, dass wir verschiedene Vektoren erstellen können, um verschiedene Arten von Toxizität darzustellen. Durch die Kombination dieser Vektoren können wir ein breiteres Spektrum potenziell schädlichen Verhaltens abdecken.

Das Ziel ist es, einen Entgiftungsprozess zu schaffen, der die rohe Eingabeaufforderung verwendet und sie mit einem fusionierten Toxizitätsvektor kombiniert, um die Ausgabe des Modells anzupassen.

Vorgeschlagene Methode

Wir stellen ein Entgiftungsrahmenwerk vor, das als Feinabgestimmte Entgiftung über Instanz-Levels-Präfixe (FGDILP) bezeichnet wird. Diese Methode verwendet Instanz-Level-Präfixe, die sowohl negative als auch positive Präfixe enthalten, um den Entgiftungsprozess zu verbessern. Unsere Methode umfasst folgende Schritte:

  1. Das Modell erzeugt mehrere Ausgaben basierend auf einer rohen Eingabeaufforderung.
  2. Jede Ausgabe wird bewertet, ob sie toxisch oder nicht-toxisch ist, wodurch ein Satz von Präfixen entsteht.
  3. Diese Präfixe werden kombiniert und genutzt, um Vektoren zu erstellen, die verschiedene schädliche Verhaltensweisen darstellen.
  4. Der Entgiftungsprozess wird durch diese kombinierten Vektoren geleitet.

Generieren von Instanz-Level-Präfixen

Mit einem grossen Sprachmodell und einer gegebenen Eingabeaufforderung können wir verschiedene Texte sampeln. Dann kategorisieren wir diese Texte in negative (toxische) und positive (nicht-toxische) Präfixe, indem wir das Modell fragen, ob der Text bestimmte Arten von Toxizität enthält. Die Wahrscheinlichkeit, dass ein Text toxisch ist, hilft uns, die Präfixe zu identifizieren.

Wir wählen die toxischen Texte mit der höchsten Wahrscheinlichkeit für jede Art von Toxizität als negative Präfixe aus, während die am wenigsten toxischen Texte als positive Präfixe dienen.

Verwendung von Subtoxizitätsvektoren

Um Toxizität effektiv zu mildern, erstellen wir eine Reihe von Vektoren. Jeder negative Präfix wird mit einem positiven Präfix verglichen, um diese Vektoren zu generieren. Die Vektoren spiegeln verschiedene Arten von Toxizität wider, die basierend auf den Eingaben auftreten können.

Jede Schicht des Modells hat einen Aufmerksamkeitsmechanismus, der bei der Verarbeitung dieser Vektoren hilft. Wir kombinieren die Darstellungen der negativen Eingaben und der positiven Eingabe, um mehrere Subtoxizitätsvektoren zu bilden.

Kombination von Subtoxizitätsvektoren

Subtoxizitätsvektoren beeinflussen, wie das Modell Ausgaben in verschiedenen toxischen Kategorien erzeugt. Es kann redundante oder widersprüchliche Informationen unter diesen Vektoren geben. Um damit umzugehen, schlagen wir drei Operationen vor:

  1. Maskierung: Nur die Topwerte in den Vektoren behalten und niedrigere Werte auf null setzen.
  2. Symbolisierung: Einen Signaturvektor basierend auf dem maximalen Wert unter den Vektoren erstellen, um die Entgiftung zu leiten.
  3. Ausrichtung: Für jedes Element im fusionierten Vektor die passenden Werte zum Zeichen beibehalten und dann den höchsten Wert nehmen.

Zusammen helfen diese Schritte dabei, die mehreren Subtoxizitätsvektoren in einen endgültigen Vektor zu fusionieren, der bei der Reduzierung der Toxizität hilft.

Entgiftungsprozess

Während der generierte Text durch das Modell fliesst, zielt unser Ansatz darauf ab, die toxischen Aspekte in der Ausgabe zu reduzieren, indem er sie von schädlichen Richtungen ablenkt. Der entgiftete Vektor wird erstellt, indem die Ausgabe des Modells mit verschiedenen Präfixen verglichen wird. Wir führen Parameter ein, um das Mass der Entgiftung zu steuern.

Bewertung der Methode

Wir haben unsere Methode mit mehreren bestehenden Techniken verglichen, einschliesslich Feintuning, dekodierungsbasierten und promptbasierten Methoden. Unsere Methode wurde an zwei Datensätzen getestet, RealToxicityPrompts und FFT.

Datensatzdetails

  • RealToxicityPrompts: Dieser Datensatz besteht aus 100.000 Eingabeaufforderungen, die aus Online-Texten abgeleitet wurden. Wir haben diese auf etwa 9.900 gefiltert und sie basierend auf ihren Toxizitätswerten kategorisiert.
  • FFT-Datensatz: Dieser Datensatz befasst sich mit kontextueller Toxizität und umfasst komplexere Beziehungen, bei denen nicht-toxische Ausgaben basierend auf dem Kontext toxisch werden können.

Automatische Bewertung

Um unsere Entgiftungsmethode zu bewerten, verwenden wir drei Hauptmetriken: Toxizität, Flüssigkeit und Diversität. Mithilfe von Tools wie der Perspective API messen wir Toxizität in Bezug auf die erwartete maximale Toxizität und die allgemeine Toxizitätswahrscheinlichkeit. Flüssigkeit wird durch Perplexität analysiert, und die Diversität wird basierend auf der Vielfalt der in dem generierten Text vorhandenen n-Gramm bewertet.

Ergebnisse

Unsere Methode zeigte signifikante Verbesserungen bei der Reduzierung von Toxizität im Vergleich zu allen Basislinienmethoden. Während sie mit leichten Rückgängen in der Flüssigkeit und Diversität einherging, blieb die Entgiftungseffektivität stark.

Menschliche Bewertung

Angesichts der Einschränkungen der automatischen Bewertung haben wir eine menschliche Bewertung implementiert. Menschliche Bewerter bewerteten die generierten Texte basierend auf Toxizität, Flüssigkeit und Kohärenz. Die Ergebnisse zeigten, dass unsere Methode oft besser abschnitt als andere bei der Reduzierung von schädlicher Sprache und gleichzeitig ein gutes Niveau an Flüssigkeit beibehielt.

Effektivität der Instanz-Level-Präfixe

Der Selbstdiagnoseprozess hat gezeigt, dass die von Sprachmodellen erzeugten Texte die feinkörnige Subtoxizität widerspiegeln, die durch verschiedene Eingabeaufforderungen ausgelöst wird. Diese Fähigkeit zur Selbstdiagnose und zur Generierung von Präfixen ist entscheidend für eine effektive Entgiftung.

Analyse der Toxizitätsvektoren

Während unserer Studien fanden wir heraus, dass das Beibehalten nur der wichtigsten Werte in den Toxizitätsvektoren den Entgiftungsprozess verbesserte. Widersprüchliche Zeichen innerhalb dieser Vektoren können den Prozess erheblich beeinflussen. Die Behebung dieser Konflikte war entscheidend für eine erfolgreiche Fusion von Toxizitätsvektoren.

Abschliessende Gedanken

Obwohl unser Ansatz vielversprechende Ergebnisse bei der Entgiftung von Sprachmodellen zeigte, steht er weiterhin vor Einschränkungen. Die Fähigkeit, schädliche Inhalte zuverlässig zu reduzieren, bleibt eine Herausforderung. Die Methode zielt auf kurzfristige Effektivität ab, während sie weitere Verfeinerungen benötigt, bevor sie in realen Anwendungen praktisch eingesetzt werden kann.

Zukünftige Arbeiten

Zukünftige Forschungen werden sich darauf konzentrieren, die Fähigkeit der Methode zu verbessern, verschiedene Arten von Toxizität zu erkennen, die möglicherweise während des Pre-Trainings nicht abgedeckt werden. Darüber hinaus werden wir alternative Bewertungsmethoden erkunden, um zuverlässigere Bewertungen der Toxizität in den generierten Ausgaben zu gewährleisten.

Fazit

Die Feinabgestimmte Entgiftung über Instanz-Levels-Präfixe (FGDILP) bietet einen neuartigen Ansatz zur Minderung toxischer Sprache in grossen Sprachmodellen. Unsere Methode nutzt effektiv selbstgenerierte Präfixe, um den Entgiftungsprozess zu leiten und zeigt signifikante Verbesserungen gegenüber bestehenden Methoden. Da Sprachmodelle zunehmend in verschiedene Anwendungen integriert werden, wird es wichtig, sicherzustellen, dass ihre Ausgaben sicher sind. Unser Ansatz ist ein Schritt in diese Richtung, und weitere Entwicklungen werden darauf abzielen, die verbleibenden Herausforderungen in diesem kritischen Bereich anzugehen.

Originalquelle

Titel: Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models

Zusammenfassung: Impressive results have been achieved in natural language processing (NLP) tasks through the training of large language models (LLMs). However, these models occasionally produce toxic content such as insults, threats, and profanity in response to certain prompts, thereby constraining their practical utility. To tackle this issue, various finetuning-based and decoding-based approaches have been utilized to mitigate toxicity. However, these methods typically necessitate additional costs such as high-quality training data or auxiliary models. In this paper, we propose fine-grained detoxification via instance-level prefixes (FGDILP) to mitigate toxic text without additional cost. Specifically, FGDILP contrasts the contextualized representation in attention space using a positive prefix-prepended prompt against multiple negative prefix-prepended prompts at the instance level. This allows for constructing fine-grained subtoxicity vectors, which enables collaborative detoxification by fusing them to correct the normal generation process when provided with a raw prompt. We validate that FGDILP enables controlled text generation with regard to toxicity at both the utterance and context levels. Our method surpasses prompt-based baselines in detoxification, although at a slight cost to generation fluency and diversity.

Autoren: Xin Yi, Linlin Wang, Xiaoling Wang, Liang He

Letzte Aktualisierung: 2024-02-25 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2402.15202

Quell-PDF: https://arxiv.org/pdf/2402.15202

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel