GAHD: Hassrede in deutschen Texten bekämpfen
Ein neuer Datensatz soll die Modelle zur Erkennung von Hassrede in der deutschen Sprache verbessern.
― 5 min Lesedauer
Inhaltsverzeichnis
- Die Herausforderung mit bestehenden Datensätzen
- Einführung eines neuen Datensatzes: GAHD
- Dynamische adversariale Datensammlung
- Der DADC-Prozess
- Die Bedeutung der Unterstützung für Annotatoren
- Ergebnisse der GAHD-Sammlung
- Bewertung der Modellleistung
- Einfluss von GAHD auf die Robustheit der Modelle
- Benchmarks gegen andere Modelle
- Einblicke aus der Studie
- Fazit und zukünftige Richtungen
- Originalquelle
- Referenz Links
Hassrede ist ein ernstes Problem, das Schaden und Stress für Einzelpersonen und Gemeinschaften verursachen kann. Online-Plattformen werden oft genutzt, um hasserfüllte Botschaften zu verbreiten, weshalb es wichtig ist, Systeme zu entwickeln, die solche Inhalte effektiv identifizieren und verwalten können. Hassrede-Erkennungsmodelle analysieren Texte, um schädliche Sprache zu kennzeichnen, die sich gegen bestimmte Gruppen oder Einzelpersonen aufgrund ihrer Merkmale wie Rasse, Religion oder Geschlecht richtet.
Die Herausforderung mit bestehenden Datensätzen
Viele Hassrede-Erkennungsmodelle basieren auf Datensätzen, die von sozialen Medien oder Kommentarbereichen gesammelt wurden. Diese Datensätze enthalten jedoch oft Vorurteile und Lücken. Solche Probleme können dazu führen, dass Modelle Hassrede falsch identifizieren oder überhaupt nicht erkennen. Das führt zu ineffektiven Modellen, die in der realen Welt nicht gut funktionieren.
Um diese Probleme anzugehen, suchen Forscher nach Methoden, um bessere Datensätze zu erstellen, insbesondere durch das Sammeln von adversarialen Beispielen. Das sind Beispiele, die speziell entwickelt wurden, um die Modelle herauszufordern, indem sie ihre Schwächen ausnutzen.
Einführung eines neuen Datensatzes: GAHD
In diesem Zusammenhang wurde ein neuer Datensatz namens GAHD erstellt, um die Hassrede-Erkennung speziell für die deutsche Sprache zu verbessern. Dieser Datensatz besteht aus rund 11.000 Beispielen adversarialen Textes. Der Sammelprozess umfasste mehrere Runden der Datensammlung, bei denen die Annotatoren beauftragt wurden, Beispiele zu erstellen, die die bestehenden Modelle verwirren würden.
Dynamische adversariale Datensammlung
Die Dynamische Adversariale Datensammlung (DADC) ist die Methode, die verwendet wurde, um die Daten für GAHD zu sammeln. Sie umfasst mehrere Runden, in denen Annotatoren Texte entwickeln, die ein Zielmodell dazu bringen, falsche Klassifikationen vorzunehmen. Das Modell wird dann mit den neu gesammelten Beispielen neu trainiert, was seine Leistung im Laufe der Zeit verbessert.
Der DADC-Prozess
Runde 1: Freie Erstellung von Beispielen
In der ersten Runde wurden die Annotatoren gebeten, Beispiele frei zu erstellen und zu versuchen, das Modell bestmöglich hereinzulegen. Diese Runde brachte eine Mischung aus Hassrede- und Nicht-Hassrede-Beispielen hervor, die half, einen ersten Datensatz zu etablieren.Runde 2: Validierung übersetzter Beispiele
In der zweiten Runde wurden übersetzte Beispiele aus einem englischen Datensatz verwendet. Die Annotatoren validierten diese Übersetzungen und entwickelten neue Beispiele basierend auf ihnen, was zu einem vielfältigeren Set von Einträgen führte.Runde 3: Zeitungsvalidierung
In der dritten Runde wurden Sätze aus deutschen Zeitungen analysiert. Jeder Satz, den das Modell fälschlicherweise als Hassrede klassifizierte, wurde von Annotatoren überprüft. Da von Nachrichtenartikeln erwartet wird, dass sie faktisch und neutral sind, zeigten viele dieser Fehlklassifikationen potenzielle Schwächen im Modell auf.Runde 4: Kontrastive Beispiele
In der letzten Runde erstellten die Annotatoren kontrastive Beispiele basierend auf zuvor gesammelten Einträgen. Dieser Prozess beinhaltete die Anpassung vorhandener Beispiele, um deren Labels umzudrehen, was die Vielfalt und Komplexität des Datensatzes erhöhte.
Die Bedeutung der Unterstützung für Annotatoren
Datensammlung kann herausfordernd und zeitaufwendig sein. Der Erfolg von DADC hängt weitgehend von der Kreativität und dem Einsatz der Annotatoren ab. Um ihre Effektivität zu erhöhen, führten die Forscher verschiedene Unterstützungsstrategien ein.
Diese Unterstützungsmassnahmen umfassten das Bereitstellen von Beispielanfragen, um die Annotatoren zu inspirieren, und ermutigten sie, vielfältigere Einträge zu erstellen. Durch das Angebot von Anleitung und Ressourcen konnten die Annotatoren qualitativ hochwertigere Beispiele effizienter produzieren.
Ergebnisse der GAHD-Sammlung
Der endgültige GAHD-Datensatz umfasst insgesamt 10.996 Beispiele, von denen rund 42,4% als Hassrede klassifiziert sind. Der Erstellungprozess zeigte signifikante Verbesserungen in der Modellleistung nach jeder Datensammelrunde. Die Ergebnisse zeigten, dass Modelle, die mit GAHD-Daten trainiert wurden, erheblich besser abschnitten, was darauf hinweist, dass die Vielfalt und das adversariale Wesen des Datensatzes zur verbesserten Robustheit beitrugen.
Bewertung der Modellleistung
Um zu sehen, wie gut die Modelle nach dem Training mit GAHD abschnitten, wurden verschiedene Bewertungsmethoden angewendet. Die Leistung wurde anhand unterschiedlicher Testsets gemessen, um sicherzustellen, dass die Modelle verschiedene Datentypen effektiv verarbeiten konnten.
Einfluss von GAHD auf die Robustheit der Modelle
Das Training mit GAHD-Daten führte zu bemerkenswerten Verbesserungen in der Fähigkeit der Modelle, Hassrede zu erkennen. Der Leistungszuwachs betrug je nach Auswertung zwischen 18 und 20 Prozentpunkten. Die Verbesserungen wurden über verschiedene Metriken hinweg beobachtet, was darauf hindeutet, dass die Modelle besser darin wurden, zwischen Hassrede und Nicht-Hassrede zu unterscheiden.
Benchmarks gegen andere Modelle
Neben dem Testen der auf GAHD trainierten Modelle wurden verschiedene kommerzielle APIs und grosse Sprachmodelle mit diesem Datensatz evaluiert. Die Ergebnisse zeigten, dass die meisten dieser Systeme mit der Komplexität von GAHD zu kämpfen hatten, nur wenige erreichten zufriedenstellende Ergebnisse.
Einblicke aus der Studie
Die Erstellung von GAHD zeigt den Bedarf an effizienteren Datensammlungsmethoden in der Sprachverarbeitung. Durch den Einsatz vielfältiger Methoden, um Annotatoren einzubinden, konnte die Studie einen reichhaltigen Datensatz sammeln, der nicht nur bestehende Modelle verbessert, sondern auch Licht auf die Nuancen wirft, die bei der Erkennung von Hassrede eine Rolle spielen.
Die Forscher kamen zu dem Schluss, dass die Bereitstellung unterschiedlicher Unterstützung für Annotatoren entscheidend ist, um deren Kreativität und Effektivität zu steigern, was zu besseren Datensätzen für das Training von Modellen führt. Dies kommt nicht nur der Hassrede-Erkennung zugute, sondern kann auch auf andere Bereiche der natürlichen Sprachverarbeitung angewendet werden.
Fazit und zukünftige Richtungen
GAHD stellt einen bedeutenden Fortschritt im Bereich der Hassrede-Erkennung dar. Seine innovativen Sammlungstrategien und umfangreichen Evaluationsprozesse dienen als Modell für zukünftige Forschungen in diesem Bereich. Die Ergebnisse betonen die Bedeutung kontinuierlicher Verbesserungen im Modelltraining durch robuste Datensätze.
Mit Blick auf die Zukunft gibt es mehrere vielversprechende Ansätze für weitere Forschungen. Die Untersuchung vielfältiger Unterstützungsstrategien für Annotatoren sowie die Nutzung von Fortschritten in der natürlichen Sprachverarbeitung, wie mögliche Anwendungen grosser Sprachmodelle, könnten aufregende Entwicklungen bieten, um die Hassrede-Erkennung noch effektiver zu gestalten.
Dieser Datensatz und die Einblicke aus seiner Erstellung werden entscheidend sein, um robustere Modelle zu formen, die in der Lage sind, die Herausforderungen, die durch Hassrede online entstehen, zu bewältigen.
Titel: Improving Adversarial Data Collection by Supporting Annotators: Lessons from GAHD, a German Hate Speech Dataset
Zusammenfassung: Hate speech detection models are only as good as the data they are trained on. Datasets sourced from social media suffer from systematic gaps and biases, leading to unreliable models with simplistic decision boundaries. Adversarial datasets, collected by exploiting model weaknesses, promise to fix this problem. However, adversarial data collection can be slow and costly, and individual annotators have limited creativity. In this paper, we introduce GAHD, a new German Adversarial Hate speech Dataset comprising ca.\ 11k examples. During data collection, we explore new strategies for supporting annotators, to create more diverse adversarial examples more efficiently and provide a manual analysis of annotator disagreements for each strategy. Our experiments show that the resulting dataset is challenging even for state-of-the-art hate speech detection models, and that training on GAHD clearly improves model robustness. Further, we find that mixing multiple support strategies is most advantageous. We make GAHD publicly available at https://github.com/jagol/gahd.
Autoren: Janis Goldzycher, Paul Röttger, Gerold Schneider
Letzte Aktualisierung: 2024-03-28 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2403.19559
Quell-PDF: https://arxiv.org/pdf/2403.19559
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/jagol/gahd
- https://huggingface.co/deepset/gelectra-large
- https://translate.google.com
- https://wortschatz.uni-leipzig.de/de/download/German
- https://huggingface.co/sentence-transformers/all-mpnet-base-v2
- https://www.sbert.net/
- https://platform.openai.com/docs/models/gpt-3-5
- https://platform.openai.com/docs/models
- https://laion.ai/blog/leo-lm/
- https://www.perspectiveapi.com/
- https://platform.openai.com/docs/guides/moderation
- https://www.digitalreligions.uzh.ch/en.html
- https://creativecommons.org/licenses/by/4.0/
- https://platform.openai.com/docs/guides/text-generation/json-mode
- https://perspectiveapi.com/
- https://aclanthology.org/2021.acl-long.132.pdf