Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Software-Entwicklung# Rechnen und Sprache

Bewertung der Hate Speech Erkennung mit dem HateModerate Dataset

Ein neuer Datensatz soll die Erkennung von Hassrede in sozialen Medien verbessern.

― 6 min Lesedauer


Bewertung des Hate SpeechBewertung des Hate SpeechErkennungs-Datensatzesautomatisierten Hassrede-Detektoren.Bewertung der Effektivität von
Inhaltsverzeichnis

In der heutigen digitalen Welt ermöglichen soziale Medien den Nutzern, frei zu kommunizieren, setzen sie aber auch schädlichen Inhalten wie Hassrede aus. Um die Nutzer zu schützen, haben viele Plattformen automatisierte Tools entwickelt, die Hassrede erkennen und herausfiltern. Eine wichtige Frage bleibt jedoch: Befolgen diese Erkennungstools die spezifischen Inhaltsregeln der Plattformen? In diesem Artikel wird die Erstellung eines neuen Datensatzes namens HateModerate besprochen, der dazu dient, zu untersuchen, wie gut automatisierte Hassrede-Detektoren mit den Richtlinien sozialer Medien übereinstimmen.

Das Problem mit der Hassrede-Erkennung

Obwohl automatisierte Tools zur Identifizierung von Hassrede besser geworden sind, haben sie oft Schwierigkeiten, die einzigartigen Regeln verschiedener Plattformen zu erfüllen. Diese Regeln bestimmen, was als anstössiger Inhalt gilt, aber bestehende Datensätze decken diese Variationen nicht ausreichend ab. Zum Beispiel hat Facebook bestimmte Richtlinien, die in den zur Erkennung verwendeten Datensätzen möglicherweise nicht zu finden sind. Diese Lücke macht es schwierig zu bewerten, wie gut diese Tools den Richtlinien entsprechen.

Erstellung des HateModerate-Datensatzes

Um diese Probleme anzugehen, wurde der HateModerate-Datensatz erstellt, um die Tools zur Erkennung von Hassrede im Hinblick auf die Community-Standards von Facebook zu bewerten. Der Datensatz enthält 7.704 Beispiele sowohl von hasserfülltem als auch von nicht-hasserfülltem Inhalt, die alle auf die spezifischen Regeln von Facebook abgestimmt sind. Der Erstellungsprozess umfasste mehrere Schritte und beruhte auf einer Gruppe von annotierten Richtlinien und Technologien zur Verarbeitung natürlicher Sprache.

Annotierungsprozess

Insgesamt haben 28 Graduiertenstudenten zum Datensatz beigetragen, indem sie bestehende Beispiele für Hassrede überprüften und neue identifizierten, die den spezifischen Richtlinien von Facebook entsprachen. Die Studenten folgten einem strukturierten sechs-Schritte-Prozess, um eine umfassende und akkurate Sammlung von Beispielen zu gewährleisten.

  1. Identifizierung von hasserfüllten Beispielen: Die Annotatoren durchsuchten manuell bestehende Datensätze, um Beispiele für Hassrede zu finden, die den spezifischen Richtlinien entsprachen. Sie berichteten von Schwierigkeiten, genügend Beispiele für bestimmte Richtlinien zu finden, was zu einer weiteren Datengenerierung führte.

  2. Erweiterung der Beispiele: Für Richtlinien mit unzureichenden Beispielen generierte das Team neue hasserfüllte Inhalte mithilfe eines Machine-Learning-Modells. Dies half, die Lücken zu schliessen und bot eine reichhaltigere Sammlung von Beispielen.

  3. Überprüfung: Nachdem die Beispiele gesammelt wurden, überprüften zusätzliche Annotatoren deren Angemessenheit im Hinblick auf die Richtlinien. Unangemessene Beispiele wurden entfernt.

  4. Sammlung nicht-hasserfüllter Beispiele: Um die Wirksamkeit der Hassrede-Detektoren zu bewerten, wurden auch schwierige Beispiele nicht-hasserfüllten Inhalts gesammelt. Diese Beispiele ähnelten den hasserfüllten, um eine robuste Bewertung der Modelle zu ermöglichen.

  5. Datenaugmentation für nicht-hasserfüllte Beispiele: Ähnlich wie bei den hasserfüllten Beispielen wurden auch nicht-hasserfüllte Beispiele mithilfe von Machine-Learning-Tools generiert, wenn die ersten Suchen unzureichende Ergebnisse lieferten.

  6. Überprüfung nicht-hasserfüllter Beispiele: Genau wie bei den hasserfüllten Beispielen überprüfte eine Gruppe von Annotatoren die Genauigkeit der nicht-hasserfüllten Beispiele, um sicherzustellen, dass sie den Richtlinien entsprachen.

Zusammensetzung des Datensatzes

Der endgültige HateModerate-Datensatz umfasst eine ausgewogene Sammlung von hasserfüllten und nicht-hasserfüllten Beispielen. Die Vielfalt im Datensatz hilft, die Leistung automatisierter Hassrede-Detektoren besser zu bewerten.

Bewertung der Hassrede-Detektoren

Mit dem HateModerate-Datensatz wurden mehrere beliebte Hassrede-Detektoren bewertet. Dazu gehören Googles Perspective API, OpenAIs Moderation API und Modelle, die von Facebook und Cardiff NLP feinabgestimmt wurden. Die Bewertung zielte darauf ab, herauszufinden, wie gut diese Detektoren den Community-Standards von Facebook entsprachen.

Wichtige Ergebnisse der Bewertung

Die Bewertung zeigte mehrere Trends:

  1. Variabilität der Leistung: Verschiedene Modelle zeigten unterschiedliche Erfolgsniveaus bei der Einhaltung der Facebook-Richtlinien. Das OpenAI-Modell erzielte insgesamt die besten Ergebnisse, während andere erhebliche Mängel aufwiesen, insbesondere bei nicht-hasserfüllten Beispielen.

  2. Priorisierung schwerwiegender Richtlinien: Die meisten Detektoren waren tendenziell effektiver bei der Identifizierung schwerwiegender Formen von Hassrede als bei weniger schwerwiegenden Formen. Diese Inkonsistenz wirft Fragen zur Zuverlässigkeit dieser Modelle auf.

  3. Fehlerraten: Die Modelle wiesen hohe Fehlerraten bei der Erkennung nicht-hasserfüllter Beispiele auf. Das deutet darauf hin, dass einige Modelle Schwierigkeiten haben, zwischen hasserfülltem und harmlosen Inhalt genau zu unterscheiden.

Verbesserung der Modellleistung

Um die Leistung der Hassrede-Detektoren zu verbessern, experimentierten Forscher mit dem Feinabstimmen der Modelle unter Verwendung von HateModerate. Das Ziel war zu sehen, ob das Hinzufügen dieses neuen Datensatzes die Fehlerraten verringern könnte.

Feinabstimmungsprozess

Die Feinabstimmung umfasste die Verwendung einer Teilmenge von HateModerate zusammen mit bestehenden Trainingsdaten. Durch die Einführung dieser neuen Daten wollten die Forscher das Verständnis des Modells für die spezifischen Richtlinien verbessern und seine Fähigkeit zur genauen Klassifizierung erhöhen.

Ergebnisse der Feinabstimmung

Der Feinabstimmungsprozess ergab vielversprechende Ergebnisse. Modelle, die den HateModerate-Datensatz einbezogen, zeigten eine verbesserte Übereinstimmung mit den Facebook-Richtlinien und hielten gleichzeitig ihre Leistung bei anderen Testdatensätzen aufrecht. Das deutet darauf hin, dass der HateModerate-Datensatz eine entscheidende Rolle bei der Verbesserung von Hassrede-Erkennungsmodellen spielen kann.

Umgang mit Vorurteilen in Modellen

Ein wichtiger Aspekt bei der Hassrede-Erkennung ist das Potenzial für Vorurteile. Das Feinabstimmen von Modellen auf spezifischen Datensätzen kann unbeabsichtigt zu Vorurteilen gegen bestimmte Gruppen führen. Die Forscher führten zusätzliche Tests durch, um zu überprüfen, ob die Verwendung von HateModerate zu einer erhöhten Voreingenommenheit in ihren Modellen führte.

Erkenntnisse zu Vorurteilen

Die Bewertungen zeigten, dass, während feinabgestimmte Modelle insgesamt besser abschnitten, es dennoch einige Fälle von Vorurteilen gab. Die Hinzufügung von HateModerate führte jedoch nicht signifikant zu einer erhöhten Voreingenommenheit im Vergleich zu den ursprünglichen Modellen. Dieses Ergebnis ist ermutigend, da es darauf hindeutet, dass der Datensatz effektiv genutzt werden kann, ohne die Fairness zu beeinträchtigen.

Fazit

Der HateModerate-Datensatz stellt einen bedeutenden Schritt zur Verbesserung der automatisierten Hassrede-Erkennung im Einklang mit spezifischen Richtlinien sozialer Medien dar. Durch das Schliessen bestehender Lücken in Datensätzen zur Hassrede ermöglicht HateModerate eine genauere Bewertung der Wirksamkeit der Erkennungstools. Die Ergebnisse deuten darauf hin, dass die Feinabstimmung dieser Modelle mit HateModerate deren Genauigkeit verbessern und die Fehlerraten verringern kann. Darüber hinaus bietet der Datensatz wertvolle Einblicke in die potenziellen Vorurteile in bestehenden Modellen. Während sich soziale Medien weiterentwickeln, werden Tools wie HateModerate eine entscheidende Rolle dabei spielen, die Sicherheit und Integrität der Online-Kommunikation zu gewährleisten.

Originalquelle

Titel: HateModerate: Testing Hate Speech Detectors against Content Moderation Policies

Zusammenfassung: To protect users from massive hateful content, existing works studied automated hate speech detection. Despite the existing efforts, one question remains: do automated hate speech detectors conform to social media content policies? A platform's content policies are a checklist of content moderated by the social media platform. Because content moderation rules are often uniquely defined, existing hate speech datasets cannot directly answer this question. This work seeks to answer this question by creating HateModerate, a dataset for testing the behaviors of automated content moderators against content policies. First, we engage 28 annotators and GPT in a six-step annotation process, resulting in a list of hateful and non-hateful test suites matching each of Facebook's 41 hate speech policies. Second, we test the performance of state-of-the-art hate speech detectors against HateModerate, revealing substantial failures these models have in their conformity to the policies. Third, using HateModerate, we augment the training data of a top-downloaded hate detector on HuggingFace. We observe significant improvement in the models' conformity to content policies while having comparable scores on the original test data. Our dataset and code can be found in the attachment.

Autoren: Jiangrui Zheng, Xueqing Liu, Guanqun Yang, Mirazul Haque, Xing Qian, Ravishka Rathnasuriya, Wei Yang, Girish Budhrani

Letzte Aktualisierung: 2024-03-18 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2307.12418

Quell-PDF: https://arxiv.org/pdf/2307.12418

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel