Rahmen für effektive Datensätze zur Erkennung von Hassrede
Ein strukturierter Ansatz zur Erstellung effektiver Datensätze für die Analyse von Hassrede.
― 9 min Lesedauer
Inhaltsverzeichnis
- Der Bedarf an einem einheitlichen Rahmen
- Vorgeschlagener Rahmen für Hassrede
- Hass definieren
- Die Datenquelle auswählen
- Das Annotationsschema definieren
- Richtlinien für die Annotation definieren
- Annotatoren mit spezifischen Identitäten auswählen
- Den Annotationsprozess einrichten
- Labels aggregieren
- Fazit
- Originalquelle
- Referenz Links
Die Erkennung von Hassrede ist ein wichtiger Bereich in der Verarbeitung natürlicher Sprache (NLP) geworden. Verschiedene Methoden werden verwendet, um herauszufinden, wer angegriffen wird, wie man Daten sammelt, wie man sie kennzeichnet, wie man die richtigen Erkennungsmethoden auswählt und wie man überprüft, ob diese Methoden gut funktionieren. Ein grosses Problem in diesem Bereich ist, dass wir nicht genug grosse und gut strukturierte Datensätze haben, die allgemein verwendet werden können. Das liegt daran, dass die Erkennung von Hassrede stark von persönlichen Meinungen und Urteilen abhängt.
In dieser Diskussion schauen wir uns die Probleme rund um die Erkennung von Hassrede aus einer Datenperspektive an. Wir zeigen einen klaren Rahmen, der mehrere wichtige Schritte zur Erstellung von Datensätzen umfasst, wobei der Fokus auf Hassrede abzielt, die sich gegen sexuelle Minderheiten richtet. Mit diesem Rahmen können die Leute bewährte Praktiken befolgen, wenn sie Datensätze über Hassrede erstellen.
In den letzten Jahren hat die NLP-Community mehr Interesse daran gezeigt, hasserfüllte und schädliche Sprache zu finden. Es wurden viele Workshops abgehalten, um die Forschung in diesem Bereich zu unterstützen, und es wurden verschiedene Aufgaben erstellt, um gängige Datensätze besser zu verstehen.
Allerdings ist die Erkennung von Hassrede nicht einfach, weil sie oft von persönlichen Meinungen abhängt. Das bedeutet, dass Datensätze, die für eine Situation erstellt wurden, in einer anderen nicht gut funktionieren könnten. Selbst wenn sie anwendbar erscheinen, führt das zu Herausforderungen für verschiedene Anwendungen, die vielen Nutzern möglicherweise nicht bewusst sind. Um sicherzustellen, dass Vorhersagemodelle effektiv und fair mit unterschiedlichen Daten arbeiten, ist es entscheidend, die Entscheidungen zu kennen, die die Ersteller der Datensätze in jedem Schritt treffen.
Viele Forscher haben verschiedene Schritte im Prozess der Datenerstellung untersucht, um zu zeigen, wie komplex diese Schritte sein können. Zum Beispiel haben einige darauf hingewiesen, wie unbeabsichtigte Vorurteile von Annotatoren die allgemeine Stimmung eines Datensatzes verändern können. Das zeigt die Notwendigkeit, dass die Ersteller von Datensätzen Massnahmen ergreifen, um Verzerrungen zu minimieren und während der Kennzeichnung konsistente Regeln zu befolgen.
Unsere Arbeit zielt darauf ab, verschiedene Faktoren in einen einzigen Rahmen zu integrieren, indem wir einen klaren Weg bereitstellen, um zu verstehen, wie diese Faktoren miteinander in Beziehung stehen und sich voneinander unterscheiden. Wir beginnen mit einem kurzen Blick auf gängige Probleme, die die Systeme zur Erkennung von Hassrede aus einer Datenperspektive betreffen. Danach umreissen wir die Notwendigkeit eines soliden Rahmens, dem zukünftige Ersteller von Datensätzen folgen sollten. Anschliessend beschreiben wir unseren Rahmen im Detail und teilen eine Liste wichtiger Faktoren, die bei der Erstellung eines Datensatzes zu berücksichtigen sind. Schliesslich besprechen wir die laufenden Herausforderungen im Bereich der Erkennung von Hassrede, bevor wir unsere Studie abschliessen.
Um es einfach zu machen, sind unsere Hauptbeiträge: (1) Eine Analyse der Erkennung von Hassrede aus einer Datenperspektive, die verschiedene Probleme aufzeigt, die auftreten, wenn Datensätze nicht verallgemeinerbar sind; (2) Ein vorgeschlagenes Forschungsprogramm, das sieben Schlüsselaspekte zur Erstellung von Datensätzen abdeckt; und (3) Eine Zusammenfassung bewährter Praktiken für Forscher und Praktiker.
Der Bedarf an einem einheitlichen Rahmen
Bei der Erstellung eines Datensatzes für Hassrede stehen die Autoren vor vielen Entscheidungen in jedem Schritt. Das beginnt damit, ob man Daten kennzeichnen soll oder nicht, bis hin zu den Regeln für die Kennzeichnung und wie man die Labels danach kombiniert. Wenn viele dieser Entscheidungen unbeachtet bleiben, was in der Vergangenheit häufig der Fall war, kann das dazu führen, dass Datensätze unerwünschte Merkmale wie Vorurteile, niedrige Zustimmung unter Annotatoren, unklare Themen oder sogar Datenschutzprobleme aufweisen.
Diese Probleme betreffen NLP-Datensätze allgemein, aber wenn es um subjektive Aufgaben wie die Erkennung von Hassrede geht, ist es wichtig, während des Datensammlungsprozesses Unklarheiten zu vermeiden. Wir argumentieren, dass informierte Entscheidungen in jedem Schritt zu treffen und offen über diese Entscheidungen zu sein, den Forschern in der Zukunft hilft zu entscheiden, ob ein Datensatz für andere Aufgaben nützlich sein kann.
In den nächsten Abschnitten präsentieren wir einen Rahmen, der einen umfassenden Forschungsplan umreisst. Dieser Rahmen soll den Erstellern von Datensätzen helfen, sicherzustellen, dass ihre Datensätze fair und effektiv von anderen genutzt werden können.
Vorgeschlagener Rahmen für Hassrede
Dieser Rahmen bietet Anleitung zur Erstellung zuverlässiger Datensätze für Hassrede. Wir definieren sieben Kontrollpunkte, die den gesamten Prozess der Erstellung eines Datensatzes für Hassrede umfassen:
Hass definieren: Es ist wichtig, klar zu definieren, was "Hass" für eine bestimmte Aufgabe bedeutet, bevor man Daten sammelt.
Die Datenquelle auswählen: Die Analyse bestehender Datensätze kann hilfreich sein, um eine geeignete Datenquelle zu finden, die mit der Aufgabe übereinstimmt.
Die Daten kennzeichnen: Dabei geht es darum, eine Struktur festzulegen, wie die Daten gekennzeichnet werden, bekannt als das Annotationsschema.
Anleitung zur Annotation schreiben: Klare Anweisungen müssen den Annotatoren gegeben werden, wie sie die Daten kennzeichnen sollen.
Den Kennzeichnungsprozess einrichten: Die Methode zur Kennzeichnung muss konsistent und zuverlässig sein.
Annotatoren auswählen: Die Hintergründe und Identitäten der Annotatoren können ihre Wahrnehmung von Hassrede beeinflussen.
Labels aggregieren: Nach der Kennzeichnung ist es notwendig zu entscheiden, wie diese Labels in eine klare Grundwahrheit zusammengeführt werden.
Es ist wichtig zu beachten, dass die Ersteller diese Schritte nicht unbedingt strikt linear befolgen müssen, da einige Schritte sich überschneiden können.
Hass definieren
Bevor man einen Datensatz erstellt, ist es wichtig, klar zu definieren, was "Hass" für diese spezielle Aufgabe bedeutet. Hass in kleinere Komponenten zu zerlegen, kann helfen, eine präzise Definition zu erstellen. Zum Beispiel, wenn die Zielgruppe mit sexueller Orientierung zu tun hat, könnten die Forscher dominante Gruppen in ihrer Definition ignorieren.
Hass zu definieren hilft den Annotatoren, sich an spezifische Richtlinien zu halten, und sorgt dafür, dass sie die Daten korrekt kennzeichnen.
Die Datenquelle auswählen
Bei der Auswahl der Daten ist es am besten, vorhandene Datensätze zu überprüfen, die den Anforderungen der Aufgabe entsprechen könnten. Ein Open-Source-Katalog von Datensätzen kann ein guter Ausgangspunkt sein, um relevante Daten zu finden. Wenn vorhandene Datensätze jedoch nicht die Komplexität der Aufgabe erfüllen, könnte es notwendig sein, einen neuen Datensatz zu erstellen.
Daten aus sozialen Medien sind oft leicht verfügbar und bieten Flexibilität bei der Suche nach Inhalten. Sie können auch kostengünstiger und zugänglicher sein als traditionelle Textquellen. Verschiedene soziale Medienplattformen bieten APIs, die es den Nutzern ermöglichen, grosse Mengen an Daten zu sammeln. In einigen Fällen kann die Erstellung synthetischer Datensätze mit KI ein wertvoller Ansatz sein, wenn vorhandene Quellen unzureichend sind.
Das Annotationsschema definieren
Ein Annotationsschema legt fest, wie Labels für eine Kennzeichnungsaufgabe strukturiert sind. Historisch wurde Hassrede entweder als hasserfüllt oder nicht kategorisiert, aber ein flexiblerer Ansatz mit mehreren Labels kann ein besseres Verständnis des Inhalts bieten.
Viele aktuelle Projekte schlagen vor, einen mehrstufigen Ansatz zur Kategorisierung von Hassrede zu verwenden, um nuanciertere Labels zu ermöglichen. Diese Methode hilft, die Komplexität von Hass zu erfassen und bietet grösseren Ausdruck in den Annotationen.
Richtlinien für die Annotation definieren
Sobald das Annotationsschema festgelegt ist, ist es wichtig, den Annotatoren klare Anweisungen zu geben, wie sie jeden Text markieren sollen. Die Richtlinien können je nach Bedarf der Aufgabe Subjektivität fördern oder abschrecken.
Wenn das Ziel beispielsweise darin besteht, ein striktes Moderationssystem zu entwerfen, wären klare und spezifische Richtlinien notwendig. Wenn das Ziel jedoch darin besteht, unterschiedliche Ansichten zu erfassen, könnte ein weniger präziser Ansatz geeignet sein.
Annotatoren mit spezifischen Identitäten auswählen
Die Hintergründe der Annotatoren können das Verständnis von Hassrede stark beeinflussen. Forscher haben beispielsweise Unterschiede gefunden, wie verschiedene Gruppen Hassrede basierend auf ihren Erfahrungen interpretieren.
Wenn es wichtig ist, ein breites Meinungsspektrum abzubilden, kann es vorteilhaft sein, Annotatoren aus ähnlichen Hintergründen wie die Zielgruppe zu haben. Andererseits könnte es für sehr strukturierte Datensätze akzeptabel sein, allgemeine Annotatoren ohne gemeinsame Erfahrungen zu verwenden.
Entscheidungen darüber, wen man als Annotatoren einstellen sollte, sollten mit den Zielen der Aufgabe und der erwarteten Vielfalt im resultierenden Datensatz übereinstimmen.
Den Annotationsprozess einrichten
Es ist entscheidend, einen konsistenten und zuverlässigen Kennzeichnungsprozess zu haben, wenn man mit grossen Datensätzen arbeitet. Verschiedene Plattformen können dabei helfen. Beliebte Crowd-Sourcing-Dienste können beispielsweise helfen, Annotationen zu sammeln, wobei Kontrolle über die Filterung und Analyse der Arbeitsleistung besteht.
Die Wahl der richtigen Plattform könnte von der Grösse des Datensatzes und der Verfügbarkeit von Annotatoren abhängen.
Labels aggregieren
Nachdem die Annotatoren die Daten gekennzeichnet haben, besteht die nächste Herausforderung darin, zu bestimmen, wie man diese Labels kombiniert, um eine klare Schlussfolgerung darüber zu ziehen, was als Hassrede betrachtet wird. Die Entscheidung, welche Perspektive als Standard betrachtet werden sollte, kann je nach den beteiligten Interessengruppen variieren, zu denen Datensatz-Ersteller, Nutzer und Annotatoren gehören können.
Eine gängige Technik zum Umgang mit mehreren Labels ist die Verwendung von Mehrheitsabstimmungen, obwohl die gewählte Methode vom Annotationsschema abhängen kann. Für nuanciertere Daten kann die Verwendung ordinaler Labels mehr Flexibilität beim Durchschnitt der Labels ermöglichen.
Fazit
Wir haben gesehen, dass der Aufbau von Datensätzen zur Erkennung von Hassrede mit verschiedenen Herausforderungen verbunden ist. Es ist wichtig, Daten und Methodologie in jedem Schritt des Prozesses zu berücksichtigen. Der bereitgestellte Rahmen betont die Notwendigkeit, informierte Entscheidungen zu treffen, detaillierte Datenangaben zu führen und Kontext für einzelne Datenpunkte zu bieten.
Dieser Rahmen soll Forschern helfen, wenn sie in Zukunft Datensätze zur Erkennung von Hassrede erstellen. Obwohl wir viele Aspekte der Erstellung dieser Datensätze behandelt haben, gibt es noch andere Optionen, die erkundet werden müssen, wie z.B. wie man mit Datenstichproben umgeht und mit multimodalen Daten umgeht.
Während sich dieses Gebiet weiterentwickelt, werden weitere Studien erforderlich sein, um mehrsprachige Datensätze zu behandeln, und Forscher werden ermutigt, ihre ethischen Verantwortlichkeiten in diesem Bereich zu berücksichtigen.
Titel: On the Challenges of Building Datasets for Hate Speech Detection
Zusammenfassung: Detection of hate speech has been formulated as a standalone application of NLP and different approaches have been adopted for identifying the target groups, obtaining raw data, defining the labeling process, choosing the detection algorithm, and evaluating the performance in the desired setting. However, unlike other downstream tasks, hate speech suffers from the lack of large-sized, carefully curated, generalizable datasets owing to the highly subjective nature of the task. In this paper, we first analyze the issues surrounding hate speech detection through a data-centric lens. We then outline a holistic framework to encapsulate the data creation pipeline across seven broad dimensions by taking the specific example of hate speech towards sexual minorities. We posit that practitioners would benefit from following this framework as a form of best practice when creating hate speech datasets in the future.
Autoren: Vitthal Bhandari
Letzte Aktualisierung: 2023-09-06 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.02912
Quell-PDF: https://arxiv.org/pdf/2309.02912
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://hatespeechdata.com/
- https://developer.twitter.com/en
- https://www.reddit.com/dev/api/
- https://developers.google.com/youtube/v3/docs
- https://docs.joinmastodon.org/api/
- https://developers.tiktok.com/
- https://www.perspectiveapi.com/
- https://www.mturk.com/
- https://appen.com/
- https://github.com/doccano/doccano
- https://github.com/davidjurgens/potato
- https://labelstud.io/
- https://argilla.io/