Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Computer und Gesellschaft

Online-Sexismus durch erklärbare Erkennung verstehen

Ein neues System zielt darauf ab, Online-Sexismus effektiv zu erkennen und zu erklären.

― 7 min Lesedauer


Online-Sexismus bekämpfenOnline-Sexismus bekämpfenund Erklärung von Sexismus online.Neue Werkzeuge verbessern die Erkennung
Inhaltsverzeichnis

Online-Sexismus ist ein ernstes Problem, das viele Menschen betrifft, vor allem Frauen. Diese Art von Sexismus kann Online-Räume unsicher und unfreundlich wirken lassen. Um dieses Problem zu bekämpfen, können wir automatisierte Werkzeuge nutzen, um sexistische Inhalte im Internet zu finden und zu kennzeichnen. Viele dieser Tools kategorisieren Inhalte jedoch nur als "sexistisch" oder "nicht sexistisch", was die verschiedenen Erscheinungsformen von Sexismus nicht erfasst. Ohne klare Erklärungen verstehen die Nutzer vielleicht nicht, warum etwas als sexistisch gekennzeichnet wurde, was zu Verwirrung und Frustration führen kann.

Um die Situation zu verbessern, haben wir eine Aufgabe namens Explainable Detection of Online Sexism (EDOS) ins Leben gerufen. Diese Aufgabe hat das Ziel, eine klarere Möglichkeit zu bieten, Fälle von Sexismus in Online-Kommentaren zu erkennen und zu erklären. Wir haben drei Hauptziele:

  1. Ein detailliertes System zur Klassifizierung verschiedener Arten von sexistischem Inhalt zu erstellen.
  2. Ein grosses Datenset von Social-Media-Kommentaren zu entwickeln, die mit spezifischen Arten von Sexismus gekennzeichnet sind.
  3. Grundlegende Werkzeuge und Analysen bereitzustellen, damit andere bessere Systeme zur Erkennung von Sexismus aufbauen können.

Die Bedeutung der erklärbaren Erkennung

Online-Sexismus schadet Individuen und der Gesellschaft. Er kann ein toxisches Umfeld schaffen, besonders für Frauen. Automatisierte Werkzeuge werden immer häufiger eingesetzt, um solche Inhalte auf verschiedenen Online-Plattformen zu finden und anzugehen. Viele dieser Tools bieten jedoch nur grobe Klassifikationen wie "Missbrauch" oder "Sexismus" ohne Erklärungen. Diese Unklarheit kann Probleme für die Nutzer schaffen, die moderiert werden. Sie könnten verärgert oder misstrauisch werden, weil sie nicht verstehen, warum etwas markiert wurde.

Effektive Moderation braucht Erklärungen. Moderatoren, die sich auf automatisierte Werkzeuge verlassen, vertrauen diesen vielleicht nicht vollständig, wenn sie die Gründe für bestimmte Kennzeichnungen nicht verstehen. Ausserdem wird es, wenn Systeme klare Kennzeichnungen fehlen, schwierig, Schwächen zu identifizieren, was entscheidend für die Verbesserung dieser Tools ist.

Um diese Herausforderungen zu bewältigen, haben wir eine Aufgabe geschaffen, die ein klares Klassifikationssystem für Sexismus beinhaltet. Unser System hat drei Teile oder Aufgaben.

Aufgabe A: Binäre Sexismus-Erkennung

Die erste Aufgabe ist einfach: Wir müssen herausfinden, ob ein Kommentar sexistisch ist oder nicht. Wir definieren sexistischen Inhalt als alles, was Frauen aufgrund ihres Geschlechts oder einer Kombination aus Geschlecht und anderen Identitäten, wie Rasse oder Religion, angreift.

Aufgabe B: Kategorisierung von Sexismus

Für Inhalte, die als sexistisch eingestuft werden, unterteilt die zweite Aufgabe sie in vier verschiedene Kategorien. Diese Kategorien helfen uns, die Art des vorliegenden Sexismus zu verstehen. Diese Unterteilung ist wichtig, da der Schaden, der durch verschiedene Arten von Kommentaren verursacht wird, erheblich variieren kann.

Aufgabe C: Feingliedrige Detaillierung

Schliesslich identifiziert die dritte Aufgabe spezifische Vektoren innerhalb der Kategorien. Das bedeutet, dass wir genau darauf schauen, welche Arten von sexistischer Einstellung oder Botschaften in den Kommentaren vorhanden sind.

Einzigartige Aspekte unserer Aufgabe

Es gibt drei Hauptgründe, warum die EDOS-Aufgabe besonders ist:

1. Datenvielfalt: Wir haben Kommentare von zwei beliebten Plattformen, Reddit und Gab, gesammelt. So können wir ein breiteres Spektrum an Stimmen und Erfahrungen abdecken, als wenn wir nur eine Plattform genutzt hätten.

2. Hochwertige Annotationen: Wir haben nur Frauen als Annotatoren eingestellt, die gut geschult sind, um diese Kommentare zu identifizieren. Diese Wahl hilft, Vorurteile bei der Kennzeichnung zu reduzieren und sicherzustellen, dass die am meisten vom Sexismus Betroffenen Einfluss darauf haben, wie er identifiziert wird.

3. Detaillierte Struktur: Unsere Klassifikation basiert auf solider Forschung. Die Kategorien und Vektoren sind so gestaltet, dass sie sinnvoll sind, was die Erklärung von Vorhersagen verbessert und eine komplexere Analyse ermöglicht.

Datensatz-Erstellung

Die richtigen Plattformen auswählen

Die meisten Forschungen zu Online-Schäden haben sich hauptsächlich auf Twitter konzentriert, was oft nicht eine breite Palette an sexistischer Inhalte erfasst. Um dieses Manko zu beheben, haben wir uns entschieden, Gab und Reddit zu nutzen. Gab ist bekannt als eine "Alt-Tech"-Plattform, die die Meinungsfreiheit fördert und oft Personen mit extremen Ansichten anzieht. Reddit hingegen hat viele themenbasierte Communities, in denen Diskussionen stattfinden können. Durch die Datenbeschaffung von beiden Plattformen können wir ein reichhaltigeres Datenset erstellen.

Datenkollektivierungsprozess

Wir haben eine riesige Menge an Daten von diesen Plattformen gesammelt. Konkret haben wir etwa 34 Millionen öffentlich verfügbare Beiträge von Gab und 42 Millionen Kommentare aus spezifischen Reddit-Communities, die für ihren sexistischen Inhalt bekannt sind, gesammelt. Insgesamt haben wir einen Pool von 1 Million Einträgen erstellt, aus dem wir für die Kennzeichnungen eine Stichprobe genommen haben.

Datenbereinigung

Bevor wir die Daten kennzeichneten, haben wir sie gereinigt. Dieser Prozess umfasste:

  1. Entfernen von URLs und Benutzernamen zum Schutz der Privatsphäre.
  2. Entfernen von leeren Einträgen und Kommentaren, die nur URLs oder Emojis enthielten.
  3. Eliminierung von nicht-englischen Einträgen und Duplikaten.

Sampling-Techniken

Sexistische Inhalte in der Wildnis zu finden, kann knifflig sein, da die tatsächliche Prävalenz sehr niedrig sein könnte. Daher haben wir verschiedene Methoden angewendet, um die Präsenz sexistischer Kommentare in unseren Stichproben zu erhöhen. Dazu gehört das Suchen nach spezifischen Schlüsselwörtern und die Verwendung von Modellen zur toxischen Inhaltsbewertung, um potenziell schädliche Kommentare zu identifizieren.

Datenanmerkungsprozess

Richtlinien für Annotatoren

Wir haben unseren Annotatoren detaillierte Richtlinien gegeben, wie sie verschiedene Arten von Sexismus identifizieren können. Wir wollten persönliche Vorurteile minimieren und sicherstellen, dass unsere Kennzeichnungen konsistent sind.

Auswahl der Annotatoren

Wir haben sorgfältig Annotatoren ausgewählt, die sich als Frauen identifizieren, um die Einträge zu kennzeichnen. Diese Wahl hilft, ein genaueres Verständnis von Sexismus aus der Perspektive derjenigen zu schaffen, die ihn erfahren.

Der Annotationsprozess

Jeder Kommentar wurde von drei verschiedenen Annotatoren kennzeichnet. In Fällen, in denen die Annotatoren unterschiedliche Meinungen hatten, überprüfte ein Expertenteam die Kommentare, um sicherzustellen, dass die richtigen Kennzeichnungen angewendet wurden.

Aufgabenstellung

Die SemEval-Aufgaben bestehen aus drei Teilen:

  1. Aufgabe A: Klassifizieren, ob ein Kommentar sexistisch ist oder nicht.
  2. Aufgabe B: Wenn sexistisch, die spezifische Kategorie bestimmen, in die er fällt.
  3. Aufgabe C: Wenn kategorisiert, identifizieren, welcher spezifische Vektor von Sexismus er repräsentiert.

Bewertung und Baselines

Für unsere Aufgaben haben wir mehrere Basislinienmodelle vorgeschlagen, um den Teilnehmern eine Möglichkeit zu bieten, ihre Leistung zu messen. Die verwendete Bewertungsmetrik heisst Macro-F1-Score, der hilft, Klassene imbalance zu berücksichtigen.

Teilnehmerergebnisse

Die EDOS-Aufgabe zog viele Teilnehmer an, wobei viele Teams ihre Modelle und Methoden zur Überprüfung einreichten. Die meisten Teilnehmer setzten fortschrittliche Sprachmodelle für ihre Einsendungen ein. Die Ergebnisse zeigten, dass einige Modelle gut abschnitten, es jedoch immer noch viel Spielraum zur Verbesserung gab, was die genaue Identifizierung feingliedriger Arten von Sexismus betrifft.

Herausforderungen und Erkenntnisse

Fehleranalyse

Wir haben die Fehler der am besten abschneidenden Modelle untersucht, um besser zu verstehen, wo Verbesserungen möglich sind. Wir fanden heraus, dass viele Fehler auf Missverständnissen subtiler Formen von Sexismus beruhten.

Lektionen gelernt

  1. Vielfältige Daten sind wichtig: Die Vielfalt unserer Daten hat geholfen, die verschiedenen Formen von Sexismus sichtbar zu machen. Das kann das Modelltraining herausfordernd machen, ist aber entscheidend für ein umfassendes Verständnis.

  2. Schwierigkeiten bei feingliedriger Erkennung: Wir haben festgestellt, dass es bemerkenswert schwieriger ist, zwischen verschiedenen Formen von Sexismus zu unterscheiden, als nur zu erkennen, ob ein Kommentar sexistisch ist.

  3. Nützlichkeit fortgesetzter Vorab-Training: Die Verwendung von unmarkierten In-Domain-Daten half den Teilnehmern, ihre Leistung zu verbessern.

  4. Klassene imbalance: Unser Datensatz hatte eine ausgewogenere binäre Klassifikation, zeigte jedoch eine erhebliche Klassene imbalance in den feineren Kategorien.

Fazit

Wir haben ein neues System zur Erkennung von Online-Sexismus geschaffen, das nuancierter und erklärbarer ist. Die von uns entworfene Taxonomie sowie der Datensatz und die Basislinienmodelle sollen eine Grundlage für bessere automatisierte Erkennungstools bieten. Da das Problem des Online-Sexismus weiterhin ein drängendes Anliegen ist, ist unsere Arbeit ein Schritt in Richtung effektiverer Lösungen, die Online-Räume für alle sicherer machen.

Zukünftige Arbeiten

In Zukunft ermutigen wir andere, auf unserer Arbeit aufzubauen. Es gibt Potenzial für zukünftige Systeme, die Lücken zu schliessen, die wir identifiziert haben, und die Art und Weise, wie Sexismus online erkannt wird, zu verbessern. Das Ziel ist, Werkzeuge zu schaffen, die nicht nur genau sind, sondern auch Erklärungen bieten, die den Menschen helfen, die Gründe für die Klassifikationen zu verstehen.


Diese Forschung trägt wertvolle Ressourcen zur Bekämpfung von Online-Sexismus bei, und wir sind hoffnungsvoll, dass sie zu sichereren und respektvolleren Online-Umgebungen für alle Nutzer führen wird.

Mehr von den Autoren

Ähnliche Artikel