Die Mehrheit der Stimmen im Erkennen von Hassrede neu überdenken
Ein neues Modell berücksichtigt individuelle Perspektiven beim Labeln von Hassrede.
― 9 min Lesedauer
Inhaltsverzeichnis
- Das Problem mit der Mehrheitsabstimmung
- Was wir gemacht haben
- Warum ist die individuelle Meinung wichtig?
- Annotation und ihre Herausforderungen
- Unser Ansatz
- Nützliche Informationen sammeln
- Evaluierung des Modells
- Vorhersage der Zielgruppe
- Gesamtleistung des Modells
- Privatsphäre respektieren
- Auswirkungen auf die Erkennung von Hassrede
- Zukünftige Herausforderungen angehen
- Fazit
- Originalquelle
- Referenz Links
Im Bereich des maschinellen Lernens verlassen wir uns oft auf eine Methode namens Mehrheitsabstimmung, um Daten zu kennzeichnen. Das bedeutet, dass das Label, auf das sich die meisten Leute einigen, als das richtige betrachtet wird. Allerdings kann dieser Ansatz wichtige Meinungsunterschiede verbergen, besonders bei sensiblen Themen wie der Erkennung von Hassrede. Hier kann Uneinigkeit unter den Annotatoren tiefere Probleme aufzeigen, die mit unterschiedlichen Hintergründen und Erfahrungen zusammenhängen, anstatt nur mit zufälligen Fehlern.
Das Problem mit der Mehrheitsabstimmung
Die Mehrheitsabstimmung kann manchmal dazu führen, dass wir die Meinungen spezifischer Gruppen übersehen, die von dem bewerteten Inhalt betroffen sein könnten. Zum Beispiel, wenn es um die Erkennung von Hassrede geht, ist es wichtig zu wissen, wie eine bestimmte Demografie zu einer Aussage steht, die auf sie gerichtet ist. Wenn die meisten Annotatoren nicht zu dieser Gruppe gehören, könnte ihre Bewertung die Gefühle der Betroffenen nicht genau widerspiegeln.
Wenn Menschen aus verschiedenen Hintergründen denselben Text betrachten, können sie je nach persönlichen Erfahrungen und Kultur unterschiedliche Reaktionen haben. Das bedeutet, dass wir, wenn wir einfach die Antworten mitteln, wichtige Perspektiven verpassen könnten. Die Annahme, dass Meinungsverschiedenheiten unter Annotatoren nur Rauschen sind, gilt vielleicht nicht für subjektive Aufgaben wie das Verstehen von Hassrede.
Was wir gemacht haben
Wir haben ein Modell entwickelt, um die Bewertungen einzelner Annotatoren besser zu verstehen und zu identifizieren, welche Gruppen möglicherweise von bestimmten Texten betroffen sind. Unser Ziel war es, zu sehen, ob wir vorhersagen können, wie verschiedene Annotatoren potenziell anstössige Aussagen bewerten würden. Damit wollten wir herausfinden, wann der allgemeine Konsens tatsächlich falsch sein könnte.
Wir haben die persönlichen Hintergründe der Annotatoren sowie ihre Meinungen zu ähnlichen Inhalten im Internet berücksichtigt. Ausserdem verwendeten wir einfachere, nicht-invasive Fragen, um Informationen über die Online-Erfahrungen der Annotatoren zu sammeln, anstatt aufdringliche demografische Fragen zu stellen. So konnten wir ihre Privatsphäre respektieren und dennoch vorhersagen, wie sie auf den Text reagieren würden.
Warum ist die individuelle Meinung wichtig?
Bei der Analyse potenziell anstössiger Aussagen ist es entscheidend, die Perspektiven der Menschen zu berücksichtigen, die durch diese Aussagen möglicherweise geschädigt werden. Mehrheitsabstimmungen können die Stimmen dieser Individuen verschleiern. Indem wir die Meinungen spezifischer Zielgruppen modellieren, können wir wertvolle Einblicke gewinnen, die Entscheidungen zur Inhaltsmoderation leiten können.
Wenn beispielsweise eine Aussage analysiert wird und die Annotatoren, die zur betroffenen Gruppe gehören, stark von der Mehrheitsbewertung abweichen, könnte das darauf hindeuten, dass die Aussage auf Weisen schädlich ist, die die Mehrheit nicht erkennt. Das Verständnis dieser unterschiedlichen Meinungen erlaubt einen nuancierteren Ansatz zur Bestimmung, ob eine Aussage wirklich anstössig ist oder nicht.
Annotation und ihre Herausforderungen
Typischerweise hilft es, mehrere Leute Daten zu kennzeichnen, um eine breite Palette von Meinungen zu erfassen. Wenn fast alle mit einem Label einverstanden sind, ist es wahrscheinlich, dass abweichende Meinungen aus Unaufmerksamkeit oder Missverständnis resultieren. In Bereichen, in denen die Meinungen stark von persönlichen Erfahrungen abhängen, wie bei der Erkennung von Hassrede, kann diese Annahme jedoch fehlerhaft sein.
Forschung hat gezeigt, dass weniger erfahrene Annotatoren eher Phrasen als Hassrede kennzeichnen, während erfahrene Annotatoren das Thema anders sehen können. Wenn wir uns nur auf das Mehrheitslabel konzentrieren, riskieren wir, nuancierte Perspektiven zu ignorieren, die zu einem Missverständnis dessen führen könnten, was wirklich schädlich ist.
Unser Ansatz
Wir haben ein Modell entwickelt, das die individuellen Bewertungen der Annotatoren erfasst und vorhersagt, welche demografischen Gruppen möglicherweise von einem bestimmten Text betroffen sind. Damit wollten wir zwei Hauptziele erreichen:
Identifizierung wichtiger Beispiele für Meinungsverschiedenheiten: Wir wollten herausfinden, wo Mitglieder der Zielgruppe abweichende Meinungen von der Mehrheit äusserten. Indem wir diese Fälle erkennen, könnten wir Situationen hervorheben, in denen die Mehrheitsansicht irreführend oder falsch sein könnte.
Minimierung der Datensammlung: Wir wollten einen Weg finden, Bewertungen vorherzusagen, ohne stark auf sensible demografische Daten angewiesen zu sein. Durch den Fokus auf das Verständnis der Online-Erfahrungen und -Präferenzen der Annotatoren konnten wir ihre Meinungen effizienter und ethischer vorhersagen.
Nützliche Informationen sammeln
Um vorherzusagen, wie einzelne Annotatoren einen Text bewerten würden, sammelten wir sowohl demografische Informationen als auch Antworten auf Umfragen zu ihren Online-Gewohnheiten. Für jeden Annotator stellten wir eine Vielzahl von Informationen zusammen, darunter ihre Rasse, Geschlecht, politische Haltung und wie sie toxische Inhalte im Internet wahrnehmen.
Wir organisierten diese Informationen in strukturierte Eingaben, um sie in unser Modell einzuspeisen, das darauf trainiert wurde, vorherzusagen, wie jeder Annotator Aussagen basierend auf ihrem Hintergrund und ihren Erfahrungen bewerten würde. Ziel war es, unser Verständnis für individuelle Meinungen zu verbessern und gleichzeitig die Belastung durch aufdringliche demografische Fragen zu minimieren.
Evaluierung des Modells
Wir bewerteten die Leistung des Modells, indem wir verglichen, wie gut es die individuellen Bewertungen der Annotatoren im Vergleich zu einer Basislinie vorhersagte, die auf Durchschnittsbewertungen beruhte. Wir massen die Genauigkeit der Vorhersagen sowohl bezüglich der individuellen Antworten als auch der allgemeinen Zustimmung unter den Annotatoren.
Die Ergebnisse zeigten, dass unser Modell die Basislinie deutlich übertraf. Es verbesserte beispielsweise die Vorhersagegenauigkeit für individuelle Bewertungen um 22 % und für die Varianz unter den Annotatoren um 33 %. Das deutete darauf hin, dass wir, wenn wir individuelle Hintergründe und Meinungen berücksichtigten, besser in der Lage waren, die Komplexität der Daten zu erfassen.
Vorhersage der Zielgruppe
Ein wesentlicher Aspekt unseres Modells war die Fähigkeit, vorherzusagen, welche demografischen Gruppen durch eine Aussage geschädigt werden könnten. Während des Trainings verfeinerten wir das Modell anhand von Daten, die Textbeispiele und dazugehörige Zielgruppen enthielten. Indem wir diese Gruppen vorhersagten, konnten wir unser Verständnis darüber erweitern, wie spezifische Sprache unterschiedliche Audiences beeinflussen könnte.
Dieses Vorhersagemodul nutzte einen Ansatz der natürlichen Sprachverarbeitung zur Verbesserung der Genauigkeit. Wir bewerteten seine Leistung, indem wir manuell eine Teilmenge von Beispielen annotierten, um die Vorhersagen des Modells mit den tatsächlichen Demografien zu vergleichen. Dieser Prozess half zu bestätigen, dass das Modell die Zielgruppen korrekt identifizierte.
Gesamtleistung des Modells
Die Kombination beider Vorhersagemodule ermöglichte uns die Bewertung der Gesamteffizienz unseres Systems. Das Modell identifizierte erfolgreich Zielgruppen und sagte ihre Bewertungen für potenziell anstössige Inhalte voraus. Dies war eine herausfordernde Aufgabe, da es darum ging, zu verstehen, wie Menschen aus unterrepräsentierten Gruppen auf Aussagen reagieren könnten.
Durch diesen kombinierten Ansatz massen wir die Leistung des Modells bei der genauen Reflexion der Meinungen der Mitglieder der Zielgruppe. Wir fanden heraus, dass das Modell diese Perspektiven effektiv erfasste und unser Verständnis dahingehend verbesserte, wo die Mehrheitsmeinung versagen könnte.
Privatsphäre respektieren
Eine der wichtigsten Überlegungen in unserer Arbeit war sicherzustellen, dass wir die Privatsphäre der Annotatoren respektierten. Das Sammeln demografischer Informationen kann zu Datenschutzbedenken führen, insbesondere wenn es um sensible Merkmale geht. Daher haben wir uns bemüht, Informationen auf eine Weise zu sammeln, die die Individuen nicht leicht identifizierbar macht.
Wir fanden heraus, dass Umfragefragen zu Online-Präferenzen nützliche Proxys für demografische Informationen darstellen können. Dieser Ansatz reduzierte die Notwendigkeit für aufdringliche Fragen und gab uns gleichzeitig wertvolle Einblicke in die Perspektiven der Annotatoren.
Auswirkungen auf die Erkennung von Hassrede
Unsere Ergebnisse haben wichtige Auswirkungen auf Systeme zur Erkennung von Hassrede. Indem wir die Meinungen der Mitglieder der Zielgruppe vorhersagen, können wir die Genauigkeit automatisierter Inhaltsmoderationsprozesse verbessern. Wenn das Modell Aussagen identifiziert, die für spezifische Gruppen anstössig sein könnten, können wir diese für eine genauere Überprüfung durch menschliche Moderatoren markieren.
Das ermöglicht es den Systemen, die Nuancen von Hassrede besser zu erfassen und zu erkennen, dass die Meinungen innerhalb einer Demografie unterschiedlich sein können und dass einige Aussagen je nach Kontext schädlich sein können. Darüber hinaus hilft das Verständnis der Varianz in den Annotationen bei der Einschätzung des Vertrauens in die Vorhersagen des Modells und stellt sicher, dass unsichere Fälle die angemessene Aufmerksamkeit erhalten.
Zukünftige Herausforderungen angehen
Obwohl unser Ansatz vielversprechend war, gibt es weiterhin Herausforderungen zu beachten. Zum Beispiel haben wir unsere Forschung auf englischen Text aus bestimmten Regionen konzentriert, was Fragen aufwirft, wie gut diese Ergebnisse auf andere Sprachen oder Kulturen verallgemeinert werden können. Unterschiedliche Gemeinschaften können unique Probleme im Zusammenhang mit Hassrede haben, und zukünftige Arbeiten sollten untersuchen, wie wir unsere Methoden entsprechend anpassen können.
Zudem müssen wir die ethischen Implikationen der Modellierung von Meinungen basierend auf demografischen Daten berücksichtigen. Es ist entscheidend, sicherzustellen, dass unsere Analysen Individuen nicht auf blosse Statistiken reduzieren oder innerhalb einer demografischen Gruppe eine monolithische Meinung annehmen. Zukünftige Forschungen sollten sich darauf konzentrieren, die Repräsentation in den Datensammlungsbemühungen zu verbessern, um diese Bedenken anzugehen.
Fazit
Zusammenfassend haben wir ein Modell vorgestellt, das die individuellen Bewertungen von Annotatoren zur Anstössigkeit von Texten vorhersagt und gleichzeitig potenziell betroffene Demografische Gruppen identifiziert. Indem wir die einzigartigen Perspektiven von Individuen berücksichtigen und die Notwendigkeit für aufdringliche demografische Daten minimieren, haben wir gezeigt, dass es möglich ist, wertvolle Einblicke in die Komplexität der Erkennung von Hassrede zu gewinnen.
Die Fähigkeit des Modells, die Bewertungen der Zielgruppen vorherzusagen, verbessert das Verständnis von Meinungsverschiedenheiten zwischen Mehrheits- und Minderheitsansichten. Diese Arbeit dient als Grundlage für zukünftige Forschung, die darauf abzielt, die Genauigkeit und Fairness von Anwendungen des maschinellen Lernens zu verbessern, während die Privatsphäre und Würde aller Beteiligten respektiert wird.
Indem wir auf verschiedene Stimmen hören und die Bedeutung von Lebenserfahrungen anerkennen, können wir auf einen inklusiveren und effektiveren Ansatz zur Bewältigung sensibler Themen im maschinellen Lernen und darüber hinaus hinarbeiten.
Titel: When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks
Zusammenfassung: Though majority vote among annotators is typically used for ground truth labels in natural language processing, annotator disagreement in tasks such as hate speech detection may reflect differences in opinion across groups, not noise. Thus, a crucial problem in hate speech detection is determining whether a statement is offensive to the demographic group that it targets, when that group may constitute a small fraction of the annotator pool. We construct a model that predicts individual annotator ratings on potentially offensive text and combines this information with the predicted target group of the text to model the opinions of target group members. We show gains across a range of metrics, including raising performance over the baseline by 22% at predicting individual annotators' ratings and by 33% at predicting variance among annotators, which provides a metric for model uncertainty downstream. We find that annotator ratings can be predicted using their demographic information and opinions on online content, without the need to track identifying annotator IDs that link each annotator to their ratings. We also find that use of non-invasive survey questions on annotators' online experiences helps to maximize privacy and minimize unnecessary collection of demographic information when predicting annotators' opinions.
Autoren: Eve Fleisig, Rediet Abebe, Dan Klein
Letzte Aktualisierung: 2024-03-17 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2305.06626
Quell-PDF: https://arxiv.org/pdf/2305.06626
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.