Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Rechnen und Sprache

Umgang mit herablassender und bevormundender Sprache

Ein neuer Datensatz soll schädliche Sprache in chinesischen Videos bekämpfen.

― 6 min Lesedauer


Schädliche Sprache inSchädliche Sprache inMedien bekämpfenSpracheffekte.Neuer Datensatz behandelt subtile
Inhaltsverzeichnis

Herablassendes und herabsetzendes Sprache (HHS) ist eine Art von schädlicher Sprache, die sich gegen Verletzliche Gruppen richtet. So eine Sprache zeigt oft eine Überlegenheit gegenüber Personen, wie Menschen mit Behinderungen, Kindern und älteren Menschen. Sie kann sowohl ihre Online- als auch Offline-Sicherheit beeinträchtigen. Während viele Studien sich auf klare Formen von schädlicher Sprache konzentrieren, wie Hassrede, wird HHS nicht so gut erforscht. Diese Art von Sprache kann subtiler sein und nutzt oft nonverbale Hinweise, wie Gesichtsausdrücke, die manchmal sogar mächtiger sind als Worte.

Der Bedarf an besserem Verständnis

Mit dem Wachstum von sozialen Medien können schädliche Inhalte schnell verbreitet werden. Auch wenn es Regeln gibt, um gefährliche Inhalte zu reduzieren, übersehen viele Plattformen oft Mikroaggressionen wie HHS, die weiterhin verletzliche Gemeinschaften schädigen. HHS verwendet nicht immer beleidigende Worte, was es schwerer macht, sie zu erkennen. Viele bestehende Tools zur Erkennung von schädlicher Sprache konzentrieren sich hauptsächlich auf englische Inhalte, was viele andere Sprachen, einschliesslich Chinesisch, ausschliesst.

Einführung eines neuen Datensatzes

Um dieses Problem anzugehen, wurde ein neuer Datensatz namens HHSMM erstellt. Dieser Datensatz ist der erste seiner Art für chinesische Videos und umfasst 715 Videos von der Plattform Bilibili, einer beliebten Video-Sharing-Website. Die Videos wurden sorgfältig geprüft und markiert, ob sie HHS enthalten oder nicht. Der Datensatz enthält über 21 Stunden Video und hebt Gesichtsausdrücke hervor, die HHS zeigen. Diese Ressource soll die Forschung zu diesen Arten von schädlichen Interaktionen in Videos unterstützen.

Wie der Datensatz erstellt wird

Die Erstellung des HHSMM-Datensatzes war ein detaillierter Prozess. Die Forscher entwickelten klare Richtlinien, um zu erkennen, wie HHS im chinesischen Kontext aussieht. Sie konzentrierten sich auf sechs Gruppen, die oft schlecht behandelt werden: Menschen mit Behinderungen, Frauen, ältere Leute, Kinder, Alleinerziehende und einkommensschwache Gruppen. Das Ziel war, Videos zu finden und zu sammeln, die Beispiele für HHS zeigen, die sich gegen diese Gemeinschaften richten.

Um Videos zu sammeln, verwendeten die Forscher eine Liste von Schlüsselwörtern, die mit jeder verletzlichen Gruppe verbunden sind. Sie suchten mit diesen Schlüsselwörtern auf Bilibili und fanden eine grosse Anzahl von vorläufigen Videos. Nach dem Filtern dieser Videos, um beschädigte oder irrelevante zu entfernen, wählten sie die finalen 715 Videos für den Datensatz aus.

Die Videos annotieren

Sobald die Videos gesammelt waren, sah ein kleines Team sie sorgfältig an und kennzeichnete sie entweder als HHS enthalten oder nicht. Dieser Prozess beinhaltete zwei geschulte Annotatoren und einen Prüfer, um die Genauigkeit sicherzustellen. Sie achteten genau darauf, wie die Sprecher sich ausdrückten, sowohl verbal als auch durch Gesichtsausdrücke. Sie begrenzten die Anzahl der pro Tag annotierten Videos, um Erschöpfung zu vermeiden, und verfolgten ihr emotionales Wohlbefinden während des Prozesses.

Die Forscher schafften es, eine konsistente Übereinstimmung darüber zu etablieren, was als HHS zählt. Am Ende kategorisierten sie 196 Videos als HHS und 519 als non-HHS.

Analyse des Datensatzes

Nachdem die Videos gekennzeichnet waren, führten die Forscher eine Analyse durch, um mehr über die Sprache in den Videos zu erfahren. Sie betrachteten die Gesichtsausdrücke, die in HHS- und non-HHS-Videos gezeigt wurden. Mit einem fortgeschrittenen GesichtsanalysTool fanden sie heraus, dass HHS oft negative Emotionen wie Wut und Traurigkeit beinhaltete, während non-HHS-Videos hauptsächlich positive oder neutrale Ausdrücke zeigten.

Ausserdem bewerteten sie die Texte der Videos, um zu verstehen, wie toxisch die Sprache war. HHS-Proben hatten höhere Toxizitätswerte als non-HHS-Proben, obwohl sie immer noch weniger toxisch waren als offensichtliche Hassrede. Dies unterstreicht die Subtilität von HHS und wie schwer es sein kann, sie zu erkennen.

Die Aufgabe der Erkennung

Die Aufgabe besteht darin, ein System zu schaffen, das Videos automatisch in HHS oder non-HHS klassifiziert. Dazu wird der Videoinput in verschiedene Teile zerlegt: Frames, Gesichtsausdrücke, Audio und transkribierter Text. Jeder Teil bietet unterschiedliche Einblicke in das Video, was bei der genauen Entscheidung über die verwendete Sprache hilft.

Aufbau des Erkennungsmodells

Um die Videos zu analysieren, verwendeten die Forscher ein Modell, das sich auf verschiedene Arten von Eingaben konzentriert. Für Video-Frames nutzten sie Techniken, die das Aussehen und die Bewegung dessen, was im Video passiert, berücksichtigen. Sie verwendeten auch Gesichtserkennung, um Gesichtsausdrücke zu analysieren und zwischen HHS und non-HHS zu unterscheiden.

Um Audio zu erfassen, wandelten sie den Sound in Merkmale um, die besser analysiert werden konnten. Für den Text verwendeten sie ein spezielles Tool, um das Audio zu transkribieren und dann den Text auf Anzeichen von HHS zu analysieren. Das Zusammenführen all dieser verschiedenen Eingaben ermöglicht ein robusteres Verständnis der verwendeten Sprache.

Verschmelzung verschiedener Informationsarten

Das Erkennungsmodell kombiniert alle gesammelten Informationen aus den Videos, Gesichtsausdrücken, Audio und Text in einem einheitlichen System. Dieser Ansatz hilft, stärkere Verbindungen zwischen den verschiedenen Informationsarten herzustellen. Die Forscher fanden heraus, dass dieser Ansatz zu besseren Erkennungsergebnissen für die Identifizierung von HHS führte.

Testen des Modells

Um sicherzustellen, dass das Modell gut funktioniert, führten die Forscher Experimente durch. Sie verwendeten verschiedene Kombinationen der verschiedenen Eingaben und stellten fest, dass die Verwendung von Videos zusammen mit anderen Eingaben die Erkennungsleistung verbesserte. Sie testeten mehrere Setups, einschliesslich der Verwendung nur eines Typs von Eingabe zur gleichen Zeit und dann der Kombination verschiedener.

Die Ergebnisse zeigten, dass die Kombination der verschiedenen Eingaben durchweg zu einer besseren Erkennung von HHS führte. Das System, das alle vier Eingabetypen umfasste, erzielte die besten Ergebnisse im Vergleich zu denen, die weniger Eingaben verwendeten.

Fazit und zukünftige Arbeiten

Herablassende und herabsetzende Sprache ist ein bedeutendes Problem, das verletzlichen Personen schaden kann. Die Erstellung des HHSMM-Datensatzes ist ein wichtiger Schritt zur Verbesserung unseres Verständnisses für diese Sprachform. Dieser Datensatz bietet eine solide Grundlage für zukünftige Forschung zu schädlicher Sprache und kann bei der Entwicklung besserer Erkennungstools helfen.

In Zukunft wird der Fokus darauf liegen, die Auswirkungen von HHS auf Mikroaggressionen zu verstehen und wie sie mit anderer schädlicher Sprache, wie Sarkasmus oder Stereotypen, in Beziehung stehen. Die Forscher werden auch bestehende Modelle bewerten, um zu sehen, wie gut sie bei der Erkennung von HHS funktionieren, wobei der neue Datensatz und die Erkennungstools als Massstab dienen.

Diese Forschung hat das Potenzial, die Sicherheit für verletzliche Gruppen zu verbessern, indem sie auf subtile Formen von schädlicher Sprache aufmerksam macht, die oft übersehen werden. Mit wachsendem Verständnis und verbesserten Werkzeugen kann es einen grösseren Vorstoss geben, diese Probleme effektiv anzugehen.

Originalquelle

Titel: Towards Patronizing and Condescending Language in Chinese Videos: A Multimodal Dataset and Detector

Zusammenfassung: Patronizing and Condescending Language (PCL) is a form of discriminatory toxic speech targeting vulnerable groups, threatening both online and offline safety. While toxic speech research has mainly focused on overt toxicity, such as hate speech, microaggressions in the form of PCL remain underexplored. Additionally, dominant groups' discriminatory facial expressions and attitudes toward vulnerable communities can be more impactful than verbal cues, yet these frame features are often overlooked. In this paper, we introduce the PCLMM dataset, the first Chinese multimodal dataset for PCL, consisting of 715 annotated videos from Bilibili, with high-quality PCL facial frame spans. We also propose the MultiPCL detector, featuring a facial expression detection module for PCL recognition, demonstrating the effectiveness of modality complementarity in this challenging task. Our work makes an important contribution to advancing microaggression detection within the domain of toxic speech.

Autoren: Hongbo Wang, Junyu Lu, Yan Han, Kai Ma, Liang Yang, Hongfei Lin

Letzte Aktualisierung: 2024-09-09 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.05005

Quell-PDF: https://arxiv.org/pdf/2409.05005

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel