Verbesserung der Erkennung von Hassrede in Multimedia
Die Kombination aus Audio, Video und Text verbessert die Erkennung von Hassrede.
― 5 min Lesedauer
Inhaltsverzeichnis
Mit dem Anstieg der Internetnutzung ist es schwieriger geworden, hasserfüllte Sprache in Audio- und Videoinhalten zu erkennen. Einfach Videos oder Audios in Text umzuwandeln, lässt oft den Kontext aus, weil Leute hasserfüllte Wörter spielerisch nutzen oder verschiedene Emotionen durch den Ton und die Handlung ausdrücken können. Die meisten bestehenden Methoden zur Erkennung von Hassrede konzentrieren sich nur auf eine Art von Inhalt – wie nur Text. Diese Forschung schlägt eine bessere Methode vor, indem sie verschiedene Datentypen wie Bilder, Audio und Text kombiniert, um die Erkennung von Hassrede in Videos zu verbessern.
Die Bedeutung der Bekämpfung von Hassrede
In der heutigen digitalen Welt findet man Hassrede nicht nur in schriftlichen Kommentaren oder Posts, sondern auch in Sprachnachrichten und Videos. Diese Art von schädlichem Inhalt kann zu ernsthaften Problemen führen, darunter Cybermobbing und gewalttätige Taten. Berichte zeigen, dass viele Hassverbrechen online ihren Ursprung haben und reale Konsequenzen für Menschen haben. Solche Daten sind oft mit Stimme und Gesichtsausdrücken verbunden, was es essenziell macht, all diese Aspekte bei der Erkennung von Hassrede zu berücksichtigen.
Aktuelle Methoden und ihre Grenzen
Die meisten aktuellen Studien stützen sich stark auf Textdaten zur Identifizierung von Hassrede. Diese Methoden können jedoch unzureichend sein, da sie den emotionalen Ton der Stimme oder Gesichtsausdrücke nicht berücksichtigen. Diese Forschung zielt darauf ab, die Genauigkeit zu verbessern, indem Audio, Video und Text zusammen zur Erkennung von Hassrede betrachtet werden.
Forschungsansatz
Der Ansatz dieser Forschung umfasst mehrere Hauptschritte:
Datensammlung: Videos wurden aus verschiedenen Quellen gesammelt, darunter Filme und Serien, wobei darauf geachtet wurde, dass es Beispiele für sowohl hasserfüllte als auch nicht-hasserfüllte Sprache gibt.
Datenaufbereitung: Die Videos wurden verarbeitet, um Bilder, Audio- und Textinhalte zu extrahieren. Jeder Inhaltstyp wurde als Hass oder Nicht-Hass gekennzeichnet.
Merkmalextraktion: Relevante Merkmale aus den Bildern, Audioclips und Texten wurden identifiziert und extrahiert. Verschiedene Techniken wurden verwendet, um die bedeutendsten Merkmale auszuwählen.
Modellentwicklung: Separate Modelle wurden für Bilder, Audio und Text erstellt. Die Ergebnisse dieser Modelle wurden dann kombiniert, um eine endgültige Entscheidung darüber zu treffen, ob der Inhalt Hassrede enthielt.
Datenquellen und -typen
In dieser Studie wurden insgesamt 1.051 Videos vorbereitet, die in Hass- und Nicht-Hassrede kategorisiert wurden. Hassrede war mit negativen Emotionen wie Wut und Angst verbunden, während Nicht-Hassrede mit positiven Gefühlen wie Freude und Amüsement verknüpft war. Die Videodaten wurden mit speziellen Tools verarbeitet, die für solch Inhalte entwickelt wurden, und die Ergebnisse wurden entsprechend gekennzeichnet.
Datenverarbeitung
Bilddaten
Bilder wurden mit einer Rate von 30 Bildern pro Sekunde aus den Videos extrahiert, und jedes Bild wurde je nach Inhalt gekennzeichnet. Diese Bilder wurden zur Konsistenz in der Analyse in der Grösse angepasst.
Audiodaten
Der Audioinhalt der Videos wurde bearbeitet, um Hintergrundgeräusche zu entfernen, was es einfacher machte, die Hassrede zu erkennen. Der Audioinhalt wurde in kürzere Segmente unterteilt, um eine effektive Analyse zu ermöglichen, was eine genauere Bewertung der Audiodaten ermöglichte.
Textdaten
Die Audiodaten wurden mit Spracherkennungstechnologie in Text umgewandelt. Nach der Umwandlung wurde der Text bereinigt, indem unnötige Elemente wie Sonderzeichen und Füllwörter entfernt wurden, was half, sich auf die Kernbotschaften zu konzentrieren.
Techniken zur Merkmalextraktion
Für Bilder
Bilder wurden in Arrays umgewandelt, um sie zu verarbeiten. Wesentliche Merkmale wurden extrahiert, um Unterschiede zwischen Hass- und Nicht-Hass-Inhalten hervorzuheben.
Für Audio
Audiosignale wurden sowohl im Zeit- als auch im Frequenzbereich analysiert. Verschiedene Eigenschaften wie Energielevels und Änderungen der Klanghöhe wurden berechnet, um die zugrunde liegenden Merkmale zu verstehen, die auf Hassrede hinweisen könnten.
Für Text
Textuelle Daten wurden in feste Längenvektoren umgewandelt, indem Methoden verwendet wurden, die die Wortvorkommen zählten und bewerteten, wie wichtig bestimmte Wörter in den Dokumenten waren.
Auswahl relevanter Merkmale
Nach der Merkmalextraktion wurden die wichtigsten Eigenschaften mit spezifischen Techniken ausgewählt, die für die Merkmalsauswahl entwickelt wurden. So wurde gewährleistet, dass nur die nützlichsten Informationen in den endgültigen Modellen verwendet wurden.
Tests und Ergebnisse
Mehrere Maschinenlernmodelle wurden verwendet, um die Leistung des Hassrede-Erkennungssystems zu bewerten. Zu diesen gehörten:
- Support Vector Machine (SVM): Dieses Modell identifizierte die besten Entscheidunggrenzen, um Hass- und Nicht-Hass-Inhalte zu trennen.
- Random Forest: Diese Technik baute mehrere Entscheidungsbäume, um zu einem Konsens zu gelangen, was half, Fehler zu minimieren.
- Logistische Regression: Dieses statistische Modell bewertete den Einfluss verschiedener Faktoren auf die Wahrscheinlichkeit, dass Inhalte als Hass oder Nicht-Hass klassifiziert werden.
- AdaBoost: Dieser Ansatz konzentrierte sich darauf, die Leistung schwächerer Modelle zu verbessern, indem die Datengewichte basierend auf vorherigen Fehlklassifikationen angepasst wurden.
- Naive Bayes: Dieses Modell ging davon aus, dass die Merkmale unabhängig sind und klassifizierte basierend auf Wahrscheinlichkeiten.
Multi-Modaler Ansatz
Nachdem jeder Inhaltstyp separat ausgewertet wurde, wurde eine Mehrheitsabstimmungsmethode verwendet, um die Ergebnisse zu kombinieren. Wenn zwei oder mehr der separaten Modelle Hassrede anzeigten, wurde die endgültige Entscheidung getroffen, den Inhalt als Hassrede zu klassifizieren.
Analyse der Ergebnisse
Der multi-modale Ansatz ergab eine verbesserte Genauigkeit im Vergleich zur Analyse nur eines Datentyps. Unter den getesteten Modellen schnitten AdaBoost und Naive Bayes am besten ab und erreichten über 75% Genauigkeit. Andere Modelle zeigten ebenfalls wettbewerbsfähige Leistungen, aber der kombinierte Ansatz verdeutlichte die Stärke der Integration verschiedener Inhaltstypen für bessere Ergebnisse.
Fazit
Hassrede ist ein bedeutendes Problem, das effektiv angegangen werden muss. Durch die gemeinsame Analyse von Audio, Video und Text hat diese Forschung Fortschritte bei der genaueren Erkennung von hasserfülltem Inhalt gemacht. Die Nutzung verschiedener Datenquellen und die Kombination von Ergebnissen aus verschiedenen Modellen haben sich vielversprechend erwiesen, um die Verbreitung von schädlicher Sprache online zu verringern. Diese Arbeit trägt zur fortwährenden Bemühung bei, sicherere Online-Räume zu schaffen und respektvolle Kommunikation zu fördern.
Titel: Multi-modal Hate Speech Detection using Machine Learning
Zusammenfassung: With the continuous growth of internet users and media content, it is very hard to track down hateful speech in audio and video. Converting video or audio into text does not detect hate speech accurately as human sometimes uses hateful words as humorous or pleasant in sense and also uses different voice tones or show different action in the video. The state-ofthe-art hate speech detection models were mostly developed on a single modality. In this research, a combined approach of multimodal system has been proposed to detect hate speech from video contents by extracting feature images, feature values extracted from the audio, text and used machine learning and Natural language processing.
Autoren: Fariha Tahosin Boishakhi, Ponkoj Chandra Shill, Md. Golam Rabiul Alam
Letzte Aktualisierung: 2023-06-15 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2307.11519
Quell-PDF: https://arxiv.org/pdf/2307.11519
Lizenz: https://creativecommons.org/publicdomain/zero/1.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.fbi.gov/news/pressrel/press-releases/fbi-releases-2019-hate-crime-statistics
- https://www.medicinenet.com/why-do-people-hate/article.htm
- https://positivepsychology.com/positive-negative-emotions/
- https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.673.2797
- https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/springerEBR09.pdf