Hassredeerkennung in ressourcenarmen Sprachen
Diese Umfrage zeigt die Herausforderungen und Fortschritte bei der Erkennung von Hassrede in verschiedenen Sprachen.
Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
― 6 min Lesedauer
Inhaltsverzeichnis
- Was ist Hassrede?
- Kategorien von Hassrede
- Rassismus und Fremdenfeindlichkeit
- Sexismus und Geschlechterhass
- Religiöse Hassrede
- Ableism
- Warum ist Hassrede schwer zu erkennen?
- Der Bedarf an automatischer Hassrede-Erkennung
- Die Datensätze
- Techniken zur Erkennung von Hassrede
- Traditionelle Methoden
- Moderne Techniken
- Herausforderungen bei ressourcenschwachen Sprachen
- Forschungsgelegenheiten
- Fazit
- Originalquelle
- Referenz Links
Soziale Medien haben in den letzten zehn Jahren verändert, wie wir kommunizieren. Leute können Ideen, Meinungen und manchmal auch nicht so nette Kommentare austauschen. Anonymität auf diesen Plattformen führt oft zu Hassrede, was weltweit ein grosses Problem geworden ist. Es geht nicht nur darum, was die Leute sagen, sondern auch wie sie es sagen. Da sich Sprachen weiterentwickeln, tauchen neue Wörter und Ausdrücke auf. Das stellt eine Herausforderung für diejenigen dar, die versuchen, Hassrede zu verstehen und damit umzugehen.
Während Englisch viel Aufmerksamkeit beim Erkennen von Hassrede erhalten hat, nutzen viele Sprecher online ihre Muttersprache. Das hat einen Bedarf an Forschung für diejenigen spärlich ressourcierten Sprachen geschaffen, wo nicht genug Daten oder Forschung vorhanden sind. Diese Umfrage wird die Situation aufschlüsseln und Ergebnisse zur Erkennung von Hassrede in diesen Sprachen präsentieren.
Was ist Hassrede?
Hassrede zu definieren ist nicht einfach. Es ist wie der Versuch, einen glitschigen Fisch zu fangen. Verschiedene Gruppen haben unterschiedliche Meinungen darüber, was als Hassrede gilt. Im Allgemeinen umfasst Hassrede Worte oder Handlungen, die Einzelpersonen oder Gruppen aufgrund von Rasse, Religion, Geschlecht oder anderen Identitätsfaktoren angreifen. Wenn jemand zum Beispiel abwertende Begriffe verwendet, um eine bestimmte Rasse oder Religion zu beleidigen, fällt das unter Hassrede.
Viele grosse soziale Medienplattformen haben ihre eigenen Definitionen. Zum Beispiel:
- Meta: Definiert Hassrede als direkte Angriffe gegen Menschen aufgrund geschützter Merkmale wie Rasse und Geschlecht.
- YouTube: Sieht Hassrede als alles an, was Gewalt gegen bestimmte Gruppen anstiftet.
- Twitter: Verboten sind Angriffe basierend auf Rasse, Geschlecht und anderen persönlichen Merkmalen.
- TikTok: Konzentriert sich auf Inhalte, die Individuen basierend auf ihren Eigenschaften entmenschlichen.
- LinkedIn: Verbietet Hassrede, die sich gegen Menschen aufgrund persönlicher Merkmale richtet.
Kategorien von Hassrede
Hassrede kann in mehrere Kategorien eingeteilt werden, je nachdem, wer oder was sie anspricht. Hier sind ein paar wichtige:
Rassismus und Fremdenfeindlichkeit
Diese Kategorie umfasst negative Kommentare gegenüber Menschen basierend auf ihrer Rasse oder Nationalität. Zum Beispiel sind Einwanderer oft Anfeindungen ausgesetzt, basierend darauf, woher sie kommen.
Sexismus und Geschlechterhass
Das betrifft parteiische Bemerkungen gegenüber Individuen auf Grundlage ihres Geschlechts. Während Frauen oft die Hauptziele solcher Kommentare sind, erfahren auch Menschen verschiedener Geschlechter Hassrede.
Religiöse Hassrede
Diese Art zielt auf Individuen basierend auf ihren religiösen Überzeugungen. Diskriminierung kann zu Gewalt, Konflikten oder sozialer Unruhe führen.
Ableism
Hassrede hier richtet sich an Menschen mit Behinderungen. Das kann abwertende Bemerkungen oder Annahmen über ihre Fähigkeiten umfassen.
Warum ist Hassrede schwer zu erkennen?
Hassrede zu erkennen ist aus verschiedenen Gründen schwierig. Erstens kann Sprache kompliziert sein und der Kontext spielt eine grosse Rolle. Was in einem Setting wie ein harmloser Kommentar erscheinen mag, könnte in einem anderen beleidigend sein. Die Leute verwenden oft Sarkasmus oder clevere Wortspiele, die automatische Systeme verwirren können.
Zweitens generiert soziale Medien täglich Unmengen an Daten, was es nahezu unmöglich macht, alles manuell zu überwachen. Daher besteht ein grosser Bedarf an Maschinen, die beim Erkennen von Hassrede automatisch helfen.
Der Bedarf an automatischer Hassrede-Erkennung
Da immer mehr Menschen soziale Medien nutzen, um sich auszudrücken, ist die Menge an Hassrede parallel gewachsen. Manuelle Überwachung ist einfach nicht machbar. Viele Forscher haben sich Technologien zugewandt, um automatische Erkennungsmethoden zu entwickeln, um dieses Problem zu bekämpfen.
Automatisierte Systeme nutzen fortgeschrittene Techniken in natürlicher Sprachverarbeitung, maschinellem Lernen und tiefem Lernen. Sie wühlen durch riesige Textmengen, um hasserfüllte Inhalte zu identifizieren. Vieles dieser Forschung hat sich jedoch auf Englisch konzentriert, wodurch eine Lücke in den Studien zu anderen Sprachen entsteht.
Datensätze
DieDie Sammlung von Daten zur Hassrede ist ein wichtiger Teil des Trainings von Erkennungssystemen. Die meisten verfügbaren Datensätze sind in Englisch. Verschiedene Datensätze von Twitter und anderen Plattformen bieten wertvolle Ressourcen, aber die Sammlung für ressourcenschwache Sprachen bleibt eine Herausforderung.
Forscher haben begonnen, Datensätze in Sprachen wie Arabisch, Hindi, Tamil und anderen zusammenzustellen, wobei der Fokus sowohl auf monolingualen als auch mehrsprachigen Aspekten liegt. Die Menge und Qualität sind jedoch noch nicht auf dem Niveau der englischen Datensätze.
Techniken zur Erkennung von Hassrede
Die Hauptmethoden zur Erkennung von Hassrede bestehen aus einer Mischung traditioneller und moderner Ansätze:
Traditionelle Methoden
Zunächst war die Erkennung auf Schlüsselwörtern basierend üblich. Dabei wurden einfach bestimmte Wörter oder Phrasen identifiziert, die mit Hassrede assoziiert sind. Während das nützlich war, blieb der Kontext und die Nuance oft unberücksichtigt, was viele falsch-positive Ergebnisse zur Folge hatte.
Moderne Techniken
Aktuelle Ansätze haben sich auf die Verwendung von tiefen Lernmodellen verlagert, die Kontext, Sentiment und sogar Bilder berücksichtigen. Zum Beispiel:
- BERT: Dieses Modell versteht die Beziehung zwischen Wörtern und deren Bedeutungen im Kontext.
- CNN: Convolutional Neural Networks werden oft verwendet, um Muster in Texten zu identifizieren.
- RNN: Recurrent Neural Networks sind dazu gedacht, Sequenzen zu verstehen, was sie nützlich für die Sprachverarbeitung macht.
Herausforderungen bei ressourcenschwachen Sprachen
Bei ressourcenschwachen Sprachen multiplizieren sich die Herausforderungen:
- Datenmangel: Es gibt einfach nicht genug öffentlich verfügbare Daten, um Modelle effektiv zu trainieren, was zu weniger genauen Erkennungen führt.
- Kulturelle Nuancen: Verschiedene Regionen verwenden Sprachen unterschiedlich, was es schwierig macht, ein Modell für alle zu entwickeln.
- Definition von Hassrede: Der Begriff "Hassrede" hat in verschiedenen Kulturen unterschiedliche Bedeutungen, was die Annotation von Datensätzen kompliziert.
Forschungsgelegenheiten
Obwohl es viele Herausforderungen gibt, gibt es auch zahlreiche Möglichkeiten zur Verbesserung der Erkennung von Hassrede:
- Datenbeschaffung verbessern: Der Fokus auf die Gewinnung mehr Daten aus ressourcenschwachen Sprachen kann hilfreich sein.
- Kulturelles Bewusstsein: Modelle zu schaffen, die den kulturellen Kontext berücksichtigen, wird die Erkennungssysteme effektiver machen.
- Interdisziplinäre Zusammenarbeit: Zusammenarbeit zwischen Soziologen, Linguisten und Datenwissenschaftlern kann zu einem besseren Verständnis und Lösungen führen.
Fazit
Die Erkennung von Hassrede, insbesondere in ressourcenschwachen Sprachen, stellt eine Vielzahl von Herausforderungen und Chancen dar. Während soziale Medien weiterhin eine Plattform für Kommunikation sind, wird die Wichtigkeit, Hassrede automatisch zu identifizieren und anzugehen, entscheidend, um ein sicheres Online-Umfeld aufrechtzuerhalten. Auch wenn noch viel Arbeit vor uns liegt, können Fortschritte in der Technologie und im Verständnis der Sprachnuancen den Weg für eine inklusivere Zukunft ebnen. Lass die Maschinen uns helfen, die Lücken zu schliessen und dieses Problem gemeinsam anzugehen!
Titel: A Survey on Automatic Online Hate Speech Detection in Low-Resource Languages
Zusammenfassung: The expanding influence of social media platforms over the past decade has impacted the way people communicate. The level of obscurity provided by social media and easy accessibility of the internet has facilitated the spread of hate speech. The terms and expressions related to hate speech gets updated with changing times which poses an obstacle to policy-makers and researchers in case of hate speech identification. With growing number of individuals using their native languages to communicate with each other, hate speech in these low-resource languages are also growing. Although, there is awareness about the English-related approaches, much attention have not been provided to these low-resource languages due to lack of datasets and online available data. This article provides a detailed survey of hate speech detection in low-resource languages around the world with details of available datasets, features utilized and techniques used. This survey further discusses the prevailing surveys, overlapping concepts related to hate speech, research challenges and opportunities.
Autoren: Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
Letzte Aktualisierung: 2024-11-28 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2411.19017
Quell-PDF: https://arxiv.org/pdf/2411.19017
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://creativecommons.org/licenses/by-sa/4.0/
- https://transparency.meta.com/en-gb/policies/community-standards/hate-speech/
- https://www.youtube.com/intl/ALL
- https://help.twitter.com/en/rules-and-policies/x-rules
- https://www.tiktok.com/safety/en/countering-hate/
- https://www.linkedin.com/help/linkedin/answer/a1339812
- https://github.com/ZeerakW/hatespeech
- https://github.com/t-davidson/hate-s
- https://github.com/jing-qian/A-Bench
- https://github.com/ziqizhang/data
- https://github.com/intelligence-csd-auth-gr/Ethos-Hate-Speech-Dataset
- https://github.com/punyajoy/HateXplain
- https://zpitenis.com/ogtd
- https://github.com/paulafortuna/Port
- https://github.com/msang/hate-speech-corpus
- https://goo.gl/27EVbU
- https://github.com/nuhaalbadi/Arabic
- https://github.com/UCSM-DUE/
- https://github.com/
- https://github.com/ialfina/id-hatespeech-detection
- https://huggingface.co/datasets/sinhala-nlp/SOLD
- https://github.com/pmathur5k10/Hinglish-Offensive-Text-Classification
- https://github.com/rezacsedu/Bengali-Hate-Speech-Dataset
- https://github.com/l3cube-pune/MarathiNLP
- https://coltekin.github.io/offensive-turkish/
- https://github.com/verimsu/
- https://github.com/mawic/german-abusive-language-covid-19
- https://github.com/clips/hades
- https://github.com/adlnlp/K-MHaS
- https://github.com/deepanshu1995/HateSpeech-HindiEnglish-Code-Mixed-Social-Media-Text
- https://github.com/naurosromim/hate-speech-dataset-for-Bengali-social-media
- https://github.com/msang/hateval/
- https://projects.cai
- https://sites.google.com/site/offensevalsharedtask/home
- https://github.com/marcoguerini/CONAN
- https://hasocfire.github.io/hasoc/2019/dataset.html
- https://hasocfire.github.io/hasoc/2021/dataset.html
- https://gombru.github.io/2019/10/09/MMHS/
- https://hatefulmemeschallenge.com/
- https://github.com/Farhan-jafri/Russia-Ukraine
- https://github.com/eftekhar-hossain/MUTE-AACL22