Umgang mit toxischen Kommentaren in den bengalischen sozialen Medien
Diese Studie untersucht toxische Kommentare, die sich in sozialen Medien gegen marginalisierte Gruppen in Bengali richten.
Mukaffi Bin Moin, Pronay Debnath, Usafa Akther Rifa, Rijeet Bin Anis
― 6 min Lesedauer
Inhaltsverzeichnis
- Das Problem toxischer Kommentare
- Bedeutung der Studie
- Forschungsziele
- Vorherige Arbeiten
- Datensammlung
- Kommentare sammeln
- Datenannotation
- Auswahl der Annotatoren
- Richtlinien für die Annotation
- Datenanalyse
- Datensatzstatistiken
- Methodologie
- Vortrainierte Modelle
- Modelltraining
- Experimentelle Ergebnisse
- Leistungsevaluation
- Fazit
- Originalquelle
- Referenz Links
Soziale Medien haben heute einen grossen Einfluss darauf, wie wir uns verbinden und Ideen teilen. Plattformen wie Facebook, Twitter und Instagram ermöglichen es uns, mit Leuten zu quatschen und Trends zu verfolgen. Aber diese Plätze werden auch von manchen Nutzern missbraucht, die Toxische Kommentare posten. Diese Kommentare können gemein, verletzend oder sogar hassvoll sein. Diese Studie schaut sich toxische Kommentare in Bengali an, die sich gegen bestimmte Gruppen richten: Transgender Personen, indigene Völker und Migranten.
Das Problem toxischer Kommentare
Toxische Kommentare können Individuen und Gemeinschaften schaden. Sie können Beleidigungen, Drohungen oder schädliche Stereotypen beinhalten. Solche Sprache kann soziale Medien zu einem feindlichen Ort für bestimmte Gruppen machen. Es ist notwendig, toxische Kommentare zu identifizieren und zu messen, um ihre Auswirkungen besser zu verstehen. Wenn wir uns die Arten von Kommentaren anschauen, die sich gegen bestimmte Gruppen richten, sehen wir, wie sich dieses Verhalten auf sie auswirkt.
Bedeutung der Studie
Zu verstehen, was Toxizität in Kommentaren angeht, ist entscheidend, um eine sicherere Online-Umgebung zu fördern. Wenn wir messen, wie oft und in welchem Ausmass bestimmte Gruppen mit toxischen Kommentaren konfrontiert werden, können wir Wege finden, ihnen zu helfen. Wenn eine Gruppe oft negative Kommentare bekommt, wissen wir, dass sie mehr Unterstützung braucht. Diese Forschung ist besonders wichtig, weil es bisher nicht viel Fokus auf toxische Kommentare in der bengalischen Sprache gab.
Forschungsziele
Diese Forschung hat folgende Ziele:
- Einen Datensatz toxischer Kommentare in Bengali erstellen.
- Toxische Kommentare zu identifizieren, die sich gegen transgender Personen, indigene Völker und Migranten richten.
- Die Toxizitätsstufen (niedrig, mittel, hoch) dieser Kommentare zu messen.
- Anerkennen, dass das, was für eine Person harmlos erscheint, für eine andere schädlich sein kann.
Vorherige Arbeiten
Einige Forscher haben sich mit toxischen Kommentaren in Bengali beschäftigt, aber die meisten Studien haben sich auf Sprachen wie Englisch konzentriert. Zum Beispiel hat sich einige Arbeit auf maschinelles Lernen konzentriert, um missbräuchliche oder schädliche Kommentare zu finden. Verschiedene Methoden wurden verwendet, um diese Kommentare zu kategorisieren, und einige Studien haben sogar spezifische Datensätze aus Facebook-Kommentaren erstellt.
Diese früheren Studien zeigen, dass es wichtig ist, das Problem toxischer Kommentare anzugehen. Sie heben die Notwendigkeit effektiver Werkzeuge und Methoden hervor, um Toxizität zu klassifizieren und zu bewerten, insbesondere im Bengalischen und für verschiedene Identitätsgruppen.
Datensammlung
Um zu verstehen, wie toxische Kommentare verschiedene Gruppen beeinflussen, haben wir insgesamt 3100 Kommentare gesammelt. Diese Kommentare fallen in vier Kategorien: transgender, indigene, migrantische und universelle toxische Kommentare. Jeder Kommentar wird basierend auf seinem Toxizitätsniveau – hoch, mittel oder niedrig – bewertet.
Kommentare sammeln
-
Transgender Kommentare: Wir haben nach Kommentaren auf Social Media-Posts von Influencern und TikTok-Videos gesucht. Wir haben uns darauf konzentriert, schädliche Kommentare zu finden, einschliesslich solcher, die zu Gewalt aufrufen oder Aggression zeigen.
-
Indigene Kommentare: Für diese Gruppe haben wir Kommentare von Food- und Travel-Vloggern gesammelt, die die indigene Kultur hervorheben. Wieder haben wir nach schädlicher Sprache oder aggressiven Antworten auf Kommentare gesucht.
-
Migranten Kommentare: Um Kommentare über Migranten zu sammeln, haben wir Posts auf Nachrichten-Facebook-Seiten und YouTube-Videos überprüft. Wir wollten schädliche Kommentare oder solche finden, die Migranten schaden wollen.
-
Universelle toxische Kommentare: Für diese Kategorie haben wir toxische Kommentare gesammelt, die sich nicht direkt gegen eine bestimmte Gruppe richten, aber trotzdem beleidigend sind. Diese Kommentare stammen aus verschiedenen Social Media-Quellen.
Datenannotation
Nachdem wir die Kommentare gesammelt hatten, mussten wir sie kennzeichnen, um unsere Modelle zu trainieren. Diese Kennzeichnung kann von Menschen oder automatisierten Werkzeugen vorgenommen werden. Menschliche Kennzeichnung kann eine bessere Genauigkeit bieten, während automatisierte Methoden den Prozess beschleunigen.
Auswahl der Annotatoren
Es ist wichtig, diverse Annotatoren zu haben, um Bias zu reduzieren. Wir haben vier Annotatoren mit unterschiedlichen Hintergründen ausgewählt und darauf geachtet, dass sie alle fliessend Bengali sprechen. Ihr Alter lag zwischen 23 und 26 Jahren und sie hatten Erfahrung in der Verarbeitung natürlicher Sprache.
Richtlinien für die Annotation
Wir haben klare Regeln zur Identifizierung toxischer Kommentare aufgestellt. Jeder Kommentar wurde anhand seiner Sprache und Absicht bewertet. Die Toxizitätsstufen wurden als niedrig, mittel oder hoch klassifiziert. Zum Beispiel:
- Niedrige Toxizität: Kommentare, die Verwirrung ausdrücken oder die Situation verharmlosen, aber nicht direkt schädlich sind.
- Mittlere Toxizität: Kommentare, die verspotten oder kritisieren, aber nicht mit Gewalt drohen.
- Hohe Toxizität: Kommentare, die Drohungen, klare Feindseligkeit oder Wünsche für Schaden enthalten.
Datenanalyse
Sobald die Kommentare annotiert waren, haben wir die Daten analysiert, um Muster der Toxizität zu sehen. Diese Analyse hilft uns zu verstehen, wie oft bestimmte Gruppen mit schädlichen Kommentaren konfrontiert werden und wie schwerwiegend diese Kommentare sind.
Datensatzstatistiken
Von den insgesamt 3100 Kommentaren wurden 2300 als toxisch und 800 als universelle toxische Kommentare markiert. Die Klassifizierung dieser Kommentare war wie folgt:
- 700 Kommentare richteten sich gegen transgender Personen.
- 800 Kommentare richteten sich gegen indigene Völker.
- 800 Kommentare richteten sich gegen Migranten.
Methodologie
Wir haben einen strukturierten Ansatz verwendet, um die Toxizitätsstufen der Kommentare zu studieren. Unsere Methodologie umfasste:
- Vorverarbeitung der Daten, um sie korrekt für die Analyse zu reinigen und zu formatieren.
- Einsatz von vortrainierten Modellen zur Klassifizierung der Kommentare basierend auf ihren Toxizitätsstufen.
Vortrainierte Modelle
Wir haben mehrere fortgeschrittene Modelle verwendet, darunter Bangla-BERT, DistilBERT und andere. Diese Modelle helfen uns, die Feinheiten der bengalischen Sprache zu verstehen und bieten genaue Analysen der Kommentare.
Modelltraining
Die Modelle wurden mit einem Prozess namens Transferlernen trainiert, der hilft, ihre Genauigkeit zu verbessern, indem ihre Einstellungen basierend auf unserem Datensatz angepasst werden. Wir haben evaluiert, wie gut die Modelle mit Metriken wie Genauigkeit und F1-Score abgeschnitten haben.
Experimentelle Ergebnisse
Nachdem wir die Kommentare analysiert hatten, stellten wir fest, dass Bangla-BERT im Vergleich zu anderen Modellen am besten abschnitt. Es erzielte einen beeindruckenden Genauigkeitswert von 0,8903. Die anderen Modelle hatten niedrigere Genauigkeitswerte, was zeigt, dass Bangla-BERT besonders effektiv für unseren Zweck ist.
Leistungsevaluation
Wir haben auch gemessen, wie gut die Modelle Kommentare in niedrige, mittlere und hohe Toxizitätslevel klassifiziert haben. Die Ergebnisse waren gemischt, aber Bangla-BERT übertraf konstant die anderen. Dieses Ergebnis hebt die Notwendigkeit von Modellen hervor, die speziell für die bengalische Sprache entwickelt wurden.
Fazit
Diese Studie betont die Bedeutung, toxische Kommentare in multikulturellen Online-Räumen anzugehen, insbesondere für marginalisierte Gruppen wie transgender Personen, indigene Völker und Migranten. Während die Forschung in anderen Sprachen vorangeschritten ist, fügt unser Fokus auf Bengali notwendiges Wissen zu diesem Bereich hinzu. Wir haben einen Datensatz erstellt, der toxische Kommentare identifiziert und kategorisiert, um uns zu helfen, die tieferliegenden Probleme zu verstehen.
Zukünftige Arbeiten werden darin bestehen, unseren Datensatz zu erweitern und unsere Methoden zu verfeinern. Indem wir unser Verständnis der Toxizitätslevels verbessern, können wir bessere Werkzeuge entwickeln, um sicherere Online-Umgebungen für alle zu schaffen. Die Ergebnisse dieser Studie können helfen, Online-Belästigung zu bekämpfen und Freundlichkeit sowie Verständnis in den Interaktionen in sozialen Medien zu fördern.
Titel: Assessing the Level of Toxicity Against Distinct Groups in Bangla Social Media Comments: A Comprehensive Investigation
Zusammenfassung: Social media platforms have a vital role in the modern world, serving as conduits for communication, the exchange of ideas, and the establishment of networks. However, the misuse of these platforms through toxic comments, which can range from offensive remarks to hate speech, is a concerning issue. This study focuses on identifying toxic comments in the Bengali language targeting three specific groups: transgender people, indigenous people, and migrant people, from multiple social media sources. The study delves into the intricate process of identifying and categorizing toxic language while considering the varying degrees of toxicity: high, medium, and low. The methodology involves creating a dataset, manual annotation, and employing pre-trained transformer models like Bangla-BERT, bangla-bert-base, distil-BERT, and Bert-base-multilingual-cased for classification. Diverse assessment metrics such as accuracy, recall, precision, and F1-score are employed to evaluate the model's effectiveness. The experimental findings reveal that Bangla-BERT surpasses alternative models, achieving an F1-score of 0.8903. This research exposes the complexity of toxicity in Bangla social media dialogues, revealing its differing impacts on diverse demographic groups.
Autoren: Mukaffi Bin Moin, Pronay Debnath, Usafa Akther Rifa, Rijeet Bin Anis
Letzte Aktualisierung: 2024-09-25 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.17130
Quell-PDF: https://arxiv.org/pdf/2409.17130
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.saha.ac.in/theory/palashbaran.pal/bangtex/bangtex.html
- https://www.linkedin.com/pulse/importance-social-media-todays-world-johan-smith
- https://internetlab.org.br/en/news/drag-queens-and-artificial-intelligence-should-computers-decide-what-is-toxic-on-the-internet/
- https://doi
- https://doi.org/10.1016/j.dib.2022.108416
- https://github.com/sagorbrur/bangla-bert
- https://doi.org/10.1145/3555088
- https://doi.org/10.1177/001316446002000104