Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Soziale und Informationsnetzwerke

Behandlung von missbräuchlicher Sprache im Internet: Ein neuer Ansatz

Dieses Papier stellt Demarcation vor, um gegen beleidigende Äusserungen im Internet effektiv vorzugehen.

― 10 min Lesedauer


Online-Missbrauch mitOnline-Missbrauch mitAbgrenzung bekämpfenBekämpfung von digitaler Gewalt.Eine neue Methode zur effektiven
Inhaltsverzeichnis

Missbrauchliche Sprache im Internet bleibt ein grosses Problem, trotz der Regeln, die von Ländern und sozialen Medienplattformen aufgestellt wurden. Neuere Gesetze in Europa zielen darauf ab, digitale Gewalt zu verringern, aber schädliche Inhalte sind nach wie vor häufig. Die meisten bestehenden Methoden zur Bekämpfung dieses Problems konzentrieren sich auf einfache Massnahmen wie das Blockieren oder Verbot von Nutzern. Diese Methoden erfassen nicht die komplizierte Natur missbräuchlicher Sprache. Dieses Papier stellt einen neuen Ansatz namens Demarcation vor, der missbräuchliche Sprache basierend auf vier Hauptfaktoren bewertet: Schwere, Zielpräsenz, Kontext und rechtliche Standards. Es schlägt auch verschiedene Optionen für den Umgang mit schädlichen Inhalten vor, darunter Gegenrede, Entgiftung von Nachrichten, das Verbot von Nutzern oder das Rückgreifen auf menschliches Eingreifen.

Nach der Analyse, wie verschiedene Länder, Plattformen und Studien mit missbräuchlicher Sprache umgehen, haben wir Lücken in den derzeitigen Massnahmen festgestellt, die diese Probleme verhindern, und wir empfehlen spezifische proaktive Schritte, um gegen die vielen Formen vorzugehen. Unser Ziel ist es, zukünftige Strategien zu gestalten, die effektiv gegen missbräuchliche Sprache im Internet vorgehen können.

Die Herausforderung der digitalen Gewalt

KI-Technologien entwickeln sich schnell weiter, und es ist wichtig, Wege zu finden, wie sie positive soziale Auswirkungen schaffen können. Besonders im Bereich der natürlichen Sprachverarbeitung (NLP) ist es wichtig, den Fokus auf die Verringerung digitaler Gewalt zu legen. Digitale Gewalt kann Nutzer auf verschiedene Weise schädigen, indem Technologie eingesetzt wird, um ihnen zu schaden, sie in Verlegenheit zu bringen, zu stören, zu erschrecken oder zu opfern. Dies führt oft zu emotionalem Stress, einschliesslich Angst und Traurigkeit, und beeinflusst die Arbeitsmotivation der Menschen. Dazu gehören schädliche Online-Aktivitäten wie Hassrede und toxische Sprache.

Traditionelle automatisierte Moderationsmethoden konzentrieren sich hauptsächlich auf das Blockieren von beleidigenden Nachrichten. Viele Unternehmen, wie Meta und X, haben eine allgemeine Richtlinie gegen Hassrede, die das Löschen von Beiträgen und das Suspendieren von Konten umfasst. Dieser Ansatz hat sich jedoch als ineffektiv erwiesen, um missbräuchliches Verhalten langfristig zu bewältigen. Ein detaillierterer Ansatz ist nötig.

Gegenrede hat sich als neuere Methode zur Reduzierung von Hassrede herauskristallisiert und war effektiv bei der Bekämpfung schädlicher Diskurse. Es gibt auch eine neuere Praxis namens Textentgiftung, die darauf abzielt, toxische Sprache zu reduzieren. Diese Methode wird jedoch noch nicht weit verbreitet eingesetzt.

Dieses Papier zielt darauf ab, verschiedene proaktive Massnahmen zur Reduzierung digitaler Gewalt in einem organisierten Prozess zusammenzuführen, wobei Erkenntnisse aus mehreren Regionen und bestehender NLP-Forschung in diesem Bereich einfliessen.

Verschiedene Arten von Gewalt

Gewalt kann viele Formen annehmen, von Worten, die Einzelpersonen schaden, bis zu Handlungen, die Gemeinschaften verletzen. Digitale Gewalt ist eine einzigartige Form, die auf Technologie angewiesen ist und hauptsächlich über Geräte wie Computer und Telefone verbreitet wird. Sie kann öffentlich in sozialen Medien oder privat auf persönlichen Geräten erfolgen. Leider sind diejenigen, die im realen Leben am verletzlichsten sind, oft dieselben Ziele in Online-Missbrauch.

Dieses Papier konzentriert sich ausschliesslich auf textuelle Formen digitalen Missbrauchs. Die Forschung hat schädliche Inhalte als entweder missbräuchlich oder als eine Form von Online-Schaden kategorisiert. Diese Klassifizierung umfasst vier Kategorien schädlicher Inhalte:

  • Hass und Belästigung: Zielt auf Einzelpersonen oder Gruppen ab, um sie zu quälen oder einzuschüchtern.
  • Selbstbeschädigung: Fördert selbstschädigendes Verhalten.
  • Ideologischer Schaden: Verbreitet schädliche Überzeugungen, die langfristig der Gesellschaft schaden können.
  • Ausbeutung: Nutzt Inhalte, um andere finanziell, sexuell oder physisch auszubeuten.

Eine Studie zeigte auch, dass schädliche Inhalte unter verschiedene Kategorien beleidigender Sprache fallen können, die jeweils unterschiedliche Aspekte ansprechen, wie Beleidigungen, rassistische Kommentare oder toxisches Verhalten.

Die Definition von Hassrede ist schwierig, da es keine klare Einigung unter Gesetzgebern, Plattformbetreibern und Forschern gibt. Die Definition ist auch verschwommen geworden mit neuen ethischen und kommunikativen Herausforderungen. Darüber hinaus vermischt die aktuelle Definition oft Hassrede mit negativer Sprache, die Unzufriedenheit und Groll über verschiedene Themen einschliessen kann. Eine weithin akzeptierte Definition, die von den Vereinten Nationen vorgeschlagen wurde, besagt, dass Hassrede jede Kommunikation umfasst, die eine Person oder Gruppe aufgrund ihrer Identität, wie Rasse, Religion oder Geschlecht, angreift oder abfällige Sprache verwendet.

Praktiken der Inhaltsmoderation

Um Vorfälle digitaler Gewalt zu bekämpfen, wird häufig Inhaltsmoderation eingesetzt. Dies umfasst die Überwachung dessen, was Nutzer posten, um sicherzustellen, dass es den rechtlichen und gemeinschaftlichen Standards entspricht. Sowohl menschliche als auch algorithmische Moderation werden verwendet, um Inhalte zu verwalten. Die algorithmische Moderation wird hauptsächlich durchgeführt, um Inhalte zu entfernen oder zu verbannen, die diese Standards nicht erfüllen. Diese Methode erhöht die Sicherheit im Internet, indem sie schwere Verstösse schnell erkennt.

Neuere Studien haben eine dauerhaftere Lösung durch Gegenrede oder Gegen-Hass-Ansätze gefordert. Gegenrede versucht, schädliche Inhalte herauszufordern und die Meinungsfreiheit zu unterstützen, indem positive Dialoge gefördert werden. Eine andere Methode, die Entgiftung, zielt darauf ab, die Toxizität des Inhalts zu verringern, während die ursprüngliche Bedeutung so weit wie möglich erhalten bleibt.

Trotz der Kritik von Befürwortern der Meinungsfreiheit zielt die Entgiftung darauf ab, ein zivilisierteres digitales Umfeld für alle Nutzer, insbesondere für Kinder, zu schaffen, und konzentriert sich darauf, explizite toxische Sprache zu behandeln.

Verwandte Arbeiten

Die Moderation von missbräuchlicher Sprache ist entscheidend für soziale Medienplattformen und umfasst verschiedene Strategien, um die Sichtbarkeit schädlicher Inhalte zu begrenzen. Diese Massnahmen reichen von der Löschung von Beiträgen und der Aussprechung von Warnungen bis zum Blockieren von Nutzern, die sich nicht an die Regeln halten. Neuere Bemühungen konzentrieren sich darauf, Daten zu sammeln, um automatisierte Systeme zur Klassifizierung von Hassrede aufzubauen, selbst in ressourcenschwachen Sprachen.

Die automatische Generierung von Gegenrede gewinnt an Bedeutung als bevorzugte Methode, hauptsächlich weil sie die Meinungsfreiheit respektiert. Diese Strategie fordert häufig schädliche Botschaften heraus, anstatt sie zum Schweigen zu bringen. Forschungen haben gezeigt, dass Gegenrede positive Gemeinschaftsinteraktionen fördern kann, indem sie den Dialog zwischen Nutzern unterstützt.

Ein weiteres Forschungsgebiet konzentriert sich auf die Entgiftung von Nachrichten, die darauf abzielt, beleidigende Sprache in Sätzen zu minimieren oder zu entfernen, während der Inhalt verständlich bleibt. Verbesserte Entgiftungsmethoden verbessern die Online-Kommunikation und machen sie respektvoller.

Einige Plattformen haben begonnen, Tools zur kontinuierlichen Überwachung von Hassrede einzusetzen. So wurde beispielsweise ein Tool, das für Twitter entwickelt wurde, von NGOs verwendet, um auf Islamophobie zu reagieren. Das Tool hat das Potenzial gezeigt, die Online-Hassbekämpfung erheblich zu beeinflussen.

Forschungen heben Diskrepanzen zwischen dem Fokus der Forschungsgemeinschaft und den Bedürfnissen der Plattformen für eine effektive Moderation hervor. Bestimmte Probleme erhalten mehr Aufmerksamkeit als andere, was zu einer Lücke in den Lösungen für dringende Bedürfnisse der Inhaltsmoderation führt. Um diese Trennung zu überwinden, schlägt das Papier einen dynamischeren Moderationsrahmen vor, der verschiedene Interventionsoptionen umfasst, die auf spezifische Kontexte zugeschnitten sind.

Untersuchung nationaler Regelungen

Dieses Papier konzentriert sich auf die Analyse, wie verschiedene Länder die Hassrede regulieren. Die Länder haben ihre eigenen Gesetze entwickelt, um gegen Hassrede vorzugehen, sodass es notwendig ist, ihre Ansätze zu verstehen und wie sie sich auf digitale Plattformen beziehen.

Die Auswahlkriterien für diese Regelungen umfassten Überlegungen zu den Herkunftsländern der Co-Autoren, um geografische Vertretung sicherzustellen, die Online-Präsenz der Nutzer zu berücksichtigen und sich auf Länder mit erheblichen Hassrede-Problemen zu konzentrieren.

Fragen wurden formuliert, um wichtige Erkenntnisse über den Ansatz jedes Landes zu gewinnen. Themen umfassten die Meinungsfreiheit, Definitionen von Hassrede, Strafen für Verstösse, Regulierung sozialer Medienplattformen und die Förderung präventiver Massnahmen wie Initiativen zur Gegenrede.

Insgesamt umfasst die Forschung 14 Länder und die Europäische Union und analysiert deren Ansätze zur Hassrede durch einen umfassenden Fragebogen.

Plattformrichtlinien

Als Nächstes untersuchten wir die Richtlinien beliebter sozialer Medienplattformen in Bezug auf Hassrede. Ziel war es, zu verstehen, wie verschiedene Plattformen mit schädlichen Inhalten umgehen, wobei Faktoren wie Benutzerzugänglichkeit und Moderationspraktiken berücksichtigt wurden.

Wir wählten Plattformen basierend auf ihrer Popularität und Nutzerzahl aus. Die Fragen wurden gestaltet, um Informationen über die Definition von Hassrede, Nutzerüberprüfungsprozesse, Zugänglichkeit der Vorschriften, Moderationspraktiken und präventive Massnahmen, die von den Plattformen ergriffen werden, zu sammeln.

Die Forschung konzentrierte sich auf 15 Plattformen und analysierte deren Gemeinschaftsrichtlinien im Hinblick auf beleidigende Inhalte und Mitigationsstrategien.

Ergebnisse aus Forschungsdatensätzen

Der letzte Abschnitt der Studie untersucht verschiedene Datensätze, die zur Erkennung von Hassrede verwendet werden. Diese Datensätze sind wichtig für den Aufbau zuverlässiger Klassifikationsmodelle für Hassrede. Die Analyse konzentrierte sich darauf, wie viele Datensätze für verschiedene Sprachen existieren und wie qualitativ deren Definitionen sind.

Die Fragen zielen darauf ab, die Klarheit der Definitionen von Hassrede, die Qualität und Zuverlässigkeit der Datensatzannotationen sowie die Demografie der Annotatoren zu erkunden. Die Forscher analysierten 38 Datensatzpapiere, die sich über zahlreiche Sprachen erstrecken und so ein breiteres Verständnis der aktuellen Landschaft in der Hassrede-Forschung sicherstellen.

Hauptpunkte und Empfehlungen

Um besser auf missbräuchliche Sprache einzugehen, schlagen wir eine neue Pipeline namens Demarcation vor. Diese Methode bewertet Sprache anhand eines Scores, der aus mehreren Faktoren abgeleitet ist. Sie berücksichtigt die Schwere der Sprache, ob sie bestimmte Einzelpersonen oder Gruppen anvisiert, den Kontext, in dem sie geäussert wurde, und die geltenden rechtlichen Standards.

Sobald ein Score festgelegt ist, können spezifische Schritte unternommen werden, um die Toxizität des Inhalts zu reduzieren. Dazu könnte die Anwendung von Entgiftungstechniken, die Förderung von Gegenrede gehören und, falls notwendig, Massnahmen wie das Blockieren von Nutzern oder die Einbeziehung menschlicher Moderatoren.

Um die Effizienz dieser Pipeline zu verbessern, empfehlen wir die Entwicklung besserer Richtlinien zur Annotation von Datensätzen. Diese verbesserten Standards würden die Genauigkeit automatischer Moderationsmodelle erhöhen und damit zu effektiveren Reaktionen auf missbräuchliche Sprache führen.

Einschränkungen und ethische Überlegungen

Obwohl die Forschung darauf abzielte, gründlich zu sein, sah sie sich mehreren Einschränkungen gegenüber. Der Fokus lag ausschliesslich auf textuellen Formen digitaler Gewalt und schloss andere Modalitäten wie Bilder oder Videos aus. Ausserdem behandelte die Pipeline zunächst nur von Menschen erzeugte Inhalte. Mit dem Anstieg maschinell generierter Texte ist es entscheidend, Massnahmen zur Erkennung und Verwaltung dieser Art von Inhalten einzubeziehen. Schliesslich war die Studie auf digitale Umgebungen beschränkt, obwohl die Auswirkungen von Online-Gewalt in das reale Leben hineinwirken können.

Die Autoren sind bestrebt, die Meinungsfreiheit zu respektieren, während sie die Notwendigkeit massgeschneiderter Moderationsstrategien basierend auf Kontext und spezifischen Bedürfnissen anerkennen. Ziel ist es, eine breitere Perspektive auf potenzielle Wege zur Handhabung missbräuchlicher Sprache durch Technologie zu bieten.

Zusammenfassung der Ergebnisse

Zusammenfassend hat die Studie untersucht, wie verschiedene Länder und Plattformen mit Hassrede und missbräuchlichen Inhalten umgehen. Durch die Überprüfung verschiedener Vorschriften, Plattformrichtlinien und vorhandener Forschung haben wir die Notwendigkeit proaktiverer Massnahmen hervorgehoben. Unsere vorgeschlagene Pipeline, Demarcation, zielt darauf ab, diese Lücke zu schliessen und eine umfassendere Strategie zu entwickeln, um missbräuchliche Sprache effektiv zu bekämpfen.

Während Herausforderungen bestehen bleiben, können verbesserte Richtlinien, ein besseres Verständnis der Komplexität von Hassrede und das Engagement, unsere Ansätze anzupassen, zu einer sichereren Online-Umgebung für alle führen.

Originalquelle

Titel: Demarked: A Strategy for Enhanced Abusive Speech Moderation through Counterspeech, Detoxification, and Message Management

Zusammenfassung: Despite regulations imposed by nations and social media platforms, such as recent EU regulations targeting digital violence, abusive content persists as a significant challenge. Existing approaches primarily rely on binary solutions, such as outright blocking or banning, yet fail to address the complex nature of abusive speech. In this work, we propose a more comprehensive approach called Demarcation scoring abusive speech based on four aspect -- (i) severity scale; (ii) presence of a target; (iii) context scale; (iv) legal scale -- and suggesting more options of actions like detoxification, counter speech generation, blocking, or, as a final measure, human intervention. Through a thorough analysis of abusive speech regulations across diverse jurisdictions, platforms, and research papers we highlight the gap in preventing measures and advocate for tailored proactive steps to combat its multifaceted manifestations. Our work aims to inform future strategies for effectively addressing abusive speech online.

Autoren: Seid Muhie Yimam, Daryna Dementieva, Tim Fischer, Daniil Moskovskiy, Naquee Rizwan, Punyajoy Saha, Sarthak Roy, Martin Semmann, Alexander Panchenko, Chris Biemann, Animesh Mukherjee

Letzte Aktualisierung: 2024-06-27 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2406.19543

Quell-PDF: https://arxiv.org/pdf/2406.19543

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel