Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale# Reti sociali e informative

Affrontare i discorsi d'odio tramite classificazione e analisi

Questo articolo esplora i metodi per identificare e classificare l'odio sui social media.

― 6 leggere min


Affrontare il linguaggioAffrontare il linguaggiod'odio onlinel'odio online.Metodi per identificare e ridurre
Indice

L'odio sui social media è diventato un problema serio, portando a discussioni tra governi e ricercatori su come affrontarlo. Questo articolo parla di come identificare e classificare l'odio usando liste di termini offensivi. L'obiettivo è capire quali termini sono più dannosi e come possono essere raggruppati per capire il loro uso.

Il Problema dell'Odio

L'odio è qualsiasi comunicazione che sminuisce o attacca un gruppo basato su caratteristiche come razza, religione o genere. Si diffonde rapidamente sui social media, rendendo fondamentale per i ricercatori trovare modi efficaci per rilevare e classificare questi messaggi dannosi. I metodi standard si basano spesso su liste predefinite di parole offensive, ma queste liste non sempre funzionano. Questo perché il significato delle parole può cambiare a seconda del contesto, rendendo difficile capire se un messaggio è odioso o meno.

Approcci per Classificare l'Odio

Per classificare meglio l'odio, questo articolo presenta due approcci principali. Il primo si concentra sul misurare la gravità dei termini di odio basandosi sul loro utilizzo in diversi contesti. Il secondo mira a visualizzare le relazioni tra i termini di odio per vedere come si presentano insieme nei messaggi.

Misurare la Gravità dei Termini di Odio

Il primo approccio prevede la creazione di una lista di termini di odio severi analizzando le liste esistenti di parole offensive. Per fare questo, vengono stabiliti tre metriche per valutare quanto un termine sia odioso. Queste metriche guardano a quanto spesso il termine appare in contesti odiati, come si relaziona ad altre parole nei messaggi di odio e la sua Offensività complessiva.

  1. Odiuosità: Misura se un termine appare in messaggi identificati come odio.
  2. Relatività: Confronta la frequenza di un termine di odio con altri tipi di messaggi.
  3. Offensività: Unisce le due metriche precedenti per fornire un punteggio unico che indica quanto sia severo un termine di odio.

Applicando queste metriche, i ricercatori possono generare una lista di termini di odio severi che saranno utili per identificare l'odio in modo più accurato.

Visualizzare i Termini di Odio Co-occorrenti

Il secondo approccio si concentra sull'analisi delle relazioni tra i termini di odio. Esaminando quanto spesso certi termini appaiono insieme nei messaggi, i ricercatori possono creare regole che catturano questi schemi. Se due termini di odio appaiono spesso nello stesso messaggio, potrebbero avere una relazione degna di nota.

Questa sezione comporta:

  • Creare sequenze ordinate di termini di odio per capire il loro contesto.
  • Estrarre regole stabili che indicano quando un termine appare probabilmente con un altro.
  • Visualizzare queste relazioni sotto forma di grafici che rendono più facile vedere come i termini siano connessi.

Analisi di Inter-accordo

Il primo passo nell'analisi è confrontare i dati sull'odio con più liste di termini di odio. Questo aiuta a identificare quali termini sono comuni tra diversi set di dati. L'idea è vedere come certi termini si comportano nella classificazione dei messaggi come odiosi o meno.

Generare Liste di Inter-accordo

Per creare una lista di inter-accordo, i ricercatori prendono le liste esistenti di termini di odio e le confrontano con un set di dati sull'odio. L'obiettivo finale è creare una nuova lista che contenga termini frequentemente associati all'odio. Questo processo consente ai ricercatori di affinare i termini che usano per rilevare l'odio, assicurandosi di essere più efficaci.

I passaggi chiave in questo processo includono:

  • Raccogliere set di dati sull'odio che siano stati etichettati correttamente.
  • Analizzare come i termini delle diverse liste di odio corrispondano a questi dati.
  • Usare queste informazioni per creare una lista affinata di termini di odio severi.

Creare una Lista di Termini di Odio Severi

Dall'analisi di inter-accordo, viene generata una lista di termini di odio severi. Questa lista include termini che hanno ottenuto punteggi alti nelle metriche precedenti e serve ad aiutare a classificare accuratamente i messaggi come odio. L'aspettativa è che usare questa lista affinata porterà a un miglioramento nella rilevazione dell'odio.

Valutazione delle Prestazioni

Per determinare quanto bene funzionano gli approcci proposti, i ricercatori confrontano le prestazioni della lista di termini di odio severi con quelle delle liste di termini di odio esistenti. Questa valutazione utilizza una matrice di confusione, che riassume quanti messaggi sono stati classificati correttamente o scorrettamente.

Le metriche chiave da valutare includono:

  • Vero Positivo (TP): Messaggi identificati correttamente come odio.
  • Vero Negativo (TN): Messaggi identificati correttamente come non odio.
  • Falso Positivo (FP): Messaggi identificati scorrettamente come odio.
  • Falso Negativo (FN): Messaggi identificati scorrettamente come non odio.

L'obiettivo è raggiungere alta accuratezza, precisione e richiamo usando la lista di termini di odio severi.

Esplorare le Co-occorrenze dei Termini di Odio

Una volta stabiliti i termini severi, i ricercatori si concentrano su come questi termini si relazionano tra loro. Identificando schemi in cui certi termini appaiono frequentemente insieme, i ricercatori possono riconoscere tendenze e fare ulteriori affinamenti ai loro processi di classificazione dell'odio.

Estrarre Regole di Odio Stabili

Le regole di odio stabili vengono generate usando la lista affinata di termini di odio. Queste regole aiutano a catturare relazioni comuni tra i termini di odio, consentendo ai ricercatori di comprendere meglio come i termini possono combinarsi per formare messaggi di odio.

I passaggi coinvolti includono:

  1. Costruire un database intermedio che contenga i termini di odio e i loro contesti.
  2. Applicare tecniche di estrazione di regole per estrarre relazioni significative.
  3. Visualizzare queste relazioni tramite grafici per rappresentare le co-occorrenze.

Comprendere i Concetti di Odio

Dalle regole stabili identificate, i ricercatori possono creare concetti di odio raggruppando i termini correlati. Questo aiuta a riconoscere schemi più ampi di odio che potrebbero non essere visibili guardando solo termini individuali. I concetti sono essenzialmente il quadro generale di come certi termini lavorano insieme in contesti odiosi.

Conclusione

Questo articolo discute un approccio sistematico per classificare l'odio, concentrandosi sulla misurazione della gravità dei termini di odio e sull'analisi delle co-occorrenze. I metodi proposti mirano a migliorare la comprensione dell'odio sui social media, rendendo più facile sviluppare strumenti che possano aiutare a identificare e ridurre il suo impatto.

Affinando le liste di termini di odio severi e esplorando le loro relazioni, i ricercatori sperano di fornire una soluzione completa al crescente problema dell'odio online, contribuendo a un ambiente digitale più sicuro.

Poiché l'odio continua a evolversi con i cambiamenti delle norme sociali e dell'uso del linguaggio, questi metodi dovranno essere adattabili e continuamente migliorati. Le intuizioni ottenute da questa ricerca potrebbero servire da base per ulteriori progressi nella rilevazione e classificazione dell'odio, aiutando infine gli sforzi per combattere gli abusi online e promuovere interazioni rispettose.

Fonte originale

Titolo: minOffense: Inter-Agreement Hate Terms for Stable Rules, Concepts, Transitivities, and Lattices

Estratto: Hate speech classification has become an important problem due to the spread of hate speech on social media platforms. For a given set of Hate Terms lists (HTs-lists) and Hate Speech data (HS-data), it is challenging to understand which hate term contributes the most for hate speech classification. This paper contributes two approaches to quantitatively measure and qualitatively visualise the relationship between co-occurring Hate Terms (HTs). Firstly, we propose an approach for the classification of hate-speech by producing a Severe Hate Terms list (Severe HTs-list) from existing HTs-lists. To achieve our goal, we proposed three metrics (Hatefulness, Relativeness, and Offensiveness) to measure the severity of HTs. These metrics assist to create an Inter-agreement HTs-list, which explains the contribution of an individual hate term toward hate speech classification. Then, we used the Offensiveness metric values of HTs above a proposed threshold minimum Offense (minOffense) to generate a new Severe HTs-list. To evaluate our approach, we used three hate speech datasets and six hate terms lists. Our approach shown an improvement from 0.845 to 0.923 (best) as compared to the baseline. Secondly, we also proposed Stable Hate Rule (SHR) mining to provide ordered co-occurrence of various HTs with minimum Stability (minStab). The SHR mining detects frequently co-occurring HTs to form Stable Hate Rules and Concepts. These rules and concepts are used to visualise the graphs of Transitivities and Lattices formed by HTs.

Autori: Animesh Chaturvedi, Rajesh Sharma

Ultimo aggiornamento: 2023-05-29 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.17984

Fonte PDF: https://arxiv.org/pdf/2305.17984

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili