Rilevazione del linguaggio d'odio in lingue a bassa risorsa
Questo sondaggio mette in evidenza le sfide e i progressi nella rilevazione dell'odio in diverse lingue.
Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
― 6 leggere min
Indice
- Cos'è il Discorso d'Odio?
- Categorie di Discorso d'Odio
- Razzismo e Xenofobia
- Sessismo e Odio di Genere
- Discorso d'Odio Religioso
- Ableism
- Perché il Discorso d'Odio è Difficile da Rilevare?
- La Necessità di Rilevazione Automatica del Discorso d'Odio
- I Datasets
- Tecniche Utilizzate nella Rilevazione del Discorso d'Odio
- Metodi Tradizionali
- Tecniche Moderne
- Sfide nelle Lingue a Basso Risorsa
- Opportunità di Ricerca
- Conclusione
- Fonte originale
- Link di riferimento
I social media hanno cambiato il modo in cui comunichiamo negli ultimi dieci anni. Le persone possono scambiarsi idee, opinioni e a volte commenti poco carini. L'anonimato su queste piattaforme spesso porta a Discorsi d'odio, diventato un grosso problema a livello mondiale. Non si tratta solo di quello che le persone dicono, ma anche di come lo dicono. Con le lingue in evoluzione, compaiono nuove parole ed espressioni. Questo crea una sfida per chi cerca di capire e affrontare il discorso d'odio.
Mentre l'inglese ha ricevuto molta attenzione riguardo alla rilevazione del discorso d'odio, molti parlanti usano le loro lingue native online. Questo ha portato a una necessità di ricerca focalizzata su quelle lingue a basso recurso dove non ci sono abbastanza dati o studi. Questo sondaggio analizzerà la situazione e presenterà i risultati sulla rilevazione del discorso d'odio in quelle lingue.
Cos'è il Discorso d'Odio?
Definire il discorso d'odio non è semplice. È come cercare di prendere un pesce scivoloso. Gruppi diversi hanno opinioni diverse su cosa si consideri un discorso d'odio. In generale, il discorso d'odio include parole o azioni che attaccano individui o gruppi basati su razza, religione, genere o altri fattori identitari. Per esempio, se qualcuno usa termini derogatori per insultare una razza o religione specifica, questo rientra nel discorso d'odio.
Molti grandi social media hanno le loro definizioni. Per esempio:
- Meta: Definisce il discorso d'odio come attacchi diretti contro persone basati su tratti protetti come razza e genere.
- YouTube: Pensa che il discorso d'odio sia qualsiasi cosa che inciti alla violenza contro certi gruppi.
- Twitter: Proibisce attacchi basati su razza, genere e altri tratti personali.
- TikTok: Si concentra su contenuti che disumanizzano le persone in base alle loro caratteristiche.
- LinkedIn: Vietano il discorso d'odio che prende di mira le persone in base a tratti personali.
Categorie di Discorso d'Odio
Il discorso d'odio può essere suddiviso in diverse categorie basate su chi o cosa sta prendendo di mira. Ecco alcune delle principali:
Razzismo e Xenofobia
Questa categoria include commenti negativi verso le persone basati sulla loro razza o nazionalità. Per esempio, gli immigrati spesso affrontano ostilità a seconda da dove provengono.
Sessismo e Odio di Genere
Questo coinvolge osservazioni pregiudizievoli verso individui basati sul loro genere. Anche se le donne spesso subiscono il peso di tali commenti, anche persone di vari generi sperimentano discorsi d'odio.
Discorso d'Odio Religioso
Questo tipo prende di mira persone in base alle loro credenze religiose. La discriminazione può portare a violenza, conflitti o disordini sociali.
Ableism
Il discorso d'odio qui è diretto verso individui con disabilità. Questo può includere commenti derogatori o assunzioni sulle loro capacità.
Perché il Discorso d'Odio è Difficile da Rilevare?
Rilevare il discorso d'odio è complesso per vari motivi. Prima di tutto, la lingua può essere complicata e il contesto conta. Quello che potrebbe sembrare un commento innocuo in un contesto potrebbe risultare offensivo in un altro. Le persone spesso usano sarcasmo o gioco di parole che possono confondere i sistemi automatizzati.
In secondo luogo, i social media generano tonnellate di dati ogni giorno, rendendo quasi impossibile monitorare tutto manualmente. Quindi c'è grande necessità di macchine che aiutino a individuare automaticamente il discorso d'odio.
La Necessità di Rilevazione Automatica del Discorso d'Odio
Con sempre più persone che si rivolgono ai social media per esprimersi, la quantità di discorso d'odio è cresciuta di pari passo. Il monitoraggio manuale semplicemente non è fattibile. Molti ricercatori si sono rivolti a metodi di rilevazione automatica utilizzando la tecnologia per affrontare questo problema.
I sistemi automatizzati utilizzano tecniche avanzate di elaborazione del linguaggio naturale, apprendimento automatico e deep learning. Filtrano enormi quantità di testo per identificare contenuti d'odio. Tuttavia, gran parte di questa ricerca si è concentrata sull'inglese, lasciando un vuoto negli studi relativi ad altre lingue.
I Datasets
Raccogliere dati sul discorso d'odio è una parte chiave della formazione dei sistemi di rilevazione. La maggior parte dei dataset disponibili è in inglese. Vari dataset da Twitter e altre piattaforme forniscono risorse preziose, ma la raccolta per lingue a basso recurso rimane una sfida.
I ricercatori hanno iniziato a compilare dataset in lingue come arabo, hindi, tamil e altre, focalizzandosi su aspetti sia monolingue che multilingue. Tuttavia, la quantità e la qualità non sono ancora paragonabili ai dataset in inglese.
Tecniche Utilizzate nella Rilevazione del Discorso d'Odio
I metodi principali per rilevare il discorso d'odio coinvolgono un mix di approcci tradizionali e moderni:
Metodi Tradizionali
Inizialmente, la rilevazione basata su parole chiave era comune. Questo comportava semplicemente l'identificazione di certe parole o frasi associate al discorso d'odio. Anche se utile, questo approccio trascurava il contesto e la sfumatura, portando a molti falsi positivi.
Tecniche Moderne
Gli approcci recenti hanno spostato l'attenzione verso l'uso di modelli di deep learning che considerano il contesto, il sentimento e anche le immagini. Per esempio:
- BERT: Questo modello comprende la relazione tra parole e i loro significati nel contesto.
- CNN: Le Reti Neurali Convoluzionali sono spesso usate per identificare schemi nel testo.
- RNN: Le Reti Neurali Ricorrenti sono progettate per comprendere sequenze, rendendole utili per l'elaborazione del linguaggio.
Sfide nelle Lingue a Basso Risorsa
Per le lingue a basso recurso, le sfide si moltiplicano:
- Mancanza di Dati: Non ci sono abbastanza dati pubblicamente disponibili per addestrare modelli in modo efficace, portando a una rilevazione meno accurata.
- Sfumature Culturali: Diverse regioni usano le lingue in modo diverso, creando difficoltà nello sviluppo di un modello universale.
- Definizione del Discorso d'Odio: Il termine "discorso d'odio" ha significati diversi tra le culture, complicando l'annotazione dei dataset.
Opportunità di Ricerca
Sebbene le sfide siano numerose, ci sono anche molte opportunità per migliorare la rilevazione del discorso d'odio:
- Migliorare la Raccolta di Dati: Concentrarsi sulla raccolta di più dati dalle lingue a basso recurso può aiutare.
- Consapevolezza Culturale: Creare modelli che considerino il contesto culturale renderà i sistemi di rilevazione più efficaci.
- Collaborazione Interdisciplinare: Incoraggiare la collaborazione tra sociologi, linguisti e scienziati dei dati può portare a una migliore comprensione e soluzioni.
Conclusione
La rilevazione del discorso d'odio, in particolare nelle lingue a basso recurso, presenta una serie di sfide e opportunità. Mentre i social media continuano a essere una piattaforma di comunicazione, l'importanza di identificare e affrontare automaticamente il discorso d'odio diventa cruciale per mantenere un ambiente online sicuro. Anche se c'è ancora molto da fare, i progressi nella tecnologia e nella comprensione delle sfumature linguistiche possono aprire la strada a un futuro più inclusivo. Lasciamo che le macchine ci aiutino a colmare le lacune e affrontare insieme questo problema!
Titolo: A Survey on Automatic Online Hate Speech Detection in Low-Resource Languages
Estratto: The expanding influence of social media platforms over the past decade has impacted the way people communicate. The level of obscurity provided by social media and easy accessibility of the internet has facilitated the spread of hate speech. The terms and expressions related to hate speech gets updated with changing times which poses an obstacle to policy-makers and researchers in case of hate speech identification. With growing number of individuals using their native languages to communicate with each other, hate speech in these low-resource languages are also growing. Although, there is awareness about the English-related approaches, much attention have not been provided to these low-resource languages due to lack of datasets and online available data. This article provides a detailed survey of hate speech detection in low-resource languages around the world with details of available datasets, features utilized and techniques used. This survey further discusses the prevailing surveys, overlapping concepts related to hate speech, research challenges and opportunities.
Autori: Susmita Das, Arpita Dutta, Kingshuk Roy, Abir Mondal, Arnab Mukhopadhyay
Ultimo aggiornamento: 2024-11-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2411.19017
Fonte PDF: https://arxiv.org/pdf/2411.19017
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://creativecommons.org/licenses/by-sa/4.0/
- https://transparency.meta.com/en-gb/policies/community-standards/hate-speech/
- https://www.youtube.com/intl/ALL
- https://help.twitter.com/en/rules-and-policies/x-rules
- https://www.tiktok.com/safety/en/countering-hate/
- https://www.linkedin.com/help/linkedin/answer/a1339812
- https://github.com/ZeerakW/hatespeech
- https://github.com/t-davidson/hate-s
- https://github.com/jing-qian/A-Bench
- https://github.com/ziqizhang/data
- https://github.com/intelligence-csd-auth-gr/Ethos-Hate-Speech-Dataset
- https://github.com/punyajoy/HateXplain
- https://zpitenis.com/ogtd
- https://github.com/paulafortuna/Port
- https://github.com/msang/hate-speech-corpus
- https://goo.gl/27EVbU
- https://github.com/nuhaalbadi/Arabic
- https://github.com/UCSM-DUE/
- https://github.com/
- https://github.com/ialfina/id-hatespeech-detection
- https://huggingface.co/datasets/sinhala-nlp/SOLD
- https://github.com/pmathur5k10/Hinglish-Offensive-Text-Classification
- https://github.com/rezacsedu/Bengali-Hate-Speech-Dataset
- https://github.com/l3cube-pune/MarathiNLP
- https://coltekin.github.io/offensive-turkish/
- https://github.com/verimsu/
- https://github.com/mawic/german-abusive-language-covid-19
- https://github.com/clips/hades
- https://github.com/adlnlp/K-MHaS
- https://github.com/deepanshu1995/HateSpeech-HindiEnglish-Code-Mixed-Social-Media-Text
- https://github.com/naurosromim/hate-speech-dataset-for-Bengali-social-media
- https://github.com/msang/hateval/
- https://projects.cai
- https://sites.google.com/site/offensevalsharedtask/home
- https://github.com/marcoguerini/CONAN
- https://hasocfire.github.io/hasoc/2019/dataset.html
- https://hasocfire.github.io/hasoc/2021/dataset.html
- https://gombru.github.io/2019/10/09/MMHS/
- https://hatefulmemeschallenge.com/
- https://github.com/Farhan-jafri/Russia-Ukraine
- https://github.com/eftekhar-hossain/MUTE-AACL22