Valutare il rilevamento dell'odio con il dataset HateModerate
Un nuovo set di dati punta a migliorare il rilevamento dell'odio sui social media.
― 6 leggere min
Indice
Nell'era digitale di oggi, le piattaforme di social media permettono agli utenti di comunicare liberamente, ma li espongono anche a contenuti dannosi come l'odio. Per proteggere gli utenti, molte piattaforme hanno sviluppato strumenti automatici per rilevare e filtrare l'odio. Ma resta una domanda chiave: questi strumenti seguono davvero le regole specifiche sui contenuti stabilite dalle piattaforme? Questo articolo parla della creazione di un nuovo dataset, chiamato HateModerate, pensato per esaminare quanto bene i detector automatici di odio si allineino con le politiche dei social media.
Il Problema con il Riconoscimento dell'Odio
Sebbene gli strumenti automatici per identificare l'odio siano migliorati, spesso fatica a rispettare le regole uniche di varie piattaforme. Queste regole stabiliscono cosa sia considerato contenuto offensivo, ma i dataset esistenti non affrontano adeguatamente queste variazioni. Ad esempio, Facebook ha delle Linee guida che potrebbero non trovarsi nei dataset usati per il riconoscimento. Questo gap rende difficile valutare quanto bene questi strumenti si conformino alle linee guida.
Creazione del Dataset HateModerate
Per affrontare questi problemi, è stato creato il dataset HateModerate per valutare gli strumenti di rilevazione dell'odio rispetto agli standard della comunità di Facebook. Il dataset contiene 7.704 esempi di contenuti sia odiatori che non odiatori, tutti mappati secondo le regole specifiche di Facebook. Il processo di creazione ha coinvolto diversi passaggi, basandosi su un gruppo di linee guida annotate e tecnologia di elaborazione del linguaggio naturale.
Processo di Annotazione
Un totale di 28 studenti laureati ha contribuito al dataset rivedendo esempi esistenti di odio e identificando nuovi esempi che corrispondessero alle linee guida specifiche di Facebook. Gli studenti hanno seguito un processo strutturato in sei passaggi per garantire una compilazione completa e accurata degli esempi.
Identificazione degli Esempi di Odio: Gli annotatori hanno cercato manualmente negli dataset esistenti per trovare esempi di odio che corrispondessero a regole specifiche. Hanno segnalato difficoltà nel trovare abbastanza esempi per alcune politiche, il che ha portato a ulteriori generazioni di dati.
Aggiunta di Esempi: Per le linee guida con esempi insufficienti, il team ha generato nuovi contenuti odiatori utilizzando un modello di machine learning. Questo ha aiutato a colmare le lacune e ha fornito un set di esempi più ricco.
Verifica: Una volta raccolti gli esempi, altri annotatori hanno verificato la loro appropriatezza rispetto alle linee guida. Gli esempi ritenuti inappropriati sono stati rimossi.
Raccolta di Esempi Non Odiatori: Per valutare l'efficacia dei detector di odio, sono stati raccolti anche esempi difficili di contenuto non odiatore. Questi esempi assomigliavano da vicino agli esempi odiosi per fornire una valutazione robusta dei modelli.
Aumento dei Dati per Esempi Non Odiatori: Simile agli esempi di odio, anche gli esempi non odiatori sono stati generati utilizzando strumenti di machine learning quando le ricerche iniziali avevano dato risultati insufficienti.
Verifica degli Esempi Non Odiatori: Proprio come per gli esempi odiatori, un gruppo di annotatori ha verificato l'accuratezza degli esempi non odiatori per garantire che aderissero alle linee guida.
Composizione del Dataset
Il dataset finale HateModerate comprende una collezione bilanciata di esempi di odio e di non odio. La diversità all'interno del dataset aiuta a valutare meglio le performance dei detector automatici di odio.
Valutazione dei Detector di Odio
Utilizzando il dataset HateModerate, sono stati valutati diversi detector di odio popolari. Questi includevano l'API Perspective di Google, l'API di Moderazione di OpenAI e modelli raffinati di Facebook e Cardiff NLP. La valutazione mirava a determinare quanto bene questi detector aderissero agli standard della comunità di Facebook.
Risultati Chiave dalla Valutazione
L'assessment ha rivelato diverse tendenze:
Variabilità delle Performance: Diversi modelli hanno mostrato livelli di successo variabili nel conformarsi alle linee guida di Facebook. Il modello di OpenAI ha generalmente ottenuto i risultati migliori, mentre altri hanno avuto notevoli carenze, specialmente con gli esempi non odiatori.
Prioritizzazione delle Politiche Severe: La maggior parte dei detector tendeva a essere più efficace nell'identificare forme gravi di odio piuttosto che forme meno gravi. Questa incoerenza solleva domande sulla affidabilità di questi modelli.
Tassi di Fallimento: I modelli hanno mostrato alti tassi di fallimento nel rilevare esempi non odiatori. Questo suggerisce che alcuni modelli faticano a differenziare accuratamente tra contenuti odiatori e benigni.
Miglioramento delle Performance dei Modelli
Per migliorare le performance dei detector di odio, i ricercatori hanno sperimentato il fine-tuning dei modelli utilizzando HateModerate. L'obiettivo era vedere se aggiungere questo nuovo dataset potesse aiutare a ridurre i tassi di fallimento.
Processo di Fine-Tuning
Il fine-tuning ha coinvolto l'uso di un sottogruppo di HateModerate insieme ai dati di allenamento esistenti. Introducendo questi nuovi dati, i ricercatori miravano a migliorare la comprensione delle regole specifiche e potenziare la capacità del modello di fare classificazioni accurate.
Risultati del Fine-Tuning
Il processo di fine-tuning ha dato risultati promettenti. I modelli che hanno incorporato il dataset HateModerate hanno dimostrato una migliore conformità alle linee guida di Facebook, mantenendo allo stesso tempo la loro performance su altri set di test. Questo suggerisce che il dataset HateModerate può svolgere un ruolo cruciale nel migliorare i modelli di rilevamento dell'odio.
Affrontare il Bias nei Modelli
Una considerazione importante nel riconoscimento dell'odio è il potenziale per bias. Il fine-tuning dei modelli su dataset specifici può portare involontariamente a bias contro determinati gruppi. I ricercatori hanno condotto ulteriori test per valutare se l'uso di HateModerate abbia portato a un aumento del bias nei loro modelli.
Risultati sul Bias
Le valutazioni hanno mostrato che, sebbene i modelli fine-tunati performassero meglio in generale, c'erano ancora alcune istanze di bias. Tuttavia, l'aggiunta di HateModerate non ha significativamente aumentato il bias rispetto ai modelli originali. Questo risultato è incoraggiante, poiché suggerisce che il dataset può essere utilizzato efficacemente senza compromettere l'equità.
Conclusione
Il dataset HateModerate rappresenta un passo significativo verso il miglioramento del rilevamento dell'odio automatico in linea con politiche specifiche dei social media. Riempendo le lacune esistenti nei dataset di odio, HateModerate consente una valutazione più accurata dell'efficacia degli strumenti di rilevamento. I risultati indicano che il fine-tuning di questi modelli con HateModerate può migliorarne l'accuratezza e ridurre i tassi di fallimento. Inoltre, il dataset fornisce preziose informazioni sui potenziali bias presenti nei modelli esistenti. Man mano che le piattaforme di social media continuano a evolversi, strumenti come HateModerate giocheranno un ruolo vitale nel garantire la sicurezza e l'integrità della comunicazione online.
Titolo: HateModerate: Testing Hate Speech Detectors against Content Moderation Policies
Estratto: To protect users from massive hateful content, existing works studied automated hate speech detection. Despite the existing efforts, one question remains: do automated hate speech detectors conform to social media content policies? A platform's content policies are a checklist of content moderated by the social media platform. Because content moderation rules are often uniquely defined, existing hate speech datasets cannot directly answer this question. This work seeks to answer this question by creating HateModerate, a dataset for testing the behaviors of automated content moderators against content policies. First, we engage 28 annotators and GPT in a six-step annotation process, resulting in a list of hateful and non-hateful test suites matching each of Facebook's 41 hate speech policies. Second, we test the performance of state-of-the-art hate speech detectors against HateModerate, revealing substantial failures these models have in their conformity to the policies. Third, using HateModerate, we augment the training data of a top-downloaded hate detector on HuggingFace. We observe significant improvement in the models' conformity to content policies while having comparable scores on the original test data. Our dataset and code can be found in the attachment.
Autori: Jiangrui Zheng, Xueqing Liu, Guanqun Yang, Mirazul Haque, Xing Qian, Ravishka Rathnasuriya, Wei Yang, Girish Budhrani
Ultimo aggiornamento: 2024-03-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.12418
Fonte PDF: https://arxiv.org/pdf/2307.12418
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.aclweb.org/portal/content/acl-code-ethics
- https://aclrollingreview.org/responsibleNLPresearch/
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/stevens-textmining/HateModerate
- https://huggingface.co/models?sort=downloads&search=hate
- https://dl.acm.org/doi/pdf/10.1145/3593013.3594069
- https://developers.perspectiveapi.com/s/about-the-api-training-data?language=en_US
- https://moderatehatespeech.com/framework/
- https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html