Affrontare il pregiudizio sociale nei modelli linguistici
Un nuovo modello rileva il pregiudizio sociale nel testo usando dati sintetici.
― 5 leggere min
Indice
I modelli di linguaggio di grandi dimensioni (LLMs) sono strumenti potenti che possono fare molte cose, ma possono anche produrre contenuti dannosi o di parte. Questo crea delle sfide, soprattutto in settori delicati come la salute e la finanza. C'è un crescente interesse nel creare sistemi che possano rilevare e limitare gli output indesiderati di questi modelli. Un approccio per affrontare queste questioni è sviluppare modelli di guardrail, progettati per identificare contenuti dannosi generati dai LLM.
Il Problema del Pregiudizio Sociale
Il pregiudizio sociale si riferisce al trattamento ingiusto di individui o gruppi basato su caratteristiche come razza, genere o credenze. A volte, questo pregiudizio appare nel testo senza usare un linguaggio esplicitamente dannoso. Ad esempio, un’affermazione potrebbe suggerire discriminazione contro qualcuno in base al proprio aspetto, anche se non usa parole offensive. Rilevare automaticamente tale pregiudizio è fondamentale, poiché può prevenire la diffusione di stereotipi dannosi nei contenuti generati dai LLM.
Lo Sviluppo di un Rilevatore di Pregiudizio Sociale
Per creare un sistema che rileva il pregiudizio sociale, un team ha raccolto vari set di dati che includevano diversi tipi di testo. Hanno addestrato un modello utilizzando un metodo che prevede il fine-tuning di un modello esistente chiamato BERT. Anche se questo modello ha funzionato ragionevolmente bene nei test, ha commesso molti errori contrassegnando erroneamente affermazioni innocue come dannose.
Per migliorare il modello, il team ha cercato di capire perché incontrava difficoltà. Hanno scoperto che il modello aveva problemi a distinguere tra due modi di usare il linguaggio: "uso" e "menzione." Quando qualcuno usa un'affermazione dannosa, è un esempio di "uso." Se qualcuno si riferisce a un'affermazione dannosa per evidenziarne l'inesattezza, è un esempio di "menzione."
Il team ha trovato che molti errori erano dovuti al fatto che il modello non riconosceva questa differenza. Questo li ha portati a ripensare il loro approccio ed esplorare modi per migliorare i loro dati di addestramento.
Generazione di Dati Sintetici
Creazione di un Pipeline per laPer migliorare i dati di addestramento, il team ha sviluppato un metodo per generare dati sintetici. Questo ha comportato la creazione di un set di linee guida strutturate, o una tassonomia, per categorizzare vari tipi di pregiudizi sociali. Hanno usato questa tassonomia per produrre un grande volume di coppie di testo, dove un’affermazione era di parte e l’altra no. In totale, hanno creato oltre 300.000 esempi di testo per aiutare ad addestrare il loro sistema di rilevamento del pregiudizio.
Questo metodo non solo ha aggiunto diversità ai dati, ma ha anche garantito che gli esempi aiutassero il modello a fare distinzioni migliori tra affermazioni dannose e innocue.
Test e Valutazione dei Modelli
Il team ha testato i loro modelli usando vari set di valutazione. Si sono concentrati su metriche come il tasso di falsi positivi, che misura quanto spesso affermazioni innocue vengono etichettate erroneamente come dannose, e il Tasso di Falsi Negativi, che misura quanto spesso affermazioni dannose vengono trascurate.
Attraverso i loro esperimenti, hanno scoperto che il loro nuovo approccio, che includeva la generazione di dati sintetici e un focus sulla distinzione uso-mention, ha portato a tassi più bassi di falsi positivi. Questo significa che il modello era meglio nel non classificare erroneamente il testo innocuo come dannoso.
L’Approccio a Cascata
Una strategia innovativa usata dal team è stata chiamata approccio a cascata. Questo metodo prevede l'uso di due modelli in sequenza. Il primo modello determina se il testo è potenzialmente dannoso. Se viene segnalato come dannoso, il secondo modello verifica se il testo è un uso o una menzione. Questo processo in due fasi aiuta a ridurre gli errori e migliorare l’accuratezza nell’identificazione dei contenuti dannosi.
Sfide e Limitazioni
Anche se i nuovi modelli hanno mostrato promesse, il team ha riconosciuto che il loro approccio non era perfetto. Hanno notato che la loro tassonomia potrebbe non coprire tutti i possibili tipi di pregiudizio sociale. Il pregiudizio può evolvere e nuove forme possono emergere nel tempo. Questo significa che i dati di addestramento e le tassonomie devono essere continuamente aggiornati per rimanere efficaci.
Il team ha anche riconosciuto che, mentre l'uso di dati sintetici generati dalla loro tassonomia ha migliorato i loro modelli, avevano ancora bisogno di bilanciare questo con dati curati da umani per garantire che i modelli avessero le migliori informazioni disponibili.
Direzioni Future
Guardando al futuro, i ricercatori pianificano di rifinire ulteriormente i loro modelli. Stanno considerando nuovi metodi di addestramento che sfruttano i punti di forza sia dei dati sintetici che di quelli generati da umani. Vogliono anche esplorare approcci per migliorare la fiducia del modello nelle sue previsioni per ridurre il rischio sia di falsi positivi che di falsi negativi.
In aggiunta, pianificano di coinvolgere la comunità e raccogliere feedback per migliorare la loro comprensione del pregiudizio nel linguaggio e ottenere suggerimenti su come migliorare i loro sistemi.
Conclusione
Il lavoro svolto da questo team evidenzia l'importanza di affrontare il pregiudizio sociale nei modelli di linguaggio. Sviluppando un pipeline per la generazione di dati sintetici e concentrandosi sulla distinzione uso-mention, stanno facendo progressi nel migliorare l'accuratezza dei rilevatori di pregiudizio. Man mano che i modelli di linguaggio continuano ad evolversi, lo sviluppo continuo di modelli di guardrail sarà cruciale per garantire il loro uso sicuro e responsabile nella società.
Titolo: When in Doubt, Cascade: Towards Building Efficient and Capable Guardrails
Estratto: Large language models (LLMs) have convincing performance in a variety of downstream tasks. However, these systems are prone to generating undesirable outputs such as harmful and biased text. In order to remedy such generations, the development of guardrail (or detector) models has gained traction. Motivated by findings from developing a detector for social bias, we adopt the notion of a use-mention distinction - which we identified as the primary source of under-performance in the preliminary versions of our social bias detector. Armed with this information, we describe a fully extensible and reproducible synthetic data generation pipeline which leverages taxonomy-driven instructions to create targeted and labeled data. Using this pipeline, we generate over 300K unique contrastive samples and provide extensive experiments to systematically evaluate performance on a suite of open source datasets. We show that our method achieves competitive performance with a fraction of the cost in compute and offers insight into iteratively developing efficient and capable guardrail models. Warning: This paper contains examples of text which are toxic, biased, and potentially harmful.
Autori: Manish Nagireddy, Inkit Padhi, Soumya Ghosh, Prasanna Sattigeri
Ultimo aggiornamento: 2024-07-08 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.06323
Fonte PDF: https://arxiv.org/pdf/2407.06323
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://ctan.org/pkg/algorithm
- https://ctan.org/pkg/algorithmicx
- https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
- https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- https://huggingface.co/google-bert/bert-base-uncased
- https://huggingface.co/tomh/toxigen_hatebert
- https://huggingface.co/meta-llama/LlamaGuard-7b
- https://huggingface.co/meta-llama/Meta-Llama-Guard-2-8B
- https://llama.meta.com/llama3/license/