Valutare la Sicurezza dei Grandi Modelli Linguistici
Una rassegna dei dataset focalizzati sul miglioramento della sicurezza degli LLM.
― 7 leggere min
Indice
- La Crescita dei Dataset
- Tendenze Attuali
- Metodologia della Revisione dei Dataset
- Criteri per l'Includere
- Trovare Candidati per il Dataset
- Registrazione delle Informazioni
- Risultati Chiave
- Storia e Crescita
- Scopo e Utilizzo dei Dataset
- Formato e Dimensione del Dataset
- Metodi di Creazione
- Distribuzione Linguistica
- Accesso e Licenza
- Luoghi di Pubblicazione
- Utilizzo dei Dataset nei Rilasci dei Modelli
- Revisione dei Benchmark
- Conclusione
- Fonte originale
- Link di riferimento
Negli ultimi anni, c'è stata una crescente preoccupazione per la Sicurezza dei grandi modelli di linguaggio (LLM). Queste preoccupazioni hanno portato a un aumento nella creazione di vari dataset mirati a valutare e migliorare la sicurezza di questi modelli. Tuttavia, lo sviluppo rapido di questi dataset avviene spesso in modo indipendente, con obiettivi diversi. Questo ha reso difficile per i ricercatori e i professionisti identificare i dataset rilevanti per le loro specifiche esigenze e riconoscere le aree dove sono necessari nuovi dataset.
Per affrontare queste sfide, è stata condotta una revisione sistematica dei dataset aperti incentrati sulla sicurezza degli LLM. Questa revisione mira a compilare e analizzare i dataset esistenti, facendo luce sulla loro crescita, scopo e utilizzo nella pratica.
La Crescita dei Dataset
Negli ultimi anni si è assistito a un aumento drammatico del numero di dataset creati per valutare e migliorare la sicurezza degli LLM. Questa crescita può essere ricondotta a preoccupazioni sui rischi associati agli LLM, in particolare per quanto riguarda output distorti e generazione di contenuti dannosi. Con la creazione di più dataset, è fondamentale riconoscere che il panorama dei dataset correlati alla sicurezza è diversificato e in rapido cambiamento.
In questa revisione sono stati identificati 102 dataset, pubblicati tra giugno 2018 e febbraio 2024. Questa raccolta mostra gli sforzi in corso per affrontare la sicurezza degli LLM e i vari approcci adottati per valutarla.
Tendenze Attuali
Una tendenza notevole nel panorama dei dataset per la sicurezza è l'aumento dell'uso di dataset sintetici. Questi sono dataset completamente generati da modelli anziché compilati da dati reali. Inoltre, c'è una significativa mancanza di dataset disponibili in lingue diverse dall'inglese. Questa limitazione potrebbe presentare sfide per i ricercatori che lavorano in contesti multilingue.
La revisione evidenzia anche come i dataset di sicurezza vengano attualmente utilizzati nei settori accademico e industriale. Sebbene molti dataset siano disponibili, l'uso effettivo nelle valutazioni e nei benchmark coinvolge spesso solo un piccolo subset di questi dataset, indicando un'opportunità mancata per una Valutazione più completa della sicurezza degli LLM.
Metodologia della Revisione dei Dataset
Criteri per l'Includere
Per raccogliere dataset pertinenti a questa revisione, sono stati stabiliti criteri specifici. L'attenzione è stata posta esclusivamente su dataset aperti pertinenti alla sicurezza degli LLM, in particolare quelli costituiti da testi. Sono stati esclusi i dataset relativi a immagini, audio o modelli multimodali. Solo i testi che affrontano direttamente aspetti legati alla sicurezza degli LLM, come il bias o istruzioni dannose, sono stati considerati.
Trovare Candidati per il Dataset
È stato impiegato un processo iterativo per compilare un elenco di candidati per il dataset. La fase iniziale ha coinvolto la raccolta di dataset attraverso l'engagement della comunità, seguita da una tecnica di ricerca a "palla di neve", che significava esaminare le referenze in pubblicazioni esistenti per trovare ulteriori dataset. Questo approccio ha portato all'identificazione di 102 dataset rilevanti.
Registrazione delle Informazioni
Per ogni dataset, sono state raccolte informazioni strutturate, coprendo aspetti come lo scopo del dataset, creazione, formato, accesso e licenza. Questi dati strutturati servono come risorsa utile per ricercatori e sviluppatori che cercano di comprendere le caratteristiche e le potenziali applicazioni dei dataset.
Risultati Chiave
Storia e Crescita
La revisione indica che l'interesse nella valutazione della sicurezza degli LLM si è costruito nel tempo, ma il ritmo di crescita è notevolmente accelerato nell'ultimo anno. I primi dataset si concentravano principalmente sulla valutazione di bias specifici. Tuttavia, i dataset recenti si sono espansi per coprire valutazioni di sicurezza più ampie, indicando un cambiamento di focus verso una visione più completa della sicurezza.
Scopo e Utilizzo dei Dataset
I dataset vengono creati con vari scopi. Possono essere raggruppati in categorie basate sul loro focus, come valutazioni di sicurezza ampie, valutazioni di sicurezza ristrette, valutazioni di bias e allineamento etico. La maggior parte dei dataset mira a servire come benchmark per la valutazione piuttosto che per l'addestramento dei modelli, il che dimostra un'enfasi sulla valutazione delle prestazioni del modello.
Formato e Dimensione del Dataset
Il formato dei dataset sta evolvendo in risposta al panorama in cambiamento dei modelli di linguaggio. I dataset più vecchi spesso utilizzavano prompt in stile completamento automatico, che sono meno rilevanti per i modelli generativi moderni. Al contrario, i dataset attuali utilizzano frequentemente formati in stile chat che si allineano meglio con il modo in cui gli utenti interagiscono adesso con gli LLM.
Le dimensioni dei dataset variano ampiamente. Alcuni dataset sono piccoli e specializzati, mentre altri comprendono centinaia di migliaia di voci. La revisione ha trovato che il dataset più piccolo conteneva solo un pugno di prompt, mentre il dataset più grande presentava oltre 600.000 voci.
Metodi di Creazione
I metodi utilizzati per creare questi dataset sono diversificati. Molti dataset recenti si basano fortemente su template, dove i prompt scritti a mano vengono combinati per generare dataset più grandi. Inoltre, un numero crescente di dataset è completamente sintetico, mostrando un cambiamento verso l'uso di modelli per creare dati di addestramento e valutazione.
Distribuzione Linguistica
Una scoperta significativa dalla revisione è che la maggior parte dei dataset è disponibile solo in inglese. Su 102 dataset esaminati, solo una piccola frazione è stata creata in altre lingue. Questa mancanza di risorse multilingue potrebbe limitare l'applicabilità dei risultati in diversi contesti linguistici.
Accesso e Licenza
In termini di accessibilità, GitHub è emerso come la principale piattaforma per condividere questi dataset, con molti dataset disponibili anche su Hugging Face. La maggior parte dei dataset è fornita con licenze permissive, rendendoli più facili da usare per la ricerca e lo sviluppo.
Luoghi di Pubblicazione
Le istituzioni accademiche e le organizzazioni senza scopo di lucro sono stati i principali contributori alla creazione e pubblicazione di dataset aperti sulla sicurezza degli LLM. Un numero sostanziale di dataset è stato presentato a importanti conferenze focalizzate sulla tecnologia del linguaggio, anche se c'è una tendenza evidente verso canali di pubblicazione meno formali come arXiv.
Utilizzo dei Dataset nei Rilasci dei Modelli
La revisione ha anche esaminato come questi dataset aperti sulla sicurezza degli LLM vengano utilizzati nella pratica, specialmente nelle pubblicazioni sui rilasci dei modelli. Molti modelli all'avanguardia valutati hanno riportato le loro valutazioni di sicurezza, sebbene l'estensione della valutazione vari. Alcuni modelli non hanno riportato alcuna valutazione di sicurezza, evidenziando incoerenze nelle pratiche.
Tra i modelli esaminati, un numero limitato di dataset è stato comunemente riferito, indicando che molti modelli si basano su un insieme ristretto di valutazioni di sicurezza. Il dataset TruthfulQA era particolarmente prevalente, mostrando il suo ampio uso nei vari rilasci di modelli.
Revisione dei Benchmark
Infine, la revisione ha esaminato suite di benchmarking popolari per valutare la sicurezza degli LLM. Sebbene vari benchmark incorporino più dataset di sicurezza, manca un framework completo che abbracci tutti gli aspetti della sicurezza. Ogni benchmark ha il suo focus, ma collettivamente illustrano la necessità di un approccio più unificato per valutare la sicurezza degli LLM.
Conclusione
La crescita dei dataset aperti per valutare e migliorare la sicurezza degli LLM è incoraggiante, riflettendo l'urgenza e l'importanza di affrontare le preoccupazioni sulla sicurezza nello sviluppo delle tecnologie AI. Tuttavia, il panorama attuale rivela lacune, in particolare nella diversità linguistica e nell'uso dei dataset disponibili nelle valutazioni.
Questa revisione sottolinea la necessità di pratiche più standardizzate nelle valutazioni di sicurezza. Sfruttando meglio la varietà di dataset ora disponibili, i ricercatori e i professionisti possono migliorare le loro valutazioni, portando a modelli di linguaggio più sicuri e affidabili.
In futuro, è essenziale continuare a documentare l'evoluzione dei dataset sulla sicurezza e incoraggiare contributi da diverse origini linguistiche e culturali per garantire una copertura e una comprensione complete della sicurezza degli LLM.
Titolo: SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety
Estratto: The last two years have seen a rapid growth in concerns around the safety of large language models (LLMs). Researchers and practitioners have met these concerns by introducing an abundance of new datasets for evaluating and improving LLM safety. However, much of this work has happened in parallel, and with very different goals in mind, ranging from the mitigation of near-term risks around bias and toxic content generation to the assessment of longer-term catastrophic risk potential. This makes it difficult for researchers and practitioners to find the most relevant datasets for a given use case, and to identify gaps in dataset coverage that future work may fill. To remedy these issues, we conduct a first systematic review of open datasets for evaluating and improving LLM safety. We review 102 datasets, which we identified through an iterative and community-driven process over the course of several months. We highlight patterns and trends, such as a a trend towards fully synthetic datasets, as well as gaps in dataset coverage, such as a clear lack of non-English datasets. We also examine how LLM safety datasets are used in practice -- in LLM release publications and popular LLM benchmarks -- finding that current evaluation practices are highly idiosyncratic and make use of only a small fraction of available datasets. Our contributions are based on SafetyPrompts.com, a living catalogue of open datasets for LLM safety, which we commit to updating continuously as the field of LLM safety develops.
Autori: Paul Röttger, Fabio Pernisi, Bertie Vidgen, Dirk Hovy
Ultimo aggiornamento: 2024-04-08 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2404.05399
Fonte PDF: https://arxiv.org/pdf/2404.05399
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://safetyprompts.com/
- https://github.com/paul-rottger/safetyprompts-paper
- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- https://tatsu-lab.github.io/alpaca_eval/
- https://huggingface.co/spaces/AI-Secure/llm-trustworthy-leaderboard
- https://github.com/stanford-crfm/helm/tree/main/src/helm/benchmark/scenarios