Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Évaluer la sécurité des gros modèles de langage

Une revue des ensembles de données axés sur l'amélioration de la sécurité des LLM.

― 9 min lire


Revue du jeu de donnéesRevue du jeu de donnéessur la sécurité des LLMdes modèles de langage.Aperçus sur l'évaluation de la sécurité
Table des matières

Ces dernières années, on s'est de plus en plus inquiété de la Sécurité des grands modèles linguistiques (LLMs). Ces préoccupations ont conduit à une explosion de la création de différents ensembles de données destinés à évaluer et améliorer la sécurité de ces modèles. Cependant, le développement rapide de ces ensembles de données se fait souvent indépendamment, avec des objectifs variés. Ça a rendu difficile pour les chercheurs et les praticiens d'identifier les ensembles de données pertinents pour leurs besoins spécifiques et de reconnaître les domaines où de nouveaux ensembles de données sont nécessaires.

Pour répondre à ces défis, une revue systématique des ensembles de données ouverts axés sur la sécurité des LLM a été réalisée. Cette revue vise à compiler et analyser les ensembles de données existants, mettant en lumière leur croissance, leur but et leur utilisation en pratique.

La Croissance des Ensembles de Données

Ces dernières années, on a constaté une augmentation spectaculaire du nombre d'ensembles de données créés pour évaluer et améliorer la sécurité des LLM. Cette croissance est liée à des inquiétudes concernant les risques associés aux LLM, notamment en ce qui concerne les résultats biaisés et la génération de contenus nuisibles. Avec la création de plus en plus d'ensembles de données, il est crucial de reconnaître que le paysage des ensembles de données liés à la sécurité est diversifié et en rapide évolution.

Dans cette revue, 102 ensembles de données ont été identifiés, publiés entre juin 2018 et février 2024. Cette collection montre les efforts en cours pour aborder la sécurité des LLM et les différentes approches adoptées pour l'évaluer.

Tendances Actuelles

Une tendance notable dans le paysage des ensembles de données de sécurité est l'utilisation croissante d'ensembles de données synthétiques. Ce sont des ensembles de données entièrement générés par des modèles plutôt que compilés à partir de données du monde réel. De plus, il y a un manque significatif d'ensembles de données disponibles dans d'autres Langues que l'anglais. Cette limitation pourrait poser des défis pour les chercheurs travaillant dans des contextes multilingues.

La revue souligne également comment les ensembles de données de sécurité sont actuellement utilisés dans les sphères académiques et industrielles. Bien que de nombreux ensembles de données soient disponibles, l'utilisation réelle dans les Évaluations et les benchmarks implique souvent seulement un petit sous-ensemble de ces ensembles de données, ce qui indique une occasion manquée pour une évaluation plus complète de la sécurité des LLM.

Méthodologie de Revue des Ensembles de Données

Critères d'Inclusion

Pour rassembler des ensembles de données pertinents pour cette revue, des critères spécifiques ont été établis. L'accent a été mis uniquement sur les ensembles de données ouverts pertinents pour la sécurité des LLM, spécifiquement ceux composés de textes. Les ensembles de données liés aux images, à l'audio ou aux modèles multimodaux ont été exclus. Seuls les textes qui abordent directement des aspects liés à la sécurité des LLM, comme le biais ou les instructions nuisibles, ont été pris en compte.

Recherche de Candidats d'Ensembles de Données

Un processus itératif a été utilisé pour compiler une liste de candidats d'ensembles de données. La première étape a consisté à compiler des ensembles de données par le biais de l'engagement de la communauté, suivie d'une technique de recherche en boule de neige, ce qui signifie examiner les références dans les publications existantes pour trouver des ensembles de données supplémentaires. Cette approche a conduit à l'identification de 102 ensembles de données pertinents.

Enregistrement des Informations

Pour chaque ensemble de données, des informations structurées ont été collectées, couvrant des aspects tels que le but, la création, le format, l'accès et la licence de l'ensemble de données. Ces données structurées servent de ressource utile pour les chercheurs et les développeurs cherchant à comprendre les caractéristiques des ensembles de données et leurs applications potentielles.

Résultats Clés

Histoire et Croissance

La revue indique que l'intérêt pour l'évaluation de la sécurité des LLM a été en croissance depuis un certain temps, mais le rythme de croissance a considérablement accéléré au cours de l'année dernière. Les premiers ensembles de données se concentraient principalement sur l'évaluation de biais spécifiques. Cependant, les ensembles de données récents se sont élargis pour couvrir des évaluations de sécurité plus générales, indiquant un changement de focus vers une vision plus complète de la sécurité.

But et Utilisation des Ensembles de Données

Les ensembles de données sont créés avec divers objectifs en tête. Ils peuvent être regroupés en catégories en fonction de leur focus, comme des évaluations de sécurité larges, des évaluations de sécurité spécifiques, des évaluations de biais et un alignement éthique. La majorité des ensembles de données visent à servir de benchmarks pour l'évaluation plutôt que pour former des modèles, ce qui montre un accent sur l'évaluation des performances des modèles.

Format et Taille des Ensembles de Données

Le format des ensembles de données évolue en réponse au paysage changeant des modèles linguistiques. Les anciens ensembles de données utilisaient souvent des prompts de type auto-complétion, qui sont moins pertinents pour les modèles génératifs modernes. En revanche, les ensembles de données actuels utilisent fréquemment des formats de style chat qui s'alignent mieux avec la façon dont les utilisateurs interagissent avec les LLM maintenant.

Les tailles des ensembles de données varient également considérablement. Certains ensembles de données sont petits et spécialisés, tandis que d'autres contiennent des centaines de milliers d'entrées. La revue a trouvé que le plus petit ensemble de données contenait juste quelques prompts, tandis que le plus grand ensemble de données comptait plus de 600 000 entrées.

Méthodes de Création

Les méthodes utilisées pour créer ces ensembles de données sont diverses. De nombreux ensembles de données récents reposent fortement sur des modèles, où des prompts écrits par des humains sont combinés pour générer de plus grands ensembles de données. De plus, un nombre croissant d'ensembles de données est entièrement synthétique, montrant un changement vers l'utilisation de modèles pour créer des données d'entraînement et d'évaluation.

Répartition Linguistique

Une découverte significative de la revue est que la majorité des ensembles de données ne sont disponibles qu'en anglais. Sur les 102 ensembles de données examinés, seule une petite fraction a été créée dans d'autres langues. Ce manque de ressources multilingues pourrait limiter l'applicabilité des résultats dans différents contextes linguistiques.

Accessibilité et Licence

En termes d'accessibilité, GitHub est devenu la principale plateforme pour partager ces ensembles de données, avec de nombreux ensembles de données également disponibles sur Hugging Face. La plupart des ensembles de données sont fournis sous des licences permissives, ce qui les rend plus faciles à utiliser pour la recherche et le développement.

Lieux de Publication

Les institutions académiques et les organisations à but non lucratif ont été les principaux contributeurs à la création et à la publication d'ensembles de données ouverts sur la sécurité des LLM. Un nombre substantiel d'ensembles de données a été présenté lors de grandes conférences axées sur la technologie linguistique, bien qu'il y ait une tendance notable vers des canaux de publication moins formels comme arXiv.

Utilisation des Ensembles de Données dans les Lancements de Modèles

La revue a également examiné comment ces ensembles de données ouverts sur la sécurité des LLM sont utilisés en pratique, notamment dans les publications de lancement de modèles. De nombreux modèles à la pointe de la technologie qui ont été évalués ont rapporté sur leurs évaluations de sécurité, bien que l'étendue de l'évaluation varie. Certains modèles n'ont pas rapporté d'évaluations de sécurité, soulignant des incohérences dans les pratiques.

Parmi les modèles examinés, un nombre limité d'ensembles de données a été couramment référencé, indiquant que de nombreux modèles s'appuient sur un ensemble restreint d'évaluations de sécurité. L'ensemble de données TruthfulQA était particulièrement répandu, montrant son utilisation généralisée dans divers lancements de modèles.

Revue des Benchmarks

Enfin, la revue a examiné les suites de benchmarking populaires pour évaluer la sécurité des LLM. Bien que divers benchmarks incorporent plusieurs ensembles de données de sécurité, il reste un manque d'un cadre complet qui englobe tous les aspects de la sécurité. Chaque benchmark a son propre focus, mais collectivement, ils illustrent le besoin d'une approche plus unifiée pour évaluer la sécurité des LLM.

Conclusion

La croissance des ensembles de données ouverts pour évaluer et améliorer la sécurité des LLM est encourageante, reflétant l'urgence et l'importance de répondre aux préoccupations de sécurité dans le développement des technologies d'IA. Cependant, le paysage actuel révèle des lacunes, notamment en termes de diversité linguistique et d'utilisation des ensembles de données disponibles dans les évaluations.

Cette revue souligne la nécessité de pratiques plus standardisées dans les évaluations de sécurité. En tirant mieux parti de la variété des ensembles de données maintenant disponibles, les chercheurs et les praticiens peuvent améliorer leurs évaluations, menant finalement à des modèles linguistiques plus sûrs et plus fiables.

À l'avenir, c'est essentiel de continuer à documenter l'évolution des ensembles de données de sécurité et d'encourager les contributions de diverses origines linguistiques et culturelles pour garantir une couverture et une compréhension complètes de la sécurité des LLM.

Source originale

Titre: SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety

Résumé: The last two years have seen a rapid growth in concerns around the safety of large language models (LLMs). Researchers and practitioners have met these concerns by introducing an abundance of new datasets for evaluating and improving LLM safety. However, much of this work has happened in parallel, and with very different goals in mind, ranging from the mitigation of near-term risks around bias and toxic content generation to the assessment of longer-term catastrophic risk potential. This makes it difficult for researchers and practitioners to find the most relevant datasets for a given use case, and to identify gaps in dataset coverage that future work may fill. To remedy these issues, we conduct a first systematic review of open datasets for evaluating and improving LLM safety. We review 102 datasets, which we identified through an iterative and community-driven process over the course of several months. We highlight patterns and trends, such as a a trend towards fully synthetic datasets, as well as gaps in dataset coverage, such as a clear lack of non-English datasets. We also examine how LLM safety datasets are used in practice -- in LLM release publications and popular LLM benchmarks -- finding that current evaluation practices are highly idiosyncratic and make use of only a small fraction of available datasets. Our contributions are based on SafetyPrompts.com, a living catalogue of open datasets for LLM safety, which we commit to updating continuously as the field of LLM safety develops.

Auteurs: Paul Röttger, Fabio Pernisi, Bertie Vidgen, Dirk Hovy

Dernière mise à jour: 2024-04-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.05399

Source PDF: https://arxiv.org/pdf/2404.05399

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires