Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Évaluer la sécurité des grands modèles de langage

Un nouveau jeu de données aide à évaluer la sécurité des modèles linguistiques.

― 8 min lire


Vérifications de sécuritéVérifications de sécuritépour les modèles delangageutilisation responsable.Évaluer les risques de l'IA pour une
Table des matières

Avec la rapide croissance des grands modèles de langage (LLMs), de nouvelles capacités nuisibles apparaissent, et c'est parfois difficile à anticiper. C'est important parce que les développeurs doivent identifier ces Risques pour utiliser les LLMs en toute Sécurité. Ce travail regroupe le premier ensemble de données open-source pour vérifier les mesures de sécurité dans les LLMs, afin d'aider à utiliser des modèles plus sûrs sans se ruiner.

L'ensemble de données ne contient que des instructions que des modèles responsables ne devraient pas suivre. Il a été nettoyé et organisé pour garantir sa qualité. On a vérifié comment six LLMs bien connus ont réagi à ces instructions. À partir de ces évaluations, on a entraîné différents classifieurs qui ont montré des résultats prometteurs en matière d'évaluation de la sécurité.

Le besoin de sécurité en IA

L'essor des LLMs a apporté plein de capacités utiles, mais il y a aussi des risques. Ces modèles peuvent potentiellement faire du mal, comme répandre des fausses infos ou aider dans des activités illégales. Donc, c'est crucial pour les développeurs d'identifier et de limiter ces capacités dangereuses. Certaines entreprises ont déjà créé des ensembles de données avec des prompts nuisibles pour aider dans cette tâche. Elles ont aussi essayé de créer des systèmes pour empêcher les modèles de produire des Réponses dangereuses en utilisant des méthodes d'entraînement et de filtrage.

Cependant, les LLMs open-source manquent souvent de systèmes de sécurité solides. Pour y remédier, on a créé une ressource pour aider les chercheurs à évaluer la sécurité de leurs modèles de langage. Cet ensemble de données, appelé "Do-Not-Answer", contient des prompts que des modèles responsables devraient éviter de répondre.

Création de l'ensemble de données

Pour créer cet ensemble de données, on l'a organisé en trois niveaux de risque. Le premier niveau contient de larges catégories de risque, tandis que les deuxième et troisième niveaux détaillent les risques en types plus spécifiques. Au total, on a collecté 939 prompts qui représentent chacun une situation où un modèle ne devrait pas fournir de réponse.

On a aussi vérifié manuellement les réponses de LLMs commerciaux et open-source. Cette revue a révélé des forces et des faiblesses parmi les modèles. Par exemple, un modèle était mieux à éviter de donner des réponses nuisibles que d'autres. Donc, analyser ces réponses peut aider à comprendre les risques spécifiques auxquels chaque modèle est confronté.

Collecte de questions dangereuses

On a collecté des questions risquées en générant des prompts basés sur nos catégories de risque. Cela a été fait en créant des modèles qui pouvaient être complétés. L'objectif était de rassembler une large gamme de scénarios dangereux avec lesquels les modèles ne devraient pas interagir. Bien que la plupart des modèles ne fournissent pas de réponses nuisibles, certains peuvent le faire sous certains prompts.

En tout, on a rassemblé plus de 900 questions risquées en utilisant des stratégies pour stimuler des exemples divers. Cela a impliqué d'encourager les modèles à générer des requêtes nuisibles tout en élaborant soigneusement les nôtres.

Évaluation des réponses

On a examiné les réponses de six LLMs différents, trois commerciaux et trois open-source. Cette analyse a révélé des schémas dans la façon dont différents modèles gèrent les prompts risqués. Les réponses ont été classées en fonction de leur sécurité ou de leur dangerosité. Une réponse sûre pourrait être un refus, une objection forte à la question, ou une déclaration d'avertissement générale.

Par exemple, si un prompt demandait des infos dangereuses, une bonne réponse serait de déclarer clairement que le modèle ne peut pas aider avec ça. À l'inverse, si un modèle donne une réponse nuisible, cela pourrait entraîner des problèmes sérieux.

Évaluation de la sécurité et performance du modèle

En évaluant la sécurité des modèles, on a constaté que certains étaient plus responsables que d'autres. Le modèle le plus sûr de notre étude n'a fourni que quelques réponses nuisibles, tandis que d'autres en avaient beaucoup plus. En classant les réponses selon leur nature, on a pu mieux comprendre le risque que chaque modèle présente.

Les résultats ont indiqué que les modèles commerciaux rejetaient souvent les demandes risquées sans hésitation, tandis que certains modèles open-source prenaient une approche plus subtile. Cette différence dans les styles de réponse met en lumière la nécessité d'une évaluation minutieuse lors de l'utilisation des LLMs en pratique.

Évaluation automatisée de la sécurité

Pour faciliter le processus d'évaluation, on a aussi exploré des évaluations de sécurité automatiques. Ces méthodes visent à évaluer rapidement les réponses des modèles sans dépendre entièrement d'annotateurs humains. En entraînant des classifieurs sur les réponses, on pouvait prédire si une réponse donnée était sûre ou nuisible.

Nos expériences ont montré que des modèles plus petits peuvent encore évaluer efficacement la sécurité, produisant des résultats comparables à ceux de modèles plus grands. Cela suggère que les évaluations de sécurité peuvent être faites efficacement, même quand les ressources sont limitées.

Résultats et schémas

L'étude a révélé qu'il y a des schémas clairs dans la façon dont les modèles répondent à différents types de requêtes nuisibles. Par exemple, les questions sur des activités illégales entraînaient généralement des refus directs. En même temps, les modèles géraient les questions sur la discrimination de manière plus nuancée, refusant souvent de s'engager ou redirigeant la conversation.

Comprendre ces schémas aide à identifier les forces et les faiblesses des différents modèles. Les modèles commerciaux excellent dans les refus directs, tandis que les modèles open-source peuvent offrir des réponses plus variées.

Limites et perspectives d'avenir

L'étude a ses limites. Un gros problème est que toutes les instructions de l'ensemble de données sont risquées, ce qui peut conduire à une surestimation de la sensibilité d'un modèle. Les travaux futurs devraient inclure des instructions non risquées pour voir comment les modèles se comportent dans des conditions plus typiques.

De plus, bien que notre ensemble de données soit complet, il pourrait être élargi davantage pour inclure plus d'exemples. Le système de catégorisation pourrait aussi bénéficier d'une approche multiligne, offrant plus de flexibilité dans l'évaluation des réponses.

Conclusion

Alors que les LLMs continuent de croître en capacités, s'assurer de leur utilisation sûre est primordial. Ce travail contribue un ensemble de données précieux et un cadre d'évaluation qui peut aider à guider les développeurs dans la création de modèles de langage plus sûrs. En identifiant les risques et en améliorant les mécanismes de sécurité, on peut promouvoir un développement responsable de l'IA pour l'avenir.

Comprendre les zones de risque

On catégorise les risques en cinq grandes zones.

  1. Risques d'information : Risques qui se présentent quand un modèle prédit des infos sensibles. Les modèles devraient éviter de répondre à des questions qui cherchent des secrets personnels ou liés à des organisations.

  2. Utilisations malveillantes : Ces risques impliquent des utilisateurs essayant d'utiliser des modèles pour des activités nuisibles. Les modèles ne devraient jamais aider dans des actions illégales ou à des demandes contraires à l'éthique.

  3. Discrimination, exclusion et toxicité : Ces risques viennent de modèles imitant des schémas de discours nuisibles présents dans leurs données d'entraînement. Les modèles devraient éviter de s'engager dans un langage nuisible ou discriminatoire.

  4. Dommages causés par la désinformation : Cela inclut la propagation de fausses infos ou d'infos trompeuses. Les modèles doivent être prudents avec les questions concernant des sujets sensibles.

  5. Dommages dans l'interaction homme-ordinateur : Risques qui se produisent pendant les conversations avec les utilisateurs, surtout en traitant des problèmes de santé mentale ou en créant une dépendance émotionnelle à l'IA.

La voie à suivre

Grâce à une évaluation diligente et à la compréhension des risques liés aux LLM, les développeurs peuvent bâtir de meilleures protections dans les systèmes d'IA. Les initiatives futures devraient se concentrer sur l'élargissement de l'ensemble de données, l'amélioration des techniques d'évaluation et l'assurance de tests diversifiés pour promouvoir une utilisation responsable de l'IA.

En combinant l'évaluation humaine avec des évaluations automatisées, on prépare le terrain pour des vérifications de sécurité cohérentes et efficaces, garantissant finalement que l'IA sert l'humanité de manière sûre et éthique.

Source originale

Titre: Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

Résumé: With the rapid evolution of large language models (LLMs), new and hard-to-predict harmful capabilities are emerging. This requires developers to be able to identify risks through the evaluation of "dangerous capabilities" in order to responsibly deploy LLMs. In this work, we collect the first open-source dataset to evaluate safeguards in LLMs, and deploy safer open-source LLMs at a low cost. Our dataset is curated and filtered to consist only of instructions that responsible language models should not follow. We annotate and assess the responses of six popular LLMs to these instructions. Based on our annotation, we proceed to train several BERT-like classifiers, and find that these small classifiers can achieve results that are comparable with GPT-4 on automatic safety evaluation. Warning: this paper contains example data that may be offensive, harmful, or biased.

Auteurs: Yuxia Wang, Haonan Li, Xudong Han, Preslav Nakov, Timothy Baldwin

Dernière mise à jour: 2023-09-03 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.13387

Source PDF: https://arxiv.org/pdf/2308.13387

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires