Nouveau cadre améliore la sécurité des modèles linguistiques
Une méthode pour améliorer la sécurité tout en maintenant la performance dans les grands modèles de langage.
― 9 min lire
Table des matières
- Le problème des mesures de sécurité actuelles
- Une nouvelle approche : le cadre de réajustement de sécurité
- Comprendre la fusion de modèles
- Importance de la sécurité dans l'ajustement
- Détails de la méthode SOMF proposée
- Contributions du cadre
- Relation avec les travaux précédents
- Défis dans l'ajustement des modèles
- Aperçu des techniques de réajustement de sécurité
- Méthodes d'évaluation de la sécurité
- Configuration expérimentale
- Résultats et constatations
- Amélioration de la sécurité
- Performance sur les tâches en aval
- Analyse des vecteurs de tâche
- Comparaison avec d'autres méthodes
- Réponses utiles et sécurité
- Exploration supplémentaire de la sécurité
- Impact sur des sujets spécifiques
- Traitement des limitations
- Conclusion
- Source originale
- Liens de référence
Les grands modèles de langage (LLMs) deviennent de plus en plus populaires pour diverses applications, mais ils présentent aussi des risques pour la Sécurité. L'une des principales préoccupations est que ces modèles peuvent être trompés pour fournir du contenu nuisible ou inapproprié lorsque les utilisateurs posent certaines questions. Pour améliorer la sécurité, les chercheurs cherchent de meilleures façons de réajuster ces modèles afin qu'ils ne génèrent pas de réponses non sécurisées, surtout après avoir été ajustés pour différentes tâches.
Le problème des mesures de sécurité actuelles
Beaucoup de mesures de sécurité existantes pour les LLMs sont vulnérables à ce qu’on appelle des attaques de jailbreak. Ces attaques peuvent manipuler le modèle pour ignorer les protocoles de sécurité. Même l’ajustement des modèles avec des données qui ont l'air sûres peut les rendre moins sûrs, car ils peuvent oublier les règles de sécurité sur lesquelles ils ont été initialement formés. Une méthode courante pour régler ça est de faire un ajustement de sécurité après qu'un modèle a été ajusté pour une tâche spécifique. Cependant, cela peut entraîner un oubli catastrophique, où le modèle perd des informations importantes liées à la tâche pour laquelle il a été entraîné.
Une nouvelle approche : le cadre de réajustement de sécurité
Pour résoudre ces problèmes, nous proposons un cadre appelé Fusion de Modèle Orientée Subespace (SOMF). Ce cadre vise à fusionner les caractéristiques de sécurité du modèle d'origine avec les informations du modèle ajusté. L'idée est de d'abord séparer les connaissances spécifiques à la tâche des caractéristiques de sécurité initiales du modèle. Ensuite, nous identifions les parties du modèle qui sont spécifiquement liées à la sécurité et les combinons avec les informations de la tâche d'une manière qui garde les deux sécurisées et utiles.
Comprendre la fusion de modèles
La fusion de modèles est une technique utilisée pour rassembler divers modèles ajustés sur différentes tâches pour créer un seul modèle plus capable. C'est plus efficace que de réentraîner un modèle depuis le début et aide à maintenir la performance sur différentes tâches. Cependant, la question de la sécurité doit encore être gérée avec soin pendant le processus de fusion.
Importance de la sécurité dans l'ajustement
Lors de l'ajustement d'un modèle pour des tâches spécifiques, il est crucial de s'assurer que le modèle reste sûr dans ses réponses. L'ajustement peut entraîner une baisse de la sécurité, rendant impératif de trouver des solutions qui permettent d'améliorer la sécurité sans sacrifier la performance sur les tâches d'ajustement.
Détails de la méthode SOMF proposée
Notre méthode SOMF consiste en quelques étapes clés. Tout d'abord, nous prenons les vecteurs de tâches des modèles ajustés et les séparons. Cela nous permet d'identifier où se trouvent les caractéristiques de sécurité du modèle. Nous appliquons ensuite un masquage de sous-espace, une technique pour filtrer les paramètres liés aux préoccupations de sécurité. Enfin, nous combinons le modèle initialement sûr avec les vecteurs de tâches ajustés, visant à obtenir un modèle final à la fois sûr et efficace.
Contributions du cadre
Les principales contributions du cadre SOMF sont les suivantes :
- Réajustement de sécurité pour des modèles spécifiques aux tâches : Notre cadre permet de réutiliser les caractéristiques de sécurité du modèle initialement aligné tout en incorporant des connaissances spécifiques à la tâche.
- Identification des régions de sécurité partagées : La méthode identifie efficacement les zones liées à la sécurité dans les vecteurs de tâches provenant de différents modèles.
- Validation empirique : Nous menons des expériences approfondies pour montrer que notre approche améliore la sécurité sans perte significative de performance sur les tâches.
Relation avec les travaux précédents
L'alignement de sécurité dans les LLMs s'est souvent appuyé sur des méthodes comme l'apprentissage par renforcement à partir des feedbacks humains (RLHF). Bien que ces approches rendent les modèles plus alignés avec les valeurs humaines, elles peuvent être contournées par des attaquants habiles. D'autres stratégies ont cherché à gérer les sorties sûres, mais elles peinent souvent face à des données nuisibles.
Défis dans l'ajustement des modèles
Lorsque les LLMs sont ajustés avec des données bénignes, de petites modifications peuvent créer des vulnérabilités. C'est particulièrement vrai pour les attaques d'ajustement, qui peuvent introduire de nouveaux chemins pour des sorties nuisibles. Le défi est de maintenir la sécurité sans sacrifier la performance, ce qui rend le réajustement de sécurité après l'ajustement essentiel.
Aperçu des techniques de réajustement de sécurité
Les méthodes traditionnelles, comme EWC (Consolidation Élastique des Poids) et RESTA (une simple addition de vecteurs de sécurité), ont des inconvénients. EWC peut réduire la précision du modèle tout en essayant de conserver la sécurité, et l'efficacité de RESTA est limitée selon les mesures de sécurité appliquées pendant l'ajustement.
Méthodes d'évaluation de la sécurité
Nous utilisons une variété de jeux de données pour évaluer la sécurité du modèle. Par exemple, nous utilisons des jeux de données qui englobent différents types de questions nuisibles et évaluons la manière dont les modèles y répondent tout en maintenant l'utilité globale de leurs réponses.
Configuration expérimentale
Dans nos expériences, nous travaillons avec différentes stratégies d'ajustement sur plusieurs tâches comme la compréhension du langage et le codage. L'ajustement vise à améliorer les capacités du modèle sans compromettre ses normes de sécurité.
Résultats et constatations
Amélioration de la sécurité
Nos résultats montrent une amélioration claire des métriques de sécurité pour les modèles qui ont subi notre réajustement SOMF par rapport à ceux qui ont simplement été ajustés sans mesures de sécurité. Cela était particulièrement notable chez les modèles qui avaient traversé plusieurs phases d'ajustement.
Performance sur les tâches en aval
Malgré l'amélioration de la sécurité, notre cadre SOMF n'a pas significativement dégradé la performance sur les tâches assignées aux modèles. C'est crucial, car cela démontre que les mesures de sécurité peuvent être efficaces sans nuire à la fonctionnalité des modèles.
Analyse des vecteurs de tâche
Nous avons constaté que les vecteurs de tâche, après avoir subi notre technique de masquage de sous-espace, montraient une réduction marquée des zones liées aux sorties nuisibles. L'analyse a révélé que les paramètres liés à la sécurité ont été efficacement réintroduits dans les modèles après le processus d'ajustement.
Comparaison avec d'autres méthodes
Comparé à d'autres techniques de réajustement de sécurité, notre méthode SOMF a montré des avantages significatifs tant en termes de sécurité que de performance. Par exemple, bien que des méthodes comme DARE et RESTA aient été utiles, elles n'ont pas fourni le même niveau de protection contre les sorties nuisibles que notre approche.
Réponses utiles et sécurité
Il est aussi essentiel que les modèles fournissent des réponses utiles tout en respectant les protocoles de sécurité. Nos métriques d'évaluation pour l'utilité ont montré que les modèles utilisant notre méthode SOMF maintenaient de hauts niveaux d'assistance tout en refusant efficacement les demandes non sécurisées.
Exploration supplémentaire de la sécurité
Pour renforcer la robustesse des modèles, nous avons exploré combien de modèles spécifiques à une tâche pouvaient être fusionnés en toute sécurité sans compromettre la sécurité. Nos résultats montrent que SOMF est résilient, même lorsque le nombre de modèles augmente.
Impact sur des sujets spécifiques
Nous avons également évalué comment différents sujets sensibles affectaient les réponses des modèles avant et après le réajustement. Les résultats ont confirmé que notre approche a amélioré la sécurité dans diverses catégories de questions sensibles.
Traitement des limitations
Notre cadre a des limitations, principalement liées à la qualité des données de sécurité utilisées pour l'entraînement. Une meilleure qualité de données conduira à un alignement de sécurité plus efficace. Les travaux futurs impliqueront de tester notre approche sur des modèles plus grands pour améliorer encore les mesures de sécurité.
Conclusion
Le cadre de réajustement de sécurité que nous avons proposé répond efficacement aux complexités de maintenir la sécurité tout en améliorant la performance dans les grands modèles de langage. Notre méthode SOMF se démarque comme une solution prometteuse pour fusionner sécurité et performance, garantissant que les LLMs puissent être à la fois utiles et sûrs pour un large éventail d'applications. D'autres recherches continueront à affiner ces méthodes et à traiter les défis qui demeurent dans le domaine de la sécurité en IA.
Titre: A safety realignment framework via subspace-oriented model fusion for large language models
Résumé: The current safeguard mechanisms for large language models (LLMs) are indeed susceptible to jailbreak attacks, making them inherently fragile. Even the process of fine-tuning on apparently benign data for downstream tasks can jeopardize safety. One potential solution is to conduct safety fine-tuning subsequent to downstream fine-tuning. However, there's a risk of catastrophic forgetting during safety fine-tuning, where LLMs may regain safety measures but lose the task-specific knowledge acquired during downstream fine-tuning. In this paper, we introduce a safety realignment framework through subspace-oriented model fusion (SOMF), aiming to combine the safeguard capabilities of initially aligned model and the current fine-tuned model into a realigned model. Our approach begins by disentangling all task vectors from the weights of each fine-tuned model. We then identify safety-related regions within these vectors by subspace masking techniques. Finally, we explore the fusion of the initial safely aligned LLM with all task vectors based on the identified safety subspace. We validate that our safety realignment framework satisfies the safety requirements of a single fine-tuned model as well as multiple models during their fusion. Our findings confirm that SOMF preserves safety without notably compromising performance on downstream tasks, including instruction following in Chinese, English, and Hindi, as well as problem-solving capabilities in Code and Math.
Auteurs: Xin Yi, Shunfan Zheng, Linlin Wang, Xiaoling Wang, Liang He
Dernière mise à jour: 2024-05-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.09055
Source PDF: https://arxiv.org/pdf/2405.09055
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/lppl.txt
- https://huggingface.co/cognitivecomputations/WizardLM-7B-Uncensored
- https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0
- https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF
- https://github.com/hiyouga/LLaMA-Factory
- https://huggingface.co/datasets/iamshnoo/alpaca-cleaned-hindi
- https://huggingface.co/datasets/sahil2801/CodeAlpaca-20k
- https://huggingface.co/datasets/gsm8k