Évaluation des risques dans les grands modèles de langage
Un aperçu des risques et des évaluations des grands modèles de langage en matière de sécurité.
― 11 min lire
Table des matières
- Montée des LLM
- Évaluation des Risques
- OWASP Top 10 pour LLM
- Notation des Risques
- Facteurs d'Agent de Menace :
- Facteurs de Vulnérabilité :
- Facteurs d'Impact Technique :
- Facteurs d'Impact Commercial :
- Risques des LLM
- LLM01 : Injection de prompt
- LLM02 : Gestion Insecure des Sorties
- LLM03 : Poisoning des Données d'Entraînement
- LLM04 : Déni de Service du Modèle
- LLM05 : Vulnérabilités de la Chaîne d'Approvisionnement
- LLM06 : Divulgation d'Informations Sensibles
- LLM07 : Conception de Plugin Insecure
- LLM08 : Agence Excessive
- LLM09 : Surdépendance
- LLM10 : Vol de Modèle
- Parties Prenantes dans les LLM
- Développeurs de Fine-Tuning des LLM
- Développeurs d'Intégration API
- Utilisateurs Finaux
- Processus d'Analyse des Risques
- Matrice de Menaces
- Analyse de Cas d'Utilisation : Assistant Virtuel Universitaire
- Description du Système
- Aperçu de la Sécurité
- Analyse des Risques de l'Assistant Virtuel Universitaire
- Analyse de l'Injection de Prompt
- Analyse du Poisoning des Données d'Entraînement
- Conclusion et Travaux Futurs
- Source originale
L'utilisation des grands modèles de langage (LLM) a rapidement augmenté dans de nombreux domaines, montrant des capacités impressionnantes à générer du texte et à compléter des tâches. Cependant, ces avancées s'accompagnent de risques et de problèmes importants. Les attaquants continuent de trouver et d'exploiter des faiblesses dans les LLM, sapant leur fiabilité. Souvent, les organisations déploient des systèmes basés sur des LLM sans vraiment comprendre les conséquences potentielles.
Bien que certaines études aient examiné les risques associés aux LLM, elles ne fournissent souvent pas de méthodes claires pour que les experts en sécurité, les développeurs et les décideurs analysent ces risques spécifiquement. Pour combler cette lacune, un processus d'Évaluation des risques est proposé, utilisant la méthode de notation des risques OWASP, qui est généralement utilisée pour les systèmes traditionnels. Grâce à ce processus, nous pouvons identifier les menaces possibles, analyser les composants du système et vérifier la probabilité d'une cyberattaque. En fin de compte, cela aide à évaluer l'impact et à créer une matrice de menaces utile pour les parties prenantes.
Montée des LLM
Les LLM ont fait des progrès significatifs en traitement du langage naturel. Ces modèles, basés sur des algorithmes d'apprentissage profond et entraînés sur de vastes ensembles de données textuelles, peuvent comprendre et créer du texte humain comme jamais auparavant. L'introduction de l'architecture transformer en 2017 a encore amélioré leur capacité à traiter des séquences de données complexes.
L'entraînement des LLM se fait en deux étapes principales : le pré-entraînement et le fine-tuning. Pendant le pré-entraînement, le modèle apprend la langue en prédisant le prochain mot dans une phrase en fonction du contexte environnant. Cet apprentissage autogéré aide le modèle à développer une solide compréhension des motifs linguistiques. Dans la phase de fine-tuning, le modèle est ajusté pour des tâches spécifiques en utilisant des ensembles de données plus petits liés à ces tâches, affinant ses capacités pour des tâches comme la summarisation et la traduction.
Évaluation des Risques
L'évaluation des risques joue un rôle essentiel dans la gestion de la sécurité de l'information. Elle aide les organisations à identifier, analyser et réduire systématiquement les risques potentiels. Divers cadres existent pour guider ce processus, y compris ceux d'ENISA, NIST et ISO.
Tous ces cadres suivent généralement des étapes similaires :
- Identification des Risques : Identifier les menaces et vulnérabilités potentielles dans le système.
- Analyse des Risques : Analyser les menaces identifiées pour comprendre leur importance.
- Évaluation des Risques : Classer les risques en fonction de leur impact potentiel.
- Traitement des Risques : Développer et mettre en œuvre des stratégies pour gérer les risques.
- Surveillance et Revue : Revoir et mettre à jour constamment le processus d'évaluation des risques pour faire face aux nouvelles menaces.
Les évaluations de risque peuvent être catégorisées en trois types selon leurs méthodes :
- Évaluation Qualitative des Risques : Utilise le jugement d'experts et l'évaluation subjective pour évaluer les risques.
- Évaluation Quantitative des Risques : Utilise des données numériques pour fournir une évaluation plus précise.
- Évaluation Semi-Quantitative des Risques : Combine des méthodes qualitatives et quantitatives.
OWASP Top 10 pour LLM
Le OWASP Top 10 pour les applications LLM sert de guide pour les développeurs et les équipes de sécurité afin de naviguer dans les défis uniques liés aux LLM. Il identifie dix vulnérabilités critiques, fournit des exemples d'attaques et offre des suggestions pour atténuer ces risques.
Notation des Risques
Dans la notation des risques, l'objectif est d'évaluer la probabilité qu'une attaque se produise et à quel point les conséquences pourraient être graves. Plusieurs méthodes reconnues existent pour aider à calculer ces deux aspects, y compris celles de NIST et la méthode de notation des risques OWASP.
La méthode de notation des risques OWASP offre un moyen structuré d'évaluer et de prioriser les risques liés aux logiciels et aux applications web. Elle utilise deux facteurs principaux pour calculer la probabilité :
Facteurs d'Agent de Menace :
- Niveau de compétence des attaquants potentiels
- Motivations de ces attaquants
- Ressources à leur disposition
- Taille du groupe d'attaquants
Facteurs de Vulnérabilité :
- Facilité de découverte de la vulnérabilité
- Difficulté à l'exploiter
- Connaissance de la vulnérabilité par les attaquants
- Chance de détecter une tentative d'intrusion
Pour évaluer l'impact, les facteurs sont regroupés en :
Facteurs d'Impact Technique :
- Perte de confidentialité
- Perte d'intégrité
- Perte de disponibilité
- Perte de responsabilité
Facteurs d'Impact Commercial :
- Dommages financiers
- Dommages à la réputation
- Exposition réglementaire
- Gravité des violations de la vie privée
Les scores pour la probabilité et l'impact sont donnés sur une échelle de 0 à 9. Ces scores peuvent ensuite être moyennés et ajustés en fonction des besoins spécifiques de l'organisation.
Risques des LLM
La section suivante détaille les risques associés aux LLM, organisés selon l'OWASP Top Ten pour les LLM.
Injection de prompt
LLM01 :L'injection de prompt est un risque où un attaquant peut manipuler la sortie des LLM en façonnant soigneusement les prompts, souvent en violant les politiques d'utilisation établies par les développeurs. Cela peut se faire de deux manières :
- Injections de Prompt Directes : Cela implique de modifier le prompt du système pour contourner les fonctionnalités de sécurité.
- Injections de Prompt Indirectes : Cela se produit lorsqu'une source externe influence l'entrée du LLM, conduisant à un comportement inattendu.
LLM02 : Gestion Insecure des Sorties
Les LLM entraînés sur d'énormes ensembles de données internet peuvent générer des sorties qui peuvent être nuisibles lorsqu'elles sont utilisées dans des applications. Si les sorties ne sont pas correctement gérées, des risques de sécurité peuvent se poser, tels que des attaques de Cross-Site Scripting ou une élévation de privilèges.
LLM03 : Poisoning des Données d'Entraînement
Cela implique de modifier intentionnellement les données d'entraînement pour introduire des exemples malveillants ou biaisés. Les attaquants visent à dégrader les performances et la fiabilité du modèle grâce à des portes dérobées ou des biais.
LLM04 : Déni de Service du Modèle
Un attaquant peut forcer les LLM à consommer des ressources excessives, ce qui peut entraîner une baisse de la qualité du service ou un déni de service pour d'autres. Cela peut se faire en créant des prompts complexes.
LLM05 : Vulnérabilités de la Chaîne d'Approvisionnement
Tout le processus, de la collecte des données à la mise en œuvre des LLM, peut avoir des vulnérabilités. Cela peut inclure des ensembles de données empoisonnés, des modèles pré-entraînés compromis ou des packages tiers non sécurisés.
LLM06 : Divulgation d'Informations Sensibles
Les LLM entraînés sur des ensembles de données divers peuvent divulguer involontairement des informations privées dans leurs réponses. Les attaquants peuvent exploiter cela pour extraire des données sensibles.
LLM07 : Conception de Plugin Insecure
Les plugins qui ne valident pas correctement l'entrée des utilisateurs peuvent être exploités, entraînant des vulnérabilités comme l'injection SQL ou l'exécution de code à distance.
LLM08 : Agence Excessive
Les systèmes basés sur des LLM peuvent prendre des décisions basées sur l'entrée de l'utilisateur. S'ils ont trop de contrôle, les attaquants peuvent en profiter et provoquer des sorties ou comportements inattendus.
LLM09 : Surdépendance
Les LLM peuvent produire des informations factuellement incorrectes. Compter sur leurs sorties sans supervision adéquate peut entraîner des violations de sécurité et de la désinformation.
LLM10 : Vol de Modèle
Cela fait référence à la copie ou à l'extraction de données provenant de LLM propriétaires. De telles actions peuvent entraîner des pertes financières et nuire à la réputation d'une marque.
Parties Prenantes dans les LLM
Les parties prenantes impliquées avec les LLM incluent une large gamme d'individus et d'organisations, des grandes entreprises finançant le développement des LLM aux utilisateurs quotidiens. Cette discussion se concentre sur trois groupes principaux directement impactés par les problèmes de sécurité potentiels :
Développeurs de Fine-Tuning des LLM
Ces développeurs investissent considérablement dans la création de modèles qui nécessitent des ressources substantielles. De nombreuses petites organisations peuvent avoir du mal à rivaliser en raison de ces coûts élevés. Cependant, les LLM open-source deviennent de plus en plus accessibles, permettant à ces développeurs de peaufiner des modèles pour diverses applications.
Développeurs d'Intégration API
Avec la montée des LLM comme ChatGPT, les développeurs créent des applications qui dépendent des API publiques de LLM. Bien que ces API simplifient le processus de développement, elles limitent la personnalisation et pourraient conduire à des oublis de sécurité.
Utilisateurs Finaux
Les utilisateurs finaux sont les consommateurs d'applications alimentées par des LLM. Ils comptent sur ces systèmes pour diverses fonctions dans leur vie quotidienne. Assurer la sécurité et la confidentialité des utilisateurs finaux est crucial pour maintenir la confiance dans la technologie des LLM.
Processus d'Analyse des Risques
Le processus d'analyse des risques commence par l'identification de toutes les menaces potentielles basées sur l'OWASP Top Ten pour les LLM. Chaque risque identifié est analysé pour comprendre son impact et sa probabilité. Ce processus comprend trois étapes clés :
- Analyse de Scénario : Créer des scénarios pour comprendre les menaces possibles et les pires issues.
- Cartographie des Dépendances : Identifier les composants du système liés aux vulnérabilités et comprendre à quel point ils peuvent être facilement exploités.
- Analyse d'impact : Évaluer quelles seraient les conséquences si une attaque réussissait.
Matrice de Menaces
Une matrice de menaces générique cartographie les risques OWASP Top Ten contre différentes parties prenantes. Cette matrice fournit une référence rapide pour effectuer des évaluations de risque et met en évidence des insights pour une atténuation ciblée des risques.
Analyse de Cas d'Utilisation : Assistant Virtuel Universitaire
Regardons un cas d'utilisation hypothétique impliquant un assistant virtuel universitaire créé en fine-tuning d'un LLM open-source avec des données universitaires. Cet assistant aide les étudiants et le personnel avec les matériaux de cours et les demandes administratives.
Description du Système
L'assistant virtuel universitaire est conçu pour que les étudiants et le personnel authentifiés posent des questions sur les informations de cours et les ressources du campus. L'assistant accède à une base de connaissances mise à jour régulièrement pour garantir que les réponses sont précises.
Aperçu de la Sécurité
Bien que le système vise la convivialité, il présente plusieurs faiblesses en matière de sécurité. La bibliothèque de validation des prompts n'a pas été testée pour des vulnérabilités, et il n'y a pas de vérification en deux étapes pour améliorer la sécurité. Les activités des utilisateurs sont enregistrées, mais la surveillance en temps réel pour les actions suspectes fait défaut.
Analyse des Risques de l'Assistant Virtuel Universitaire
Nous allons évaluer deux risques spécifiques : l'injection de prompt et le poisoning des données d'entraînement pour l'assistant virtuel universitaire.
Analyse de l'Injection de Prompt
La probabilité d'une attaque par injection de prompt est élevée en raison de la simplicité d'exploitation de cette vulnérabilité. Les impacts possibles incluent des dommages à la réputation et un risque pour les informations confidentielles.
Analyse du Poisoning des Données d'Entraînement
Le risque de poisoning des données d'entraînement est modéré. Les attaquants peuvent manipuler des ensembles de données sans détection. Les conséquences pourraient être significatives, impactant la fiabilité du modèle et la réputation de l'université.
Conclusion et Travaux Futurs
Cette étude souligne l'importance des processus d'évaluation des risques structurés pour les systèmes basés sur des LLM. En utilisant des méthodologies établies, nous pouvons identifier et prioriser efficacement les risques. L'analyse révèle que l'injection de prompt représente une menace significative, tandis que le poisoning des données d'entraînement est également une préoccupation mais comporte un risque modéré.
Ce processus d'évaluation des risques est précieux pour les parties prenantes qui doivent gérer les risques dans les systèmes LLM. À mesure que le domaine de la technologie des LLM continue de se développer, un travail continu sera essentiel pour améliorer les mesures de sécurité et s'adapter à de nouveaux défis. Le raffinement continu des outils et des stratégies d'évaluation des risques sera la clé pour atteindre une intégration sécurisée et fiable de la technologie LLM dans diverses applications.
Titre: Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal
Résumé: The rapid integration of Large Language Models (LLMs) across diverse sectors has marked a transformative era, showcasing remarkable capabilities in text generation and problem-solving tasks. However, this technological advancement is accompanied by significant risks and vulnerabilities. Despite ongoing security enhancements, attackers persistently exploit these weaknesses, casting doubts on the overall trustworthiness of LLMs. Compounding the issue, organisations are deploying LLM-integrated systems without understanding the severity of potential consequences. Existing studies by OWASP and MITRE offer a general overview of threats and vulnerabilities but lack a method for directly and succinctly analysing the risks for security practitioners, developers, and key decision-makers who are working with this novel technology. To address this gap, we propose a risk assessment process using tools like the OWASP risk rating methodology which is used for traditional systems. We conduct scenario analysis to identify potential threat agents and map the dependent system components against vulnerability factors. Through this analysis, we assess the likelihood of a cyberattack. Subsequently, we conduct a thorough impact analysis to derive a comprehensive threat matrix. We also map threats against three key stakeholder groups: developers engaged in model fine-tuning, application developers utilizing third-party APIs, and end users. The proposed threat matrix provides a holistic evaluation of LLM-related risks, enabling stakeholders to make informed decisions for effective mitigation strategies. Our outlined process serves as an actionable and comprehensive tool for security practitioners, offering insights for resource management and enhancing the overall system security.
Auteurs: Rahul Pankajakshan, Sumitra Biswal, Yuvaraj Govindarajulu, Gilad Gressel
Dernière mise à jour: 2024-03-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.13309
Source PDF: https://arxiv.org/pdf/2403.13309
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.