Évaluation des risques dans les grands modèles de langage

Table des matières

Montée des LLM
Évaluation des Risques
OWASP Top 10 pour LLM
Notation des Risques
Risques des LLM
Parties Prenantes dans les LLM
Processus d'Analyse des Risques
Matrice de Menaces
Analyse de Cas d'Utilisation : Assistant Virtuel Universitaire
Analyse des Risques de l'Assistant Virtuel Universitaire
Conclusion et Travaux Futurs
Source originale

L'utilisation des grands modèles de langage (LLM) a rapidement augmenté dans de nombreux domaines, montrant des capacités impressionnantes à générer du texte et à compléter des tâches. Cependant, ces avancées s'accompagnent de risques et de problèmes importants. Les attaquants continuent de trouver et d'exploiter des faiblesses dans les LLM, sapant leur fiabilité. Souvent, les organisations déploient des systèmes basés sur des LLM sans vraiment comprendre les conséquences potentielles.

Bien que certaines études aient examiné les risques associés aux LLM, elles ne fournissent souvent pas de méthodes claires pour que les experts en sécurité, les développeurs et les décideurs analysent ces risques spécifiquement. Pour combler cette lacune, un processus d'Évaluation des risques est proposé, utilisant la méthode de notation des risques OWASP, qui est généralement utilisée pour les systèmes traditionnels. Grâce à ce processus, nous pouvons identifier les menaces possibles, analyser les composants du système et vérifier la probabilité d'une cyberattaque. En fin de compte, cela aide à évaluer l'impact et à créer une matrice de menaces utile pour les parties prenantes.

Montée des LLM

Les LLM ont fait des progrès significatifs en traitement du langage naturel. Ces modèles, basés sur des algorithmes d'apprentissage profond et entraînés sur de vastes ensembles de données textuelles, peuvent comprendre et créer du texte humain comme jamais auparavant. L'introduction de l'architecture transformer en 2017 a encore amélioré leur capacité à traiter des séquences de données complexes.

L'entraînement des LLM se fait en deux étapes principales : le pré-entraînement et le fine-tuning. Pendant le pré-entraînement, le modèle apprend la langue en prédisant le prochain mot dans une phrase en fonction du contexte environnant. Cet apprentissage autogéré aide le modèle à développer une solide compréhension des motifs linguistiques. Dans la phase de fine-tuning, le modèle est ajusté pour des tâches spécifiques en utilisant des ensembles de données plus petits liés à ces tâches, affinant ses capacités pour des tâches comme la summarisation et la traduction.

Évaluation des Risques

L'évaluation des risques joue un rôle essentiel dans la gestion de la sécurité de l'information. Elle aide les organisations à identifier, analyser et réduire systématiquement les risques potentiels. Divers cadres existent pour guider ce processus, y compris ceux d'ENISA, NIST et ISO.

Tous ces cadres suivent généralement des étapes similaires :

Identification des Risques : Identifier les menaces et vulnérabilités potentielles dans le système.
Analyse des Risques : Analyser les menaces identifiées pour comprendre leur importance.
Évaluation des Risques : Classer les risques en fonction de leur impact potentiel.
Traitement des Risques : Développer et mettre en œuvre des stratégies pour gérer les risques.
Surveillance et Revue : Revoir et mettre à jour constamment le processus d'évaluation des risques pour faire face aux nouvelles menaces.

Les évaluations de risque peuvent être catégorisées en trois types selon leurs méthodes :

Évaluation Qualitative des Risques : Utilise le jugement d'experts et l'évaluation subjective pour évaluer les risques.
Évaluation Quantitative des Risques : Utilise des données numériques pour fournir une évaluation plus précise.
Évaluation Semi-Quantitative des Risques : Combine des méthodes qualitatives et quantitatives.

OWASP Top 10 pour LLM

Le OWASP Top 10 pour les applications LLM sert de guide pour les développeurs et les équipes de sécurité afin de naviguer dans les défis uniques liés aux LLM. Il identifie dix vulnérabilités critiques, fournit des exemples d'attaques et offre des suggestions pour atténuer ces risques.

Notation des Risques

Dans la notation des risques, l'objectif est d'évaluer la probabilité qu'une attaque se produise et à quel point les conséquences pourraient être graves. Plusieurs méthodes reconnues existent pour aider à calculer ces deux aspects, y compris celles de NIST et la méthode de notation des risques OWASP.

La méthode de notation des risques OWASP offre un moyen structuré d'évaluer et de prioriser les risques liés aux logiciels et aux applications web. Elle utilise deux facteurs principaux pour calculer la probabilité :

Facteurs d'Agent de Menace :

Niveau de compétence des attaquants potentiels
Motivations de ces attaquants
Ressources à leur disposition
Taille du groupe d'attaquants

Facteurs de Vulnérabilité :

Facilité de découverte de la vulnérabilité
Difficulté à l'exploiter
Connaissance de la vulnérabilité par les attaquants
Chance de détecter une tentative d'intrusion

Pour évaluer l'impact, les facteurs sont regroupés en :

Facteurs d'Impact Technique :

Perte de confidentialité
Perte d'intégrité
Perte de disponibilité
Perte de responsabilité

Facteurs d'Impact Commercial :

Dommages financiers
Dommages à la réputation
Exposition réglementaire
Gravité des violations de la vie privée

Les scores pour la probabilité et l'impact sont donnés sur une échelle de 0 à 9. Ces scores peuvent ensuite être moyennés et ajustés en fonction des besoins spécifiques de l'organisation.

Risques des LLM

La section suivante détaille les risques associés aux LLM, organisés selon l'OWASP Top Ten pour les LLM.

LLM01 : Injection de prompt

L'injection de prompt est un risque où un attaquant peut manipuler la sortie des LLM en façonnant soigneusement les prompts, souvent en violant les politiques d'utilisation établies par les développeurs. Cela peut se faire de deux manières :

Injections de Prompt Directes : Cela implique de modifier le prompt du système pour contourner les fonctionnalités de sécurité.
Injections de Prompt Indirectes : Cela se produit lorsqu'une source externe influence l'entrée du LLM, conduisant à un comportement inattendu.

LLM02 : Gestion Insecure des Sorties

Les LLM entraînés sur d'énormes ensembles de données internet peuvent générer des sorties qui peuvent être nuisibles lorsqu'elles sont utilisées dans des applications. Si les sorties ne sont pas correctement gérées, des risques de sécurité peuvent se poser, tels que des attaques de Cross-Site Scripting ou une élévation de privilèges.

LLM03 : Poisoning des Données d'Entraînement

Cela implique de modifier intentionnellement les données d'entraînement pour introduire des exemples malveillants ou biaisés. Les attaquants visent à dégrader les performances et la fiabilité du modèle grâce à des portes dérobées ou des biais.

LLM04 : Déni de Service du Modèle

Un attaquant peut forcer les LLM à consommer des ressources excessives, ce qui peut entraîner une baisse de la qualité du service ou un déni de service pour d'autres. Cela peut se faire en créant des prompts complexes.

LLM05 : Vulnérabilités de la Chaîne d'Approvisionnement

Tout le processus, de la collecte des données à la mise en œuvre des LLM, peut avoir des vulnérabilités. Cela peut inclure des ensembles de données empoisonnés, des modèles pré-entraînés compromis ou des packages tiers non sécurisés.

LLM06 : Divulgation d'Informations Sensibles

Les LLM entraînés sur des ensembles de données divers peuvent divulguer involontairement des informations privées dans leurs réponses. Les attaquants peuvent exploiter cela pour extraire des données sensibles.

LLM07 : Conception de Plugin Insecure

Les plugins qui ne valident pas correctement l'entrée des utilisateurs peuvent être exploités, entraînant des vulnérabilités comme l'injection SQL ou l'exécution de code à distance.

LLM08 : Agence Excessive

Les systèmes basés sur des LLM peuvent prendre des décisions basées sur l'entrée de l'utilisateur. S'ils ont trop de contrôle, les attaquants peuvent en profiter et provoquer des sorties ou comportements inattendus.

LLM09 : Surdépendance

Les LLM peuvent produire des informations factuellement incorrectes. Compter sur leurs sorties sans supervision adéquate peut entraîner des violations de sécurité et de la désinformation.

LLM10 : Vol de Modèle

Cela fait référence à la copie ou à l'extraction de données provenant de LLM propriétaires. De telles actions peuvent entraîner des pertes financières et nuire à la réputation d'une marque.

Parties Prenantes dans les LLM

Les parties prenantes impliquées avec les LLM incluent une large gamme d'individus et d'organisations, des grandes entreprises finançant le développement des LLM aux utilisateurs quotidiens. Cette discussion se concentre sur trois groupes principaux directement impactés par les problèmes de sécurité potentiels :

Développeurs de Fine-Tuning des LLM

Ces développeurs investissent considérablement dans la création de modèles qui nécessitent des ressources substantielles. De nombreuses petites organisations peuvent avoir du mal à rivaliser en raison de ces coûts élevés. Cependant, les LLM open-source deviennent de plus en plus accessibles, permettant à ces développeurs de peaufiner des modèles pour diverses applications.

Développeurs d'Intégration API

Avec la montée des LLM comme ChatGPT, les développeurs créent des applications qui dépendent des API publiques de LLM. Bien que ces API simplifient le processus de développement, elles limitent la personnalisation et pourraient conduire à des oublis de sécurité.

Utilisateurs Finaux

Les utilisateurs finaux sont les consommateurs d'applications alimentées par des LLM. Ils comptent sur ces systèmes pour diverses fonctions dans leur vie quotidienne. Assurer la sécurité et la confidentialité des utilisateurs finaux est crucial pour maintenir la confiance dans la technologie des LLM.

Processus d'Analyse des Risques

Le processus d'analyse des risques commence par l'identification de toutes les menaces potentielles basées sur l'OWASP Top Ten pour les LLM. Chaque risque identifié est analysé pour comprendre son impact et sa probabilité. Ce processus comprend trois étapes clés :

Analyse de Scénario : Créer des scénarios pour comprendre les menaces possibles et les pires issues.
Cartographie des Dépendances : Identifier les composants du système liés aux vulnérabilités et comprendre à quel point ils peuvent être facilement exploités.
Analyse d'impact : Évaluer quelles seraient les conséquences si une attaque réussissait.

Matrice de Menaces

Une matrice de menaces générique cartographie les risques OWASP Top Ten contre différentes parties prenantes. Cette matrice fournit une référence rapide pour effectuer des évaluations de risque et met en évidence des insights pour une atténuation ciblée des risques.

Analyse de Cas d'Utilisation : Assistant Virtuel Universitaire

Regardons un cas d'utilisation hypothétique impliquant un assistant virtuel universitaire créé en fine-tuning d'un LLM open-source avec des données universitaires. Cet assistant aide les étudiants et le personnel avec les matériaux de cours et les demandes administratives.

Description du Système

L'assistant virtuel universitaire est conçu pour que les étudiants et le personnel authentifiés posent des questions sur les informations de cours et les ressources du campus. L'assistant accède à une base de connaissances mise à jour régulièrement pour garantir que les réponses sont précises.

Aperçu de la Sécurité

Bien que le système vise la convivialité, il présente plusieurs faiblesses en matière de sécurité. La bibliothèque de validation des prompts n'a pas été testée pour des vulnérabilités, et il n'y a pas de vérification en deux étapes pour améliorer la sécurité. Les activités des utilisateurs sont enregistrées, mais la surveillance en temps réel pour les actions suspectes fait défaut.

Analyse des Risques de l'Assistant Virtuel Universitaire

Nous allons évaluer deux risques spécifiques : l'injection de prompt et le poisoning des données d'entraînement pour l'assistant virtuel universitaire.

Analyse de l'Injection de Prompt

La probabilité d'une attaque par injection de prompt est élevée en raison de la simplicité d'exploitation de cette vulnérabilité. Les impacts possibles incluent des dommages à la réputation et un risque pour les informations confidentielles.

Analyse du Poisoning des Données d'Entraînement

Le risque de poisoning des données d'entraînement est modéré. Les attaquants peuvent manipuler des ensembles de données sans détection. Les conséquences pourraient être significatives, impactant la fiabilité du modèle et la réputation de l'université.

Conclusion et Travaux Futurs

Cette étude souligne l'importance des processus d'évaluation des risques structurés pour les systèmes basés sur des LLM. En utilisant des méthodologies établies, nous pouvons identifier et prioriser efficacement les risques. L'analyse révèle que l'injection de prompt représente une menace significative, tandis que le poisoning des données d'entraînement est également une préoccupation mais comporte un risque modéré.

Ce processus d'évaluation des risques est précieux pour les parties prenantes qui doivent gérer les risques dans les systèmes LLM. À mesure que le domaine de la technologie des LLM continue de se développer, un travail continu sera essentiel pour améliorer les mesures de sécurité et s'adapter à de nouveaux défis. Le raffinement continu des outils et des stratégies d'évaluation des risques sera la clé pour atteindre une intégration sécurisée et fiable de la technologie LLM dans diverses applications.

Évaluation des risques dans les grands modèles de langage

Un aperçu des risques et des évaluations des grands modèles de langage en matière de sécurité.

Montée des LLM

Évaluation des Risques

OWASP Top 10 pour LLM

Notation des Risques

Facteurs d'Agent de Menace :

Facteurs de Vulnérabilité :

Facteurs d'Impact Technique :

Facteurs d'Impact Commercial :

Risques des LLM

LLM01 : Injection de prompt

LLM02 : Gestion Insecure des Sorties

LLM03 : Poisoning des Données d'Entraînement

LLM04 : Déni de Service du Modèle

LLM05 : Vulnérabilités de la Chaîne d'Approvisionnement

LLM06 : Divulgation d'Informations Sensibles

LLM07 : Conception de Plugin Insecure

LLM08 : Agence Excessive

LLM09 : Surdépendance

LLM10 : Vol de Modèle

Parties Prenantes dans les LLM

Développeurs de Fine-Tuning des LLM

Développeurs d'Intégration API

Utilisateurs Finaux

Processus d'Analyse des Risques

Matrice de Menaces

Analyse de Cas d'Utilisation : Assistant Virtuel Universitaire

Description du Système

Aperçu de la Sécurité

Analyse des Risques de l'Assistant Virtuel Universitaire

Analyse de l'Injection de Prompt

Analyse du Poisoning des Données d'Entraînement

Conclusion et Travaux Futurs

Sujets référencés

Évaluation des risques dans les grands modèles de langage

Un aperçu des risques et des évaluations des grands modèles de langage en matière de sécurité.

#Montée des LLM

#Évaluation des Risques

#OWASP Top 10 pour LLM

#Notation des Risques

#Facteurs d'Agent de Menace :

#Facteurs de Vulnérabilité :

#Facteurs d'Impact Technique :

#Facteurs d'Impact Commercial :

#Risques des LLM

#LLM01 : Injection de prompt

#LLM02 : Gestion Insecure des Sorties

#LLM03 : Poisoning des Données d'Entraînement

#LLM04 : Déni de Service du Modèle

#LLM05 : Vulnérabilités de la Chaîne d'Approvisionnement

#LLM06 : Divulgation d'Informations Sensibles

#LLM07 : Conception de Plugin Insecure

#LLM08 : Agence Excessive

#LLM09 : Surdépendance

#LLM10 : Vol de Modèle

#Parties Prenantes dans les LLM

#Développeurs de Fine-Tuning des LLM

#Développeurs d'Intégration API

#Utilisateurs Finaux

#Processus d'Analyse des Risques

#Matrice de Menaces

#Analyse de Cas d'Utilisation : Assistant Virtuel Universitaire

#Description du Système

#Aperçu de la Sécurité

#Analyse des Risques de l'Assistant Virtuel Universitaire

#Analyse de l'Injection de Prompt

#Analyse du Poisoning des Données d'Entraînement

#Conclusion et Travaux Futurs

Sujets référencés

Montée des LLM

Évaluation des Risques

OWASP Top 10 pour LLM

Notation des Risques

Facteurs d'Agent de Menace :

Facteurs de Vulnérabilité :

Facteurs d'Impact Technique :

Facteurs d'Impact Commercial :

Risques des LLM

LLM01 : Injection de prompt

LLM02 : Gestion Insecure des Sorties

LLM03 : Poisoning des Données d'Entraînement

LLM04 : Déni de Service du Modèle

LLM05 : Vulnérabilités de la Chaîne d'Approvisionnement

LLM06 : Divulgation d'Informations Sensibles

LLM07 : Conception de Plugin Insecure

LLM08 : Agence Excessive

LLM09 : Surdépendance

LLM10 : Vol de Modèle

Parties Prenantes dans les LLM

Développeurs de Fine-Tuning des LLM

Développeurs d'Intégration API

Utilisateurs Finaux

Processus d'Analyse des Risques

Matrice de Menaces

Analyse de Cas d'Utilisation : Assistant Virtuel Universitaire

Description du Système

Aperçu de la Sécurité

Analyse des Risques de l'Assistant Virtuel Universitaire

Analyse de l'Injection de Prompt

Analyse du Poisoning des Données d'Entraînement

Conclusion et Travaux Futurs