Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité# Intelligence artificielle# Interaction homme-machine

Évaluation des grands modèles de langage en cybersécurité

Un nouveau repère pour évaluer les LLM dans les tâches de cybersécurité.

― 11 min lire


LLMs en cybersécuritéLLMs en cybersécuritéévalués avec SECUREévaluer les LLM dans la cybersécurité.Présentation d'une référence pour
Table des matières

Les grands modèles de langage (LLMs) ont montré des promesses dans le domaine de la cybersécurité, mais des problèmes comme des informations incorrectes et un manque de fiabilité réduisent la confiance dans leur utilisation. Les benchmarks actuels se concentrent en général sur les LLMs mais n’évaluent pas spécifiquement leur performance dans des tâches de cybersécurité. Pour combler cette lacune, on introduit SECURE (Évaluation de l'Extraction, de la Compréhension et du Raisonnement en Sécurité), un benchmark spécialement créé pour évaluer les LLMs dans des scénarios de cybersécurité réels. SECURE comprend six ensembles de données adaptés au secteur des systèmes de contrôle industriel, en se concentrant sur des aspects comme l'extraction de connaissances, la compréhension et le raisonnement en utilisant des sources standards de l'industrie.

Contexte et travaux connexes

Les modèles génératifs peuvent créer du nouveau contenu en apprenant des motifs à partir de données existantes. Bien que leur potentiel soit immense, ils font face à des défis de qualité et de fiabilité. Cette section passe en revue le développement des LLMs en cybersécurité et les cadres utilisés pour les évaluer.

Modèles de langage génératifs dans la sécurité

Les LLMs sont conçus pour comprendre et produire le langage humain. Ces modèles utilisent des techniques d'apprentissage profond pour comprendre les nuances du langage. Des LLMs précédents comme SecureBERT étaient utilisés pour des tâches de cybersécurité, mais le lancement des modèles GPT a changé notre perception des LLMs. Il existe deux principaux types de LLMs : open-source, où les modèles peuvent être accessibles au public et ajustés pour des tâches spécifiques ; et closed-source, qui restreignent l'accès via des API.

Cadres d'évaluation

Bien qu'il existe des benchmarks comme GLUE, MMLU et d'autres pour évaluer la performance générale des LLMs, les évaluations spécifiques à la cybersécurité sont limitées. La plupart des évaluations existantes se concentrent davantage sur la mémorisation plutôt que sur des tâches pratiques de cybersécurité. Par exemple, CyberMetric et CyberBench mesurent des connaissances factuelles sans aborder les complexités rencontrées dans des scénarios réels. Cela met en évidence un besoin d'évaluations qui jugent les LLMs sur leurs compétences pratiques en cybersécurité.

Benchmark proposé : SECURE

SECURE vise à évaluer les LLMs en tant que conseillers en cybersécurité dans des organisations confrontées à diverses menaces. Les LLMs devraient aider les équipes de sécurité en identifiant des vulnérabilités et en suggérant des mesures de protection. Cependant, la confiance dans les LLMs en tant que sources d'informations fiables est cruciale.

Approche de modélisation des connaissances

Dans la conception de SECURE, nous mettons l'accent sur la modélisation des connaissances. Notre objectif est d'évaluer les LLMs sur leur capacité à extraire des connaissances, à comprendre des sujets complexes et à raisonner en utilisant des informations pertinentes. Les capacités essentielles sur lesquelles nous nous concentrons comprennent :

  • Extraction : Cela implique de mesurer la capacité d'un LLM à accéder à sa base de connaissances et à rappeler des faits spécifiques, ce qui est vital pour fournir des informations cybernétiques précises et opportunes.

  • Compréhension : Cela évalue les capacités cognitives du modèle à discerner la vérité des déclarations et à comprendre les connaissances dans un contexte.

  • Raisonnement : Ici, nous évaluons les compétences en résolution de problèmes des LLMs, cruciales pour analyser des rapports de menaces détaillés et fournir des recommandations exploitables.

Ensembles de données et tâches

Nous avons utilisé ChatGPT-4 d'OpenAI pour aider à créer nos ensembles de données de benchmark. Nous nous sommes concentrés sur les tâches suivantes :

Tâche d'extraction

Cette tâche comprend des questions à choix multiples (QCM). Le modèle est censé répondre en utilisant ses données d'apprentissage sans aucun contexte. Nous avons utilisé des ressources comme le cadre MITRE ATTCK et l'énumération des faiblesses communes (CWE) pour créer deux ensembles de données :

  • MAET : Axé sur l'extraction des données de MITRE ATTCK.
  • CWET : Axé sur les faiblesses de CWE.

Un total de 2036 questions a été généré, couvrant à la fois des concepts de cybersécurité ICS de base et avancés.

Tâche de compréhension

Cet ensemble de données porte sur l'évaluation de la capacité des LLMs à comprendre des textes liés à la cybersécurité. Nous avons utilisé les vulnérabilités et expositions communes (CVE) de 2024 pour créer une série de questions vrai/faux. Cette tâche teste la capacité des LLMs à traiter de nouvelles informations. De plus, nous avons créé un ensemble de données supplémentaire pour évaluer la capacité du modèle à reconnaître quand il lui manque un contexte suffisant.

Tâche de raisonnement

La tâche de raisonnement évalue les capacités des LLMs à travers des données d'évaluation des risques compilées de l'Agence de cybersécurité et de sécurité des infrastructures (CISA). La tâche consiste à analyser des avis de sécurité pour prédire des évaluations de risques. Nous avons également créé une tâche de résolution de problèmes en utilisant le système de notation des vulnérabilités communes (CVSS) pour évaluer les LLMs sur leur capacité à calculer la gravité des vulnérabilités.

Validation des ensembles de données

Pour garantir la qualité des ensembles de données, nous avons mené un processus de vérification manuelle approfondi. Des experts humains ont examiné les questions pour garantir leur précision et leur clarté. Les questions considérées comme non répondables ou incorrectes ont été retirées de l'ensemble de données.

Ensemble de données de benchmark et évaluation

Sur la base des tâches précédentes, nous avons créé des ensembles de données de benchmark pour l'évaluation :

  • Ensemble de données d'extraction des connaissances : Composé de QCM dérivés des ressources MITRE ATTCK et CWE.

  • Ensemble de données de compréhension des connaissances : Questions booléennes basées sur les données CVE.

  • Ensemble de données de raisonnement des connaissances : Questions basées sur les avis de la CISA.

Expériences et résultats

Nous avons évalué sept LLMs à travers le benchmark SECURE pour comprendre leur performance sur les tâches énumérées. Ces modèles incluent à la fois des modèles open-source et closed-source.

Stratégie de demande pour l'évaluation

Une stratégie de demande cohérente a été employée pour uniformiser les évaluations. Pour chaque tâche, nous avons utilisé une structure de demande unique pour garantir des résultats comparables.

Métriques d'évaluation

Diverses métriques ont été utilisées pour évaluer la performance des LLMs :

  • MAET, CWET, KCV : La précision a été mesurée par le pourcentage de questions correctement répondues.
  • VOOD : Prédictions correctes identifiées lorsqu'un modèle a sélectionné « Je ne sais pas (X) » lorsqu'il n'était pas sûr.
  • RERT : La précision de la summarisation a été évaluée en utilisant la métrique ROUGE-L.
  • CPST : L'écart absolu moyen (MAD) a été utilisé pour mesurer la précision des prédictions.

Résumé des résultats

Les résultats indiquent que les modèles closed-source, en particulier ChatGPT-4, ont surpassé les autres dans la plupart des tâches. ChatGPT-4 a obtenu les meilleurs scores dans plusieurs catégories, montrant de fortes capacités à gérer diverses tâches de cybersécurité.

Discussion et analyse

Cette section fournit des aperçus sur les erreurs commises par les LLMs et leur fiabilité globale.

Analyse des erreurs

Analyser les réponses incorrectes révèle certains problèmes récurrents. Par exemple, les LLMs interprètent souvent mal l'intention des questions, ce qui entraîne des réponses incorrectes. Ces divergences soulignent la nécessité d'une meilleure compréhension contextuelle dans les modèles.

Impact de la confiance sur la précision des LLMs

Comprendre comment la confiance du modèle affecte la performance montre qu'une confiance plus faible est corrélée à une précision diminuée. Différents LLMs montrent des niveaux de confiance variés, suggérant que des techniques de calibration spécifiques au modèle pourraient améliorer la fiabilité.

Comparaison de la performance des modèles open-source et closed-source

Les modèles closed-source ont systématiquement surpassé les modèles open-source dans la plupart des tâches. Cependant, des modèles open-source comme LLaMA3-70B ont montré de bonnes performances dans certains domaines.

Évaluation des capacités de raisonnement

La performance des LLMs s'améliore lorsque le raisonnement explicite est demandé. Pour les tâches KCV et CPST, les modèles ont fourni de meilleurs résultats lorsqu'on leur a demandé d'expliquer leur processus de raisonnement.

Variance dans les prédictions

Analyser la variance des prédictions a montré que les modèles plus petits avaient tendance à produire des résultats plus variables que les modèles plus grands, indiquant un besoin de stabilité dans les réponses.

Biais d'accord des modèles

En enquêtant sur la façon dont les LLMs traitent les déclarations factuelles, on a révélé une tendance à être d'accord avec des déclarations même sans contexte. Cela suggère que les LLMs pourraient générer des réponses plausibles sans les ancrer dans des données vérifiées.

Analyse de corrélation des tâches

Une analyse de corrélation des tâches au sein du benchmark SECURE a montré que les améliorations dans les tâches d'extraction de connaissances influençaient positivement les tâches de raisonnement et de compréhension.

Performance des LLMs selon les niveaux d'expertise

Un examen des performances des LLMs sur des questions destinées aux novices par rapport aux experts a révélé que les LLMs s'en sortaient mieux sur des tâches de niveau expert lorsque les questions nécessitaient de reconnaître des connaissances existantes. Cependant, leur performance a baissé sur des tâches nécessitant l'intégration de nouvelles informations.

Recommandations pour améliorer la sécurité des ICS

  1. Calibration de la confiance : Surveiller et ajuster les niveaux de confiance des LLMs lors de la réponse à des questions de cybersécurité.

  2. Sélection du modèle : Prioriser l'utilisation de modèles closed-source pour des tâches de résolution de problèmes, où ils ont montré des performances supérieures.

  3. Encourager les explications : Exiger des LLMs qu'ils fournissent un raisonnement détaillé pour leurs réponses.

  4. Traiter les hallucinations : Mettre en œuvre des processus de validation humaine pour les réponses des LLMs.

  5. Améliorer la compréhension contextuelle : Renforcer la capacité des LLMs à interpréter et répondre avec précision en améliorant leur connaissance des termes et scénarios spécifiques au secteur.

Préoccupations éthiques

Toutes les tâches de SECURE utilisent des données publiquement disponibles, garantissant le respect des normes éthiques et évitant les informations personnelles ou sensibles.

Limitations et travaux futurs

Cette étude s'est concentrée sur trois tâches de connaissances spécifiques, mais il existe des domaines plus larges en cybersécurité qui pourraient bénéficier d'évaluations. Les efforts futurs incluront l'extension du cadre pour couvrir davantage de domaines et l'exploration de divers aspects de la fiabilité des LLMs.

Conclusion

Les LLMs présentent un potentiel significatif pour des applications en cybersécurité, mais leurs limitations concernant la fiabilité et la transparence doivent être abordées. Le benchmark SECURE fournit un moyen structuré d'évaluer les LLMs, améliorant leur utilité dans des contextes de cybersécurité tout en invitant à d'autres contributions pour son amélioration en faveur d'un usage responsable de l'IA dans le domaine.

Source originale

Titre: SECURE: Benchmarking Large Language Models for Cybersecurity

Résumé: Large Language Models (LLMs) have demonstrated potential in cybersecurity applications but have also caused lower confidence due to problems like hallucinations and a lack of truthfulness. Existing benchmarks provide general evaluations but do not sufficiently address the practical and applied aspects of LLM performance in cybersecurity-specific tasks. To address this gap, we introduce the SECURE (Security Extraction, Understanding \& Reasoning Evaluation), a benchmark designed to assess LLMs performance in realistic cybersecurity scenarios. SECURE includes six datasets focussed on the Industrial Control System sector to evaluate knowledge extraction, understanding, and reasoning based on industry-standard sources. Our study evaluates seven state-of-the-art models on these tasks, providing insights into their strengths and weaknesses in cybersecurity contexts, and offer recommendations for improving LLMs reliability as cyber advisory tools.

Auteurs: Dipkamal Bhusal, Md Tanvirul Alam, Le Nguyen, Ashim Mahara, Zachary Lightcap, Rodney Frazier, Romy Fieblinger, Grace Long Torales, Benjamin A. Blakely, Nidhi Rastogi

Dernière mise à jour: 2024-10-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.20441

Source PDF: https://arxiv.org/pdf/2405.20441

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires