Simple Science

Ciência de ponta explicada de forma simples

# Informática# Criptografia e segurança# Inteligência Artificial# Interação Homem-Computador

Avaliando Grandes Modelos de Linguagem em Cibersegurança

Um novo padrão para avaliar LLMs em tarefas de cibersegurança.

― 9 min ler


LLMs de cibersegurançaLLMs de cibersegurançaavaliados com SECUREem cibersegurança.Apresentando um padrão pra avaliar LLMs
Índice

Grandes Modelos de Linguagem (LLMs) mostraram potencial na área de cibersegurança, mas problemas como informações erradas e falta de confiabilidade reduzem a confiança no uso deles. Os benchmarks atuais focam amplamente nos LLMs, mas não avaliam especificamente seu desempenho em tarefas de cibersegurança. Para preencher essa lacuna, apresentamos o SECURE (Avaliação de Extração, Compreensão e Raciocínio em Segurança), um benchmark criado especificamente para avaliar LLMs em cenários de cibersegurança do mundo real. O SECURE inclui seis conjuntos de dados voltados para o setor de Sistemas de Controle Industrial, focando em aspectos como extração de conhecimento, compreensão e raciocínio usando fontes padrão da indústria.

Contexto e Trabalhos Relacionados

Modelos generativos podem criar novo conteúdo aprendendo padrões a partir de dados existentes. Apesar do seu potencial ser enorme, eles enfrentam desafios em qualidade e confiabilidade. Esta seção revisa o desenvolvimento de LLMs em cibersegurança e as estruturas usadas para avaliá-los.

Modelos de Linguagem Generativa em Segurança

Os LLMs têm a intenção de entender e produzir linguagem humana. Esses modelos utilizam técnicas de deep learning para aprender as nuances da linguagem. Modelos anteriores, como o SecureBERT, foram usados para tarefas de cibersegurança, mas o lançamento dos modelos GPT mudou a forma como vemos os LLMs. Existem dois tipos principais de LLMs: de código aberto, onde os modelos podem ser acessados publicamente e ajustados para tarefas específicas; e de código fechado, que restringem o acesso por meio de APIs.

Estruturas de Avaliação

Enquanto existem benchmarks como GLUE, MMLU e outros para avaliar o desempenho geral dos LLMs, as avaliações específicas de cibersegurança são limitadas. A maioria das avaliações existentes foca mais na memorização do que em tarefas práticas de cibersegurança. Por exemplo, CyberMetric e CyberBench medem conhecimento factual sem abordar as complexidades encontradas em cenários do mundo real. Isso destaca a necessidade de avaliações que analisem os LLMs em suas habilidades práticas em cibersegurança.

Benchmark Proposto: SECURE

O SECURE visa avaliar os LLMs como conselheiros de cibersegurança em organizações que enfrentam ameaças variadas. Os LLMs devem ajudar as equipes de segurança a identificar vulnerabilidades e sugerir medidas de proteção. No entanto, a confiança nos LLMs como fontes confiáveis de informação é crucial.

Abordagem de Modelagem de Conhecimento

Na concepção do SECURE, enfatizamos a modelagem de conhecimento. Nosso objetivo é avaliar os LLMs em sua capacidade de extrair conhecimento, entender tópicos complexos e raciocinar usando informações relevantes. As habilidades essenciais em que focamos incluem:

  • Extração: Isso envolve medir a capacidade de um LLM de acessar sua base de conhecimento e lembrar fatos específicos, o que é vital para fornecer informações de cibersegurança em tempo hábil e precisas.

  • Compreensão: Isso avalia as habilidades cognitivas do modelo em discernir a veracidade das afirmações e compreender o conhecimento dentro de um contexto.

  • Raciocínio: Aqui, avaliamos as habilidades de resolução de problemas dos LLMs, cruciais para avaliar relatórios detalhados de ameaças e fornecer recomendações acionáveis.

Conjuntos de Dados e Tarefas

Usamos o ChatGPT-4 da OpenAI para ajudar a criar nossos conjuntos de dados de benchmark. Focamos nas seguintes tarefas:

Tarefa de Extração

Essa tarefa compreende perguntas de múltipla escolha (MCQs). Espera-se que o modelo responda usando seus dados de treinamento sem nenhum contexto. Usamos recursos como o framework MITRE ATTCK e a Enumeração de Vulnerabilidades Comuns (CWE) para criar dois conjuntos de dados:

  • MAET: Focado em extração do MITRE ATTCK.
  • CWET: Focado em fraquezas da CWE.

Um total de 2036 perguntas foram geradas, cobrindo conceitos básicos e avançados de cibersegurança em ICS.

Tarefa de Compreensão

Esse conjunto de dados avalia a capacidade dos LLMs de compreender textos relacionados à cibersegurança. Usamos as Vulnerabilidades e Exposições Comuns (CVE) de 2024 para criar uma série de perguntas de verdadeiro/falso. Essa tarefa testa a capacidade dos LLMs de processar novas informações. Além disso, criamos um conjunto de dados suplementar para avaliar a habilidade do modelo de reconhecer quando falta contexto suficiente.

Tarefa de Raciocínio

A tarefa de raciocínio avalia as capacidades dos LLMs através de dados compilados de avaliação de riscos da Agência de Cibersegurança e Segurança da Infraestrutura (CISA). A tarefa envolve analisar avisos de segurança para prever avaliações de risco. Também criamos uma tarefa de resolução de problemas usando o Sistema de Pontuação de Vulnerabilidades Comuns (CVSS) para avaliar os LLMs em sua capacidade de calcular a gravidade das vulnerabilidades.

Validação do Conjunto de Dados

Para garantir a qualidade dos conjuntos de dados, realizamos um processo minucioso de verificação manual. Especialistas humanos revisaram as perguntas para garantir precisão e clareza. Perguntas consideradas sem resposta ou incorretas foram removidas do conjunto de dados.

Conjunto de Dados de Benchmark e Avaliação

Com base nas tarefas anteriores, criamos conjuntos de dados de benchmark para avaliação:

  • Conjunto de Dados de Extração de Conhecimento: Composto por MCQs derivadas de recursos do MITRE ATTCK e CWE.

  • Conjunto de Dados de Compreensão de Conhecimento: Perguntas booleanas baseadas nos dados CVE.

  • Conjunto de Dados de Raciocínio de Conhecimento: Perguntas baseadas em avisos da CISA.

Experimentos e Resultados

Avalíamos sete LLMs através do benchmark SECURE para entender seu desempenho nas tarefas listadas. Esses modelos incluem tanto modelos de código aberto quanto de código fechado.

Estratégia de Prompt para Avaliação

Uma estratégia de prompt consistente foi empregada para uniformidade nas avaliações. Para cada tarefa, usamos uma única estrutura de prompt para garantir resultados comparáveis.

Métricas de Avaliação

Diversas métricas foram utilizadas para avaliar o desempenho dos LLMs:

  • MAET, CWET, KCV: A precisão foi medida pela porcentagem de perguntas respondidas corretamente.
  • VOOD: Previsões corretas identificadas quando um modelo escolheu "Não Sei (X)" quando estava incerto.
  • RERT: A precisão da sumarização foi avaliada usando a métrica ROUGE-L.
  • CPST: A média da desvio absoluto (MAD) foi usada para medir a precisão das previsões.

Resumo dos Resultados

Os resultados indicam que modelos de código fechado, especialmente o ChatGPT-4, superaram os outros em a maioria das tarefas. O ChatGPT-4 alcançou as maiores pontuações em várias categorias, demonstrando fortes capacidades em lidar com diversas tarefas de cibersegurança.

Discussão e Análise

Esta seção fornece insights sobre os erros cometidos pelos LLMs e sua confiabilidade geral.

Análise de Erros

Analisar respostas incorretas revela alguns problemas recorrentes. Por exemplo, os LLMs muitas vezes interpretam mal a intenção das perguntas, levando a respostas erradas. Essas discrepâncias ressaltam a necessidade de uma compreensão contextual melhorada nos modelos.

Impacto da Confiança na Precisão dos LLMs

Entender como a confiança do modelo afeta o desempenho mostra que uma confiança mais baixa se correlaciona com uma precisão diminuída. Diferentes LLMs exibem níveis de confiança variados, sugerindo que técnicas de calibração específicas para cada modelo poderiam melhorar a confiabilidade.

Comparação de Desempenho entre Modelos de Código Aberto e Fechado

Modelos de código fechado consistentemente superaram modelos de código aberto na maioria das tarefas. No entanto, modelos de código aberto como o LLaMA3-70B demonstraram bom desempenho em algumas áreas.

Avaliando as Habilidades de Raciocínio

O desempenho dos LLMs melhora quando o raciocínio explícito é solicitado. Para as tarefas KCV e CPST, os modelos forneceram melhores resultados quando foram solicitados a explicar seu processo de raciocínio.

Variância na Previsão

Analisar a variância nas previsões mostrou que modelos menores tendem a produzir resultados mais variáveis do que modelos maiores, indicando a necessidade de estabilidade nas saídas de resposta.

Viés de Concordância do Modelo

Investigar como os LLMs lidam com declarações factuais revelou uma tendência a concordar com afirmações mesmo sem contexto. Isso sugere que os LLMs podem gerar respostas plausíveis sem baseá-las em dados verificados.

Análise de Correlação de Tarefas

Uma análise de correlação das tarefas dentro do benchmark SECURE mostrou que melhorias nas tarefas de extração de conhecimento influenciaram positivamente as tarefas de raciocínio e compreensão.

Desempenho dos LLMs em Diferentes Níveis de Especialização

Uma análise do desempenho dos LLMs em perguntas voltadas para novatos versus especialistas revelou que os LLMs se saíram melhor em tarefas de nível especialista quando as perguntas exigiam reconhecer conhecimento existente. No entanto, o desempenho deles caiu em tarefas que exigiam a integração de novas informações.

Recomendações para Melhorar a Segurança em ICS

  1. Calibração de Confiança: Monitorar e ajustar os níveis de confiança dos LLMs ao responder perguntas de cibersegurança.

  2. Seleção de Modelos: Priorizar o uso de modelos de código fechado para tarefas de resolução de problemas, onde eles demonstraram desempenho superior.

  3. Incentivar Explicações: Exigir que os LLMs forneçam raciocínios detalhados para suas respostas.

  4. Abordar Alucinações: Implementar processos de validação humana para as respostas dos LLMs.

  5. Melhorar a Compreensão Contextual: Aumentar a capacidade dos LLMs de interpretar e responder com precisão melhorando seu conhecimento sobre termos e cenários específicos do setor.

Questões Éticas

Todas as tarefas no SECURE utilizam dados disponíveis publicamente, garantindo conformidade com padrões éticos e evitando informações pessoais ou sensíveis.

Limitações e Trabalho Futuro

Este estudo focou em três tarefas de conhecimento específicas, mas há áreas mais amplas em cibersegurança que poderiam se beneficiar da avaliação. Esforços futuros incluirão a extensão da estrutura para cobrir mais áreas e investigar vários aspectos de confiabilidade nos LLMs.

Conclusão

Os LLMs apresentam um potencial significativo para aplicações em cibersegurança, mas suas limitações em relação à confiabilidade e transparência precisam ser abordadas. O benchmark SECURE fornece uma maneira estruturada de avaliar os LLMs, aumentando sua utilidade em contextos de cibersegurança enquanto convidamos mais contribuições para sua melhoria para um uso responsável da IA no campo.

Fonte original

Título: SECURE: Benchmarking Large Language Models for Cybersecurity

Resumo: Large Language Models (LLMs) have demonstrated potential in cybersecurity applications but have also caused lower confidence due to problems like hallucinations and a lack of truthfulness. Existing benchmarks provide general evaluations but do not sufficiently address the practical and applied aspects of LLM performance in cybersecurity-specific tasks. To address this gap, we introduce the SECURE (Security Extraction, Understanding \& Reasoning Evaluation), a benchmark designed to assess LLMs performance in realistic cybersecurity scenarios. SECURE includes six datasets focussed on the Industrial Control System sector to evaluate knowledge extraction, understanding, and reasoning based on industry-standard sources. Our study evaluates seven state-of-the-art models on these tasks, providing insights into their strengths and weaknesses in cybersecurity contexts, and offer recommendations for improving LLMs reliability as cyber advisory tools.

Autores: Dipkamal Bhusal, Md Tanvirul Alam, Le Nguyen, Ashim Mahara, Zachary Lightcap, Rodney Frazier, Romy Fieblinger, Grace Long Torales, Benjamin A. Blakely, Nidhi Rastogi

Última atualização: 2024-10-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.20441

Fonte PDF: https://arxiv.org/pdf/2405.20441

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes