Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial# Criptografia e segurança# Aprendizagem de máquinas

Melhorando Testes de Penetração Automatizados com Aprendizado por Reforço

Uma nova estrutura melhora a eficiência dos testes de penetração automatizados usando aprendizado por reforço.

― 9 min ler


Aprendizado por ReforçoAprendizado por Reforçoem Cibersegurançatestes de penetração automatizados.Novo framework aumenta a eficiência dos
Índice

No mundo digital de hoje, manter os sistemas de informação seguros é super importante. Uma maneira eficaz de checar a segurança de um sistema de computador é através de testes de penetração (PT). Esse processo ajuda a identificar possíveis fraquezas que podem ser exploradas por pessoas mal-intencionadas. O PT tradicional requer profissionais qualificados, tornando-o demorado e trabalhoso, às vezes levando dias ou até semanas. Além disso, os testes manuais podem causar considerável inatividade dos sistemas. Por isso, há uma demanda forte por técnicas automatizadas de testes de penetração (AutoPT).

Várias ferramentas e estruturas avançadas para AutoPT foram criadas para melhorar a eficiência dos testes. Por exemplo, o Metasploit é uma ferramenta muito usada que ajuda a reunir informações e explorar vulnerabilidades. Apesar desses avanços, muitas ferramentas atuais têm capacidades limitadas, focando apenas em tarefas específicas e não conseguindo realizar avaliações abrangentes de forma independente, ao contrário dos testadores humanos.

Uma área promissora para aprimorar o PT é o uso de Aprendizado por Reforço (RL), um ramo da inteligência artificial (IA). O RL envolve um programa de computador, ou agente, tomando decisões dentro de um ambiente para alcançar objetivos específicos. O agente aprende com suas ações e se ajusta com base nas recompensas que recebe, parecido com como os humanos aprendem através da experiência. O RL já mostrou sucesso em várias aplicações, incluindo carros autônomos, robótica e IA para jogos.

Nos últimos anos, a pesquisa aumentou no uso de RL em PT para sistemas de informação. Alguns estudos reformularam o processo de PT como problemas de tomada de decisão, permitindo que os agentes aprendessem estratégias ótimas usando algoritmos. Por exemplo, uma abordagem usou deep Q-learning para automatizar tarefas pós-exploração. Outras integraram RL com estruturas de PT industriais existentes para minimizar o trabalho manual.

Desafios Enfrentados em Testes de Penetração Automatizados

Apesar do progresso, as abordagens de PT baseadas em RL existentes enfrentam vários desafios. Um problema significativo é a eficiência de amostragem, onde o agente precisa de muitas interações com o ambiente para aprender as melhores estratégias. Essa necessidade surge do grande espaço de ações, onde um testador tem várias ações para escolher em cada cenário.

Outro desafio é a complexidade de definir recompensas para o agente. Ações bem-sucedidas normalmente recebem recompensas positivas, enquanto ações inválidas enfrentam penalizações. No entanto, criar uma única função de recompensa que capture todas as regras necessárias pode se tornar complicado, dificultando o aprendizado eficaz do agente.

Além disso, o PT baseado em RL muitas vezes tem dificuldades com interpretabilidade. Depois do treinamento, os agentes podem não indicar claramente sua fase atual ou os próximos passos no processo de teste. Essa falta de clareza pode minar a confiança nas decisões e no desempenho do agente.

Introduzindo uma Abordagem Informada por Conhecimento

Para enfrentar esses desafios, propomos um novo framework chamado DRLRM-PT, que combina conhecimento de cibersegurança com RL. Essa abordagem ajuda o agente a decompor tarefas complexas em subtarefas menores e gerenciáveis, melhorando a eficiência do aprendizado.

O framework utiliza uma "máquina de recompensa" (RM) para codificar conhecimento de domínio proveniente de bases de conhecimento de cibersegurança reconhecidas. A RM delineia um conjunto de eventos durante o PT e divide o processo em subtarefas distintas. Também fornece funções de recompensa personalizadas com base na fase atual do PT, aumentando a flexibilidade das recompensas atribuídas ao agente durante o treinamento.

Neste estudo, focamos no Movimento Lateral como um estudo de caso. Movimento lateral se refere às ações tomadas após obter acesso inicial a uma rede, avançando mais fundo para tomar controle de ativos valiosos. Para guiar esse processo, o formulamos como um problema de tomada de decisão parcialmente observável usando RMs.

O Framework DRLRM-PT Explicado

Nosso framework proposto, DRLRM-PT, envolve um agente atuando como um testador, interagindo com um sistema de rede alvo. O ambiente alvo é composto por vários componentes, incluindo hosts, firewalls e roteadores. O agente pode escolher entre uma variedade de ações de PT, como escanear vulnerabilidades e tentar exploits.

À medida que o agente interage com o ambiente, ele faz observações com base no resultado de suas ações. As recompensas imediatas refletem quão bem o agente está alcançando seus objetivos, especialmente ao tomar posse de recursos críticos na rede. O agente busca maximizar as recompensas totais através de suas experiências de aprendizado.

Nesse framework, o agente é apoiado pela RM que codifica o conhecimento de cibersegurança. A RM funciona como uma máquina de estados, ajudando a delinear subtarefas e especificar funções de recompensa para cada ação que o agente toma. Ao rastrear eventos detectados durante o PT, a RM altera seu estado, guiando efetivamente o processo de aprendizado do agente.

Espaços de Ação e Observação no Movimento Lateral

Em nosso estudo, consideramos três tipos principais de ações relacionadas ao movimento lateral:

  1. Escaneamento: Isso envolve coletar informações essenciais sobre a rede, descobrindo máquinas, suas conexões e dados de vulnerabilidade.

  2. Exploração de Vulnerabilidades: Isso pode ser classificado em exploração local e remota. A exploração local ocorre quando o agente opera em um nó conectado, enquanto a exploração remota visa nós atualmente descobertos, mas ainda não acessados pelo agente.

  3. Conexão: Isso permite que o agente se conecte a um nó usando credenciais e portas específicas.

As observações feitas pelo agente são obtidas através de operações de escaneamento após a execução das ações. O espaço de observação consiste em vários subespaços, incluindo contagem de nós descobertos, níveis de privilégio dos nós, propriedades descobertas, credenciais vazadas e se o agente conseguiu realizar movimentos laterais com sucesso.

Projetando Máquinas de Recompensa para Aprendizado Aprimorado

Utilizamos RMs para guiar as ações do agente e ajudá-lo a aprender de forma mais eficiente. Uma RM simplificada foca em três subtarefas principais:

  1. Descobrir novas credenciais.
  2. Conectar a novos nós usando essas credenciais.
  3. Elevar os privilégios dos nós conectados.

Essa fase do processo vai se repetir até que o agente alcance objetivos específicos, como acessar dados críticos.

Também examinamos uma RM mais detalhada que inclui um conjunto mais amplo de tarefas. Nessa RM, o agente é primeiro guiado a descobrir novos nós antes de procurar credenciais, depois se conectar a novos nós e, finalmente, elevar privilégios. Aumentar a complexidade dessa RM permite uma orientação e suporte mais precisos durante o processo de aprendizado.

Objetivos e Metodologia nos Testes

O principal objetivo do movimento lateral é ganhar controle sobre o maior número possível de nós dentro da rede. Ao maximizar as recompensas acumuladas ligadas à RM durante o PT, podemos guiar o agente em direção a esse objetivo de forma eficaz.

Para treinar o agente e aprimorar o processo de aprendizado, adotamos o algoritmo Deep Q-learning com RMs (DQRM). Essa abordagem permite que o agente refine sua estratégia e melhore seu desempenho geral ao longo do tempo.

A Plataforma de Simulação e Configuração Experimental

Para nossos experimentos, usamos o CyberBattleSim, um simulador de código aberto desenvolvido para testar e avaliar estratégias de movimento lateral dentro de redes. Essa plataforma cria redes simuladas modeladas por gráficos com nós interconectados e vulnerabilidades.

Dois ambientes de rede foram configurados para testes: CyberBattleChain (uma estrutura sequencial) e CyberBattleToyCtf (uma estrutura de malha mais complexa). Cada nó é projetado com propriedades específicas, incluindo vulnerabilidades que podem levar à exposição de credenciais ou elevação de privilégios.

O objetivo do agente na simulação é capturar o maior número possível de recursos importantes, referidos como 'flags', enquanto usa o menor número de ações possível.

Análise Experimental e Resultados

Nós projetamos experimentos para validar nosso framework e abordar duas questões de pesquisa:

  1. O agente guiado pela RM pode melhorar a eficiência de aprendizado do PT em comparação com o agente sem RM?
  2. Como diferentes designs de RM afetam o desempenho do PT?

Para avaliar essas questões, comparamos quatro configurações de agentes - dois usando o algoritmo DQRM com RMs distintas e dois utilizando uma abordagem tradicional sem RMs. Os agentes foram treinados em ambos os ambientes para avaliar seu desempenho em diferentes fases.

Resultados da Eficiência de Treinamento

Em ambos os ambientes, os agentes que utilizaram o framework DQRM demonstraram eficiência de treinamento aprimorada em comparação com aqueles que usaram métodos tradicionais. Os resultados indicaram que os agentes guiados pela RM conseguiram alcançar recompensas médias mais altas com menos ações realizadas.

Descobertas de Desempenho na Avaliação

Os testes revelaram que os agentes DQRM superaram os agentes tradicionais em termos de captura eficiente de flags e cumprimento de objetivos. As diferenças na média de passos dados pelos agentes mostraram que as RMs realmente forneceram uma vantagem valiosa durante o processo de teste.

Impacto dos Designs de RM no Desempenho

Analisando o desempenho dos agentes guiados por diferentes RMs, percebemos que aqueles com diretrizes mais detalhadas e estruturadas tiveram um desempenho melhor do que aqueles com designs mais simples. Os agentes com RMs mais nuançadas puderam navegar pelo processo de PT de forma mais eficaz e atingir objetivos em menos ações.

Conclusão e Direções Futuras

Em resumo, nosso framework AutoPT proposto e informado por conhecimento, DRLRM-PT, integra efetivamente conhecimento de domínio ao processo de aprendizado por reforço, melhorando as capacidades de testes de penetração automatizados. Nosso estudo destaca a importância de empregar uma orientação estruturada através de RMs para melhorar a eficiência de aprendizado e o desempenho dos agentes durante os testes.

Trabalhos futuros envolverão investigar RMs mais sofisticadas informadas por bases de conhecimento adicionais de cibersegurança, com o objetivo de aumentar a adaptabilidade e eficácia do sistema em diversos cenários de PT. A meta é ampliar o escopo do AutoPT além do movimento lateral para englobar outras aplicações críticas em testes de penetração.

Fonte original

Título: Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine

Resumo: Automated penetration testing (AutoPT) based on reinforcement learning (RL) has proven its ability to improve the efficiency of vulnerability identification in information systems. However, RL-based PT encounters several challenges, including poor sampling efficiency, intricate reward specification, and limited interpretability. To address these issues, we propose a knowledge-informed AutoPT framework called DRLRM-PT, which leverages reward machines (RMs) to encode domain knowledge as guidelines for training a PT policy. In our study, we specifically focus on lateral movement as a PT case study and formulate it as a partially observable Markov decision process (POMDP) guided by RMs. We design two RMs based on the MITRE ATT\&CK knowledge base for lateral movement. To solve the POMDP and optimize the PT policy, we employ the deep Q-learning algorithm with RM (DQRM). The experimental results demonstrate that the DQRM agent exhibits higher training efficiency in PT compared to agents without knowledge embedding. Moreover, RMs encoding more detailed domain knowledge demonstrated better PT performance compared to RMs with simpler knowledge.

Autores: Yuanliang Li, Hanzheng Dai, Jun Yan

Última atualização: 2024-05-24 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.15908

Fonte PDF: https://arxiv.org/pdf/2405.15908

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes