Simple Science

Ciência de ponta explicada de forma simples

# Informática# Criptografia e segurança# Aprendizagem de máquinas

Melhorando a Detecção de Ataques "Living-Off-The-Land"

Uma nova abordagem melhora a detecção de ameaças cibernéticas sutis usando métodos avançados de dados.

― 7 min ler


Detecção de AtaquesDetecção de AtaquesCibernéticos Aprimoradaeficaz.ameaças cibernéticas sutis de formaNovos métodos melhoram a detecção de
Índice

A cibersegurança é um aspecto crucial da tecnologia moderna, e entender como os atacantes exploram sistemas é essencial para a defesa. Um método que os atacantes usam é o "living-off-the-land", que significa que eles aproveitam ferramentas legítimas já presentes no sistema. Isso permite que eles se misturem com as atividades normais e evitem a Detecção. Neste artigo, vamos explorar como atividades maliciosas, principalmente usando reverse shells, podem ser detectadas por métodos avançados que envolvem o aprimoramento dos dados usados para treinar modelos de detecção.

Ataques Living-Off-The-Land

Ataques living-off-the-land envolvem usar software existente em um dispositivo comprometido para realizar ações prejudiciais. Em vez de carregar um novo software malicioso, os atacantes manipulam aplicativos legítimos para executar comandos nocivos. Isso torna suas atividades menos perceptíveis porque imitam padrões normais de uso do sistema.

Um reverse shell é uma técnica específica usada nesses ataques. Ele permite que um atacante acesse um sistema remoto assumindo o controle de uma máquina comprometida. O atacante envia comandos de seu próprio dispositivo, redirecionando a operação do shell por meio de uma conexão de rede. Muitos aplicativos comuns em sistemas, tanto Windows quanto Linux, podem habilitar essa funcionalidade.

Os atacantes que usam essa técnica variam em nível de habilidades, desde hackers amadores até grupos avançados apoiados por governos. O uso de reverse shells ganhou atenção em conflitos recentes, como a situação em andamento entre a Rússia e a Ucrânia.

O Desafio da Detecção

Detectar atividades de reverse shell e outras táticas living-off-the-land é desafiador. Os comandos legítimos executados pelos aplicativos podem mascarar os Maliciosos, tornando-os difíceis de identificar sem uma análise cuidadosa dos logs do sistema. Além disso, as ameaças podem usar métodos para ocultar suas atividades, levando a muitos falsos alarmes em sistemas de detecção.

Embora o aprendizado de máquina ofereça soluções potenciais para melhorar a detecção, os modelos existentes podem ter dificuldades em ambientes repletos de atividades legítimas. Muitos ataques ocorrem em um contexto raro, misturado com comandos normais esmagadores, resultando em detectores ineficazes. Consequentemente, operadores humanos podem ter que vasculhar numerosos alertas falsos, o que é impraticável em cenários do mundo real.

Melhorando a Detecção com Aumento de Dados

Para enfrentar esses desafios, esta pesquisa propõe um novo método para criar conjuntos de dados realistas para treinar modelos de aprendizado de máquina. O objetivo é melhorar a capacidade dos modelos de detecção de identificar comandos de reverse shell com precisão.

O método proposto introduz uma estrutura de aumento de dados. Essa abordagem aumenta os exemplos de atividades maliciosas dentro do contexto de logs legítimos. Usando inteligência sobre ataques conhecidos, os pesquisadores geram conjuntos de dados que incluem tanto comandos reais quanto exemplos maliciosos criados cuidadosamente.

O processo de aumento começa com um conjunto de dados base coletado de redes empresariais. Este conjunto inclui uma grande quantidade de atividades legítimas tipicamente produzidas pelos sistemas. Para aprimorá-lo, modelos de ataque são injetados no conjunto de dados, criando representações diversas de potenciais ameaças enquanto mantêm uma conexão com operações normais.

Experimentação e Criação de Conjunto de Dados

Os pesquisadores realizaram testes extensivos para descobrir quais modelos e técnicas funcionam melhor no conjunto de dados aumentado. Eles se concentraram em 14 configurações diferentes, considerando vários modelos e técnicas de extração de características.

Uma parte significativa do estudo envolveu a criação de conjuntos de dados realistas agregando dados de linha de comando registrados em sistemas Linux em tempo real. Os pesquisadores coletaram milhões de eventos dentro de um período limitado, filtrando e organizando-os para garantir que representam com precisão o comportamento típico do sistema.

Os modelos de ataque usados para o aumento são baseados em métodos conhecidos de exploração de reverse shell. Cada modelo inclui espaços reservados que permitem variações na estrutura do comando, tornando os comandos gerados diversos, mas funcionais.

Resultados sobre o Desempenho do Modelo

Após criar o conjunto de dados, os pesquisadores treinaram modelos de aprendizado de máquina usando várias configurações. Eles analisaram a eficácia de cada combinação para ver qual configuração produziu os melhores resultados na detecção de atividades maliciosas.

Um dos destaques da pesquisa foi o desempenho de modelos tradicionais de aprendizado de máquina, particularmente as Árvores de Decisão com Aumento de Gradiente (GBDT). Esse método mostrou uma capacidade notável de diferenciar entre comandos normais e maliciosos, alcançando uma excelente taxa de verdadeiro positivo enquanto mantinha uma baixa taxa de falso positivo.

Além disso, os pesquisadores notaram que simplesmente injetar comandos maliciosos no conjunto de dados sem um aumento adequado não produziu modelos de detecção efetivos. A eficácia de usar uma variedade de representações de comandos maliciosos foi crucial para melhorar o desempenho preditivo.

Robustez dos Modelos

Além de melhorar a detecção por meio do aumento de dados, a pesquisa também abordou a robustez dos modelos contra potenciais ataques que adversários poderiam empregar. A eficácia dos modelos de aprendizado de máquina pode enfraquecer se os atacantes manipularem os dados para escapar da detecção.

Os pesquisadores hipotetizaram uma ameaça independente do modelo, onde um atacante poderia influenciar os dados de treinamento, introduzindo intencionalmente ruído para degradar o desempenho dos modelos. Eles simularam vários cenários para ver quão bem seus modelos poderiam resistir a tais ataques.

Os experimentos mostraram que, embora muitos modelos continuassem efetivos, alguns eram mais vulneráveis do que outros. Os modelos GBDT demonstraram maior resiliência contra ruído adversarial do que alguns modelos de rede neural, tornando-os uma escolha robusta para essa tarefa.

Técnicas de Evasão e Trabalho Futuro

Existem várias técnicas para evadir sistemas de detecção, que os pesquisadores exploraram em seus testes. Eles introduziram comandos benignos entre os maliciosos para ver quão bem os modelos ainda poderiam identificar ameaças. As descobertas revelaram que usar treinamento adversarial melhorou as capacidades dos modelos para lidar com tais manipulações efetivamente.

A pesquisa também apontou limitações em sua abordagem atual. O conjunto de dados e o modelo podem perder certas características de técnicas desconhecidas ou falhar em reconhecer ações maliciosas embutidas em comandos mais complexos. Trabalhos futuros poderiam expandir essa pesquisa para cobrir outros sistemas operacionais e metodologias.

Conclusão

Detectar ataques living-off-the-land usando reverse shells apresenta um desafio significativo na cibersegurança. No entanto, ao empregar métodos avançados de aumento de dados e aprimorar conjuntos de dados de treinamento, os modelos de aprendizado de máquina podem estar melhor equipados para identificar essas ameaças sutis.

À medida que o cenário de ameaças cibernéticas continua a evoluir, a pesquisa contínua e melhorias nas técnicas de detecção serão cruciais para defender sistemas contra adversários habilidosos. Por meio de esforços colaborativos e do uso de conhecimento de domínio, podemos aprimorar os sistemas de detecção para um ambiente digital mais seguro.

Fonte original

Título: Robust Synthetic Data-Driven Detection of Living-Off-the-Land Reverse Shells

Resumo: Living-off-the-land (LOTL) techniques pose a significant challenge to security operations, exploiting legitimate tools to execute malicious commands that evade traditional detection methods. To address this, we present a robust augmentation framework for cyber defense systems as Security Information and Event Management (SIEM) solutions, enabling the detection of LOTL attacks such as reverse shells through machine learning. Leveraging real-world threat intelligence and adversarial training, our framework synthesizes diverse malicious datasets while preserving the variability of legitimate activity, ensuring high accuracy and low false-positive rates. We validate our approach through extensive experiments on enterprise-scale datasets, achieving a 90\% improvement in detection rates over non-augmented baselines at an industry-grade False Positive Rate (FPR) of $10^{-5}$. We define black-box data-driven attacks that successfully evade unprotected models, and develop defenses to mitigate them, producing adversarially robust variants of ML models. Ethical considerations are central to this work; we discuss safeguards for synthetic data generation and the responsible release of pre-trained models across four best performing architectures, including both adversarially and regularly trained variants: https://huggingface.co/dtrizna/quasarnix. Furthermore, we provide a malicious LOTL dataset containing over 1 million augmented attack variants to enable reproducible research and community collaboration: https://huggingface.co/datasets/dtrizna/QuasarNix. This work offers a reproducible, scalable, and production-ready defense against evolving LOTL threats.

Autores: Dmitrijs Trizna, Luca Demetrio, Battista Biggio, Fabio Roli

Última atualização: 2024-12-16 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.18329

Fonte PDF: https://arxiv.org/pdf/2402.18329

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes