Mejorando la detección de ataques de Living-Off-The-Land
Un nuevo enfoque mejora la detección de amenazas cibernéticas sutiles usando métodos avanzados de datos.
― 7 minilectura
Tabla de contenidos
La ciberseguridad es una parte crítica de la tecnología moderna, y entender cómo los atacantes explotan los sistemas es esencial para la defensa. Un método que los atacantes usan es "vivir de la tierra", que significa que aprovechan herramientas legítimas ya presentes en un sistema. Esto les permite mezclarse con las actividades normales y evitar ser detectados. En este artículo, exploramos cómo se pueden detectar actividades maliciosas, particularmente usando shells inversos, a través de métodos avanzados que implican mejorar los datos usados para entrenar modelos de Detección.
Ataques de Vivir de la Tierra
Los ataques de vivir de la tierra implican usar software existente en un dispositivo comprometido para llevar a cabo acciones dañinas. En lugar de subir nuevo software malicioso, los atacantes manipulan aplicaciones legítimas para ejecutar comandos perjudiciales. Esto hace que sus actividades sean menos notables porque imitan los patrones de uso normales del sistema.
Un shell inverso es una técnica específica utilizada en estos ataques. Permite que un atacante acceda a un sistema remoto tomando control de una máquina comprometida. El atacante envía comandos desde su propio dispositivo, redirigiendo la operación del shell a través de una conexión de red. Muchas aplicaciones comunes en sistemas, tanto Windows como Linux, pueden habilitar esta funcionalidad.
Los atacantes que usan esta técnica varían en nivel de habilidad, desde hackers amateur hasta grupos avanzados respaldados por gobiernos. El uso de shells inversos ha ganado atención en conflictos recientes, como la situación actual entre Rusia y Ucrania.
El Desafío de la Detección
Detectar actividades de shells inversos y otras tácticas de vivir de la tierra es desafiante. Los comandos legítimos ejecutados por las aplicaciones pueden enmascarar los Maliciosos, lo que hace difícil identificarlos sin un análisis cuidadoso de los registros del sistema. Además, las amenazas pueden usar métodos para ocultar sus actividades, lo que lleva a muchas falsas alarmas en los sistemas de detección.
Si bien el aprendizaje automático ofrece soluciones potenciales para mejorar la detección, los modelos existentes pueden tener problemas en entornos llenos de actividades legítimas. Muchos ataques ocurren en un contexto raro, mezclados con comandos normales abrumadores, lo que resulta en detectores ineficaces. Como consecuencia, los operadores humanos pueden tener que filtrar numerosas falsas alertas, lo que es poco práctico en escenarios del mundo real.
Aumento de Datos
Mejorando la Detección conPara abordar estos desafíos, esta investigación propone un nuevo método para crear conjuntos de datos realistas para entrenar modelos de aprendizaje automático. El objetivo es mejorar la capacidad de los modelos de detección para identificar comandos de shells inversos de manera precisa.
El método propuesto introduce un marco de aumento de datos. Este enfoque aumenta los ejemplos de actividades maliciosas dentro del contexto de registros legítimos. Al usar inteligencia sobre ataques conocidos, los investigadores generan conjuntos de datos que incluyen tanto comandos reales como ejemplos maliciosos cuidadosamente creados.
El proceso de aumento comienza con un conjunto de datos base recogido de redes empresariales. Este conjunto incluye una gran cantidad de actividad legítima que típicamente producen los sistemas. Para mejorarlo, se inyectan plantillas de ataques en el conjunto de datos, creando representaciones diversas de posibles amenazas mientras se mantiene una conexión con operaciones normales.
Experimentación y Creación de Conjuntos de Datos
Los investigadores realizaron pruebas exhaustivas para encontrar qué modelos y técnicas tienen mejor rendimiento en el conjunto de datos aumentado. Se centraron en 14 configuraciones diferentes, considerando varios modelos y técnicas de extracción de características.
Una parte significativa del estudio implicó la creación de conjuntos de datos realistas agregando datos de línea de comandos grabados en sistemas Linux en tiempo real. Los investigadores recolectaron millones de eventos dentro de un marco de tiempo limitado, filtrándolos y organizándolos para asegurar que representen con precisión el comportamiento típico del sistema.
Las plantillas de ataque utilizadas para el aumento se basan en métodos conocidos de explotación de shells inversos. Cada plantilla incluye marcadores de posición que permiten variaciones en la estructura del comando, haciendo que los comandos generados sean diversos pero funcionales.
Hallazgos sobre el Rendimiento del Modelo
Después de crear el conjunto de datos, los investigadores entrenaron modelos de aprendizaje automático usando varias configuraciones. Analizaron la efectividad de cada combinación para ver qué configuración daba los mejores resultados al detectar actividad maliciosa.
Uno de los puntos destacados de la investigación fue el rendimiento de los modelos de aprendizaje automático tradicionales, particularmente los Árboles de Decisión por Aumento de Gradiente (GBDT). Este método mostró una capacidad notable para diferenciar entre comandos normales y maliciosos, logrando una excelente tasa de verdaderos positivos mientras mantenía una baja tasa de falsos positivos.
Además, los investigadores notaron que simplemente inyectar comandos maliciosos en el conjunto de datos sin un aumento adecuado no producía modelos de detección efectivos. La efectividad de usar una variedad de representaciones de comandos maliciosos fue crucial para mejorar el rendimiento predictivo.
Robustez de los Modelos
Además de mejorar la detección a través del aumento de datos, la investigación también abordó la robustez del modelo contra posibles ataques que los adversarios podrían emplear. La efectividad de los modelos de aprendizaje automático puede debilitarse si los atacantes manipulan los datos para evadir la detección.
Los investigadores hipotetizaron una amenaza agnóstica al modelo donde un atacante podría influir en los datos de entrenamiento, introduciendo intencionalmente ruido para degradar el rendimiento de los modelos. Simularon varios escenarios para ver qué tan bien sus modelos podían resistir tales ataques.
Los experimentos mostraron que mientras muchos modelos se mantenían efectivos, algunos eran más vulnerables que otros. Los modelos GBDT demostraron una mayor resiliencia contra el ruido adversarial que algunos modelos de redes neuronales, lo que los convierte en una opción robusta para esta tarea.
Técnicas de Evasión y Trabajo Futuro
Existen varias técnicas para evadir los sistemas de detección, que los investigadores exploraron en sus pruebas. Introdujeron comandos benignos dentro de los maliciosos para ver qué tan bien los modelos aún podían identificar amenazas. Los hallazgos revelaron que el uso de entrenamiento adversarial mejoró la capacidad de los modelos para manejar tales manipulaciones de manera efectiva.
La investigación también señaló limitaciones en su enfoque actual. El conjunto de datos y el modelo podrían perder ciertas características de técnicas desconocidas o no reconocer acciones maliciosas incrustadas en comandos más complejos. El trabajo futuro podría expandir esta investigación para cubrir otros sistemas operativos y metodologías.
Conclusión
Detectar ataques de vivir de la tierra usando shells inversos presenta un desafío significativo en ciberseguridad. Sin embargo, al emplear métodos avanzados de aumento de datos y mejorar los conjuntos de datos de entrenamiento, los modelos de aprendizaje automático pueden estar mejor equipados para identificar estas amenazas sutiles.
A medida que el panorama de las amenazas cibernéticas sigue evolucionando, la investigación continua y las mejoras en las técnicas de detección serán cruciales para defender los sistemas contra adversarios hábiles. A través de esfuerzos colaborativos y el uso del conocimiento del dominio, podemos mejorar los sistemas de detección para un entorno digital más seguro.
Título: Robust Synthetic Data-Driven Detection of Living-Off-the-Land Reverse Shells
Resumen: Living-off-the-land (LOTL) techniques pose a significant challenge to security operations, exploiting legitimate tools to execute malicious commands that evade traditional detection methods. To address this, we present a robust augmentation framework for cyber defense systems as Security Information and Event Management (SIEM) solutions, enabling the detection of LOTL attacks such as reverse shells through machine learning. Leveraging real-world threat intelligence and adversarial training, our framework synthesizes diverse malicious datasets while preserving the variability of legitimate activity, ensuring high accuracy and low false-positive rates. We validate our approach through extensive experiments on enterprise-scale datasets, achieving a 90\% improvement in detection rates over non-augmented baselines at an industry-grade False Positive Rate (FPR) of $10^{-5}$. We define black-box data-driven attacks that successfully evade unprotected models, and develop defenses to mitigate them, producing adversarially robust variants of ML models. Ethical considerations are central to this work; we discuss safeguards for synthetic data generation and the responsible release of pre-trained models across four best performing architectures, including both adversarially and regularly trained variants: https://huggingface.co/dtrizna/quasarnix. Furthermore, we provide a malicious LOTL dataset containing over 1 million augmented attack variants to enable reproducible research and community collaboration: https://huggingface.co/datasets/dtrizna/QuasarNix. This work offers a reproducible, scalable, and production-ready defense against evolving LOTL threats.
Autores: Dmitrijs Trizna, Luca Demetrio, Battista Biggio, Fabio Roli
Última actualización: 2024-12-16 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2402.18329
Fuente PDF: https://arxiv.org/pdf/2402.18329
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.