Aprovechando Modelos de Lenguaje Grande para el Análisis de Malware
Los LLMs ofrecen nuevas ideas sobre la desofuscación automática de malware.
― 7 minilectura
Tabla de contenidos
- Cómo Funcionan los LLMs
- El Contexto del Malware
- La Necesidad de la Deofuscación
- La Campaña de Malware Emotet
- Usando LLMs para el Análisis de Malware
- Configuración del Experimento
- Los Modelos Usados
- Resultados de los Experimentos
- Precisión en la Extracción de URLs
- Observaciones y Perspectivas
- El Futuro de los LLMs en Ciberseguridad
- Consideraciones Éticas
- Conclusión
- Fuente original
- Enlaces de referencia
Los modelos de lenguaje grandes (LLMs) se han vuelto herramientas importantes en varios campos, incluyendo la ciberseguridad. Estos modelos pueden ayudar a automatizar tareas que requieren entender y generar texto parecido al humano. Recientemente, los investigadores han estado indagando cómo los LLMs pueden ayudar a analizar Malware, especialmente en el área de deofuscación, que significa quitar los disfraces o encriptaciones que usa el malware para ocultar sus verdaderas intenciones.
El malware a menudo se crea para evadir la detección por parte del software antivirus. Esto se hace a través de varias técnicas que dificultan la lectura o comprensión del código. Usando LLMs, podría haber una manera de analizar este código de manera más efectiva y descubrir qué hace.
Cómo Funcionan los LLMs
Los LLMs se entrenan con una gran cantidad de datos de texto, lo que les permite reconocer patrones y generar respuestas coherentes. Aprenden a entender el contexto, haciendo más fácil manejar tareas que involucran lenguaje. Esta habilidad puede ser particularmente útil en ciberseguridad, donde entender la intención detrás del código escrito es crucial.
Los LLMs pueden leer e interpretar tanto datos estructurados como no estructurados. Esto significa que pueden analizar textos de múltiples fuentes, como sitios web, correos electrónicos y registros. Al hacerlo, pueden detectar tendencias, vulnerabilidades y amenazas potenciales en ciberseguridad.
El Contexto del Malware
El malware se refiere a software diseñado para causar daño a computadoras y redes. Puede tomar muchas formas, como virus, gusanos y caballos de Troya. Uno de los desafíos constantes en ciberseguridad es cómo analizar eficazmente el malware para entender su funcionalidad y prevenir ataques.
El malware a menudo utiliza técnicas de empaquetado y ofuscación para ocultar su verdadero propósito. El empaquetado comprime el código de tal manera que lo hace más difícil de analizar. La ofuscación implica alterar el código para que sea menos legible. Estas estrategias son comunes en el malware moderno para evitar la detección y dificultar el análisis.
La Necesidad de la Deofuscación
La deofuscación es el proceso de transformar código ofuscado de vuelta a una forma más comprensible. Esto es esencial para los analistas de malware que necesitan determinar qué hace una pieza de malware. Sin deofuscación, los analistas podrían perder tiempo o pasar por alto información crítica sobre una amenaza.
Existen muchos métodos tradicionales para deofuscar código, pero a menudo requieren intervención manual. Debido a la complejidad del malware, la deofuscación automatizada es un objetivo deseable. Los LLMs podrían ofrecer una solución para automatizar algunas de estas tareas, reduciendo la carga sobre los analistas humanos.
La Campaña de Malware Emotet
Un ejemplo notable de malware moderno es Emotet. Descubierto inicialmente en 2014, Emotet comenzó como un troyano bancario y evolucionó hasta convertirse en una plataforma para distribuir varios tipos de malware. El grupo Emotet ha sido responsable de campañas de malware significativas, actualizando constantemente sus métodos para evadir la detección.
La campaña de Emotet típicamente utiliza correos electrónicos maliciosos que contienen enlaces a documentos infectados. Estos documentos pueden descargar y ejecutar otro malware en la computadora de una víctima. Notablemente, Emotet utiliza scripts de PowerShell ofuscados para llevar a cabo sus actividades, lo que lo convierte en un tema adecuado para probar los LLMs en deofuscación.
Usando LLMs para el Análisis de Malware
Dadas las avanzadas capacidades lingüísticas de los LLMs, los investigadores comenzaron a evaluar qué tan efectivos podían ser para analizar malware, particularmente a través de la deofuscación de scripts de PowerShell de la campaña de Emotet.
Configuración del Experimento
Para probar el potencial de los LLMs en la deofuscación de malware, se creó un conjunto de datos de scripts de PowerShell ofuscados. Este conjunto de datos se reunió de muestras reales utilizadas en campañas de Emotet, consistiendo en varios scripts diseñados para descargar y ejecutar malware.
Los investigadores utilizaron tanto LLMs basados en la nube como aquellos implementados localmente para evaluar su rendimiento. El objetivo principal era ver qué tan precisamente los modelos podían extraer información útil de los scripts ofuscados.
Los Modelos Usados
Se probaron cuatro LLMs diferentes en los experimentos. Dos eran modelos en la nube: GPT-4 de OpenAI y Gemini Pro de Google. Los otros dos eran modelos implementados localmente: Code Llama de Meta y Mixtral de Mistral AI. Cada modelo fue evaluado en su capacidad para deofuscar los scripts de PowerShell y extraer URLs relevantes.
Resultados de los Experimentos
El rendimiento de los LLMs varió significativamente. GPT-4 de OpenAI fue el mejor, identificando con precisión un gran porcentaje de URLs de los scripts ofuscados. En contraste, los modelos implementados localmente tuvieron dificultades para lograr resultados similares.
Precisión en la Extracción de URLs
La precisión de la extracción de URLs de los scripts ofuscados mostró que mientras GPT-4 sobresalía, los otros modelos no tuvieron un buen rendimiento. Esto destacó la importancia de usar modelos avanzados entrenados específicamente en tareas de codificación.
Aunque hubo instancias en las que los LLMs produjeron salidas incorrectas, aún demostraron el potencial para ayudar en la deofuscación. La capacidad de generar información útil a partir de código ofuscado es un paso prometedor hacia la Automatización del análisis de malware.
Observaciones y Perspectivas
Una observación interesante fue que el rendimiento de los LLMs mejoró cuando la tarea se simplificó a la extracción de dominios en lugar de URLs completas. Esto indica que aunque la tarea de deofuscación es compleja, los LLMs pueden captar aspectos más simples de manera más efectiva.
A pesar de sus desafíos, los LLMs mostraron promesa al comprender patrones dentro de los scripts ofuscados. Esto sugiere que con más ajuste y desarrollo, los LLMs podrían convertirse en herramientas más efectivas en la lucha contra el malware.
El Futuro de los LLMs en Ciberseguridad
A medida que los LLMs continúan evolucionando, se espera que su papel en la ciberseguridad se expanda. La necesidad de un análisis eficaz de malware es crítica, y la automatización de las tareas de deofuscación podría ahorrar tiempo y recursos. Los investigadores son optimistas de que a medida que los modelos mejoren, podrán manejar una gama más amplia de tipos de malware y convertirse en componentes integrales de las defensas de ciberseguridad.
Consideraciones Éticas
Mientras que el potencial de los LLMs es emocionante, también hay preocupaciones éticas que deben ser abordadas. La misma tecnología que puede ayudar a analizar malware también podría ser utilizada de manera maliciosa. Las discusiones sobre el uso responsable y los posibles sesgos en los modelos están en curso y requieren una cuidadosa consideración.
Conclusión
La exploración de los LLMs en el análisis de malware marca un paso importante hacia adelante en ciberseguridad. Al automatizar el proceso de deofuscación, estos modelos pueden ayudar a los analistas a descubrir información crítica sobre amenazas de malware, lo que en última instancia permite mejores estrategias de defensa.
A medida que la tecnología continúa avanzando, la colaboración entre expertos en ciberseguridad e inteligencia artificial jugará un papel crucial en mantener los sistemas seguros. Los desafíos que plantea el malware moderno requieren soluciones innovadoras, y los LLMs representan una vía prometedora que vale la pena seguir.
Título: Assessing LLMs in Malicious Code Deobfuscation of Real-world Malware Campaigns
Resumen: The integration of large language models (LLMs) into various pipelines is increasingly widespread, effectively automating many manual tasks and often surpassing human capabilities. Cybersecurity researchers and practitioners have recognised this potential. Thus, they are actively exploring its applications, given the vast volume of heterogeneous data that requires processing to identify anomalies, potential bypasses, attacks, and fraudulent incidents. On top of this, LLMs' advanced capabilities in generating functional code, comprehending code context, and summarising its operations can also be leveraged for reverse engineering and malware deobfuscation. To this end, we delve into the deobfuscation capabilities of state-of-the-art LLMs. Beyond merely discussing a hypothetical scenario, we evaluate four LLMs with real-world malicious scripts used in the notorious Emotet malware campaign. Our results indicate that while not absolutely accurate yet, some LLMs can efficiently deobfuscate such payloads. Thus, fine-tuning LLMs for this task can be a viable potential for future AI-powered threat intelligence pipelines in the fight against obfuscated malware.
Autores: Constantinos Patsakis, Fran Casino, Nikolaos Lykousas
Última actualización: 2024-04-30 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.19715
Fuente PDF: https://arxiv.org/pdf/2404.19715
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://virustotal.github.io/yara/
- https://gchq.github.io/CyberChef/
- https://paasologrp.com/parseopmlo/5/@
- https://launch.tactikafacewear.com/wp-content/Uk/@
- https://singohotel.com/dashboardl/q/@
- https://www.mymathlabhomework.com/wp-content/o/@
- https://dietherbsindia.com/assets/k8oo/@
- https://dev-tech.eu/demoshop/P0/@
- https://mithraa.co/nMT/@
- https://chess-pgn.com/win-raid/l6T5/
- https://github.com/decalage2/ViperMonkey
- https://www.example.com/wp-content/uploads/2019/07/image.png
- https://github.com/danielbohannon/Invoke-Obfuscation
- https://github.com/tokyoneon/Chimera
- hTTps://pAAsoLoGRp.CoM/pARsEopMLo/5/@hTTp://LAuNCh.TACTikAFACEwEAR.CoM/wp-CoNTENT/uk/@hTTps://siNGohoTEL.CoM/DAshBoARDL/q/@hTTps://www.MyMAThLABhoMEwoRk.CoM/wp-CoNTENT/o/@hTTps://DiEThERBsiNDiA.CoM/AssETs/k8oo/@hTTps://DEv-TECh.Eu/DEMoshop/p0/@hTTps://MiThRAA.Co/NMT/@hTTp://ChEss-pGN.CoM/wiN-RAiD/L6T5/
- https://attack.mitre.org/
- https://lazarus-he.eu/
- https://www.cybersecpro-project.eu/
- https://www.europol.europa.eu/media-press/newsroom/news/world
- https://cloud.google.com/blog/topics/threat-intelligence/tracking-malware-import-hashing/