Simple Science

La science de pointe expliquée simplement

# Informatique# Cryptographie et sécurité# Intelligence artificielle

Défendre les détecteurs de malware avec une analyse par morceaux

Une nouvelle approche pour améliorer la détection de malware grâce à une analyse par morceaux.

― 7 min lire


Défense de détection deDéfense de détection demalware par morceauxtactiques d'évasion des malwares.Une méthode plus forte contre les
Table des matières

Les Détecteurs de malware sont des outils super importants pour identifier les logiciels malveillants. Récemment, ces détecteurs ont commencé à utiliser l'Apprentissage profond, un type d'intelligence artificielle qui apprend des motifs à partir de grandes quantités de données. Mais y a un souci : certains créateurs de logiciels malveillants ont trouvé des moyens de berner ces détecteurs en apportant de petites modifications à leurs malwares. Ça peut aider leurs programmes nocifs à passer inaperçus.

Dans cet article, on va parler d'un nouveau moyen de protéger les détecteurs de malware contre ces ruses. Notre méthode consiste à décomposer le malware en morceaux plus petits et à analyser ces morceaux séparément. Cette approche aide à améliorer la détection des malwares, même quand ils ont été modifiés pour éviter d'être détectés.

Le Problème des Attaques adversariales

Les attaques adversariales se produisent quand quelqu'un modifie un malware pour qu'il puisse échapper à la détection par les détecteurs de malware. Ça peut impliquer de changer juste quelques octets dans le code du programme. Avec la montée en puissance des détecteurs de malware basés sur l'apprentissage profond, le besoin de défenses contre ces attaques a augmenté.

Les acteurs malveillants sont malins et adaptent leurs méthodes pour éviter d'être détectés en continu. Ils comprennent comment fonctionnent les modèles d'apprentissage machine, ce qui rend leur capture plus difficile. Certaines méthodes incluent l'injection de code inoffensif dans leur logiciel malveillant pour qu'il paraisse inoffensif. Ça peut embrouiller les détecteurs, ce qui les amène à classifier le malware comme sûr.

Stratégies Actuelles de Détection de Malware

Il existe différentes façons de détecter des malwares. Certaines méthodes se basent sur la recherche de caractéristiques spécifiques dans les fichiers. Ça peut être long, et ça nécessite une bonne compréhension du format de fichier et du code. D'autres méthodes utilisent des modèles d'apprentissage profond pour apprendre des caractéristiques à partir des données brutes elles-mêmes.

Les modèles d'apprentissage profond, comme MalConv, peuvent apprendre à partir de fichiers à la fois inoffensifs et malveillants. Ils cherchent des motifs dans les données, ce qui peut les aider à classifier les fichiers plus précisément. Cependant, ces modèles peuvent toujours être dupés par des exemples adversariaux intelligemment conçus.

Notre Méthode de Défense Proposée

Pour adresser les vulnérabilités des modèles d'apprentissage profond, on a développé une méthode de défense inspirée par des techniques utilisées dans d'autres domaines de l'apprentissage machine. Notre approche consiste à créer un système qui se concentre sur des morceaux de données plutôt que d'analyser des fichiers entiers d'un coup.

On utilise deux stratégies principales : sélectionner aléatoirement des morceaux d'octets et choisir des morceaux adjacents. En traitant ces morceaux plus petits, on peut améliorer la robustesse de nos détecteurs de malware. De cette façon, si une petite partie du fichier est modifiée, il est moins probable que cela impacte la classification globale.

Comment On a Testé Notre Approche

Pour valider notre méthode, on a entraîné nos détecteurs de malware en utilisant un jeu de données appelé BODMAS. Ce jeu de données contient un mélange de fichiers logiciels à la fois inoffensifs et malveillants. On a mesuré les performances de notre méthode face à différentes attaques d'évasion pour voir à quel point ça fonctionne bien.

Nos tests ont montré que les méthodes basées sur les morceaux étaient plus résilientes face aux malwares adversariaux comparées aux modèles traditionnels. Même lorsqu'on est confronté à des astuces intelligentes des attaquants, nos détecteurs ont maintenu un taux de précision plus élevé.

Avantages de l'Utilisation de la Classification par Morceaux

Utiliser notre méthode basée sur les morceaux a plusieurs avantages.

  1. Robustesse face aux Changements : En décomposant les fichiers en morceaux plus petits, nos détecteurs peuvent gérer les petites modifications plus efficacement. Si une pièce de malware est altérée, ça affecte moins la classification globale.

  2. Efficacité : Traiter des morceaux plus petits permet une analyse plus rapide, ce qui rend possible un fonctionnement plus rapide des détecteurs.

  3. Meilleure Compréhension : Analyser des morceaux individuels aide à comprendre quelles parties d'un fichier sont malveillantes. Ça peut donner de meilleures idées sur le comportement des malwares.

  4. Adaptabilité : Notre méthode peut être adaptée à différents types de malwares et de techniques de détection.

Configuration Expérimentale

On a mené nos expériences avec une machine équipée d'un CPU et d'un GPU puissants. Le jeu de données BODMAS était essentiel pour notre évaluation car il fournissait un ensemble riche d'exemples pour tester nos systèmes de détection. Le jeu de données comprend un grand nombre d'échantillons de malware et de fichiers inoffensifs.

Pour évaluer nos modèles, on a divisé le jeu de données en ensembles d'entraînement, de validation et de test. L'ensemble d'entraînement a aidé les modèles à apprendre, tandis que les ensembles de validation et de test ont évalué leurs performances.

Évaluation de la Performance

Pour évaluer soigneusement notre approche, on a comparé les performances de nos modèles basés sur les morceaux aux modèles traditionnels. On a mesuré leur précision dans la détection à la fois d'exemples inoffensifs et malveillants. Nos découvertes ont indiqué que nos méthodes basées sur les morceaux surpassaient significativement les modèles non lissés, surtout face à des exemples adversariaux.

Résultats Contre les Attaques d'Évasion

On a testé nos détecteurs contre diverses attaques d'évasion pour voir comment ils se comportaient sous pression. Voici quelques résultats :

  • Attaque Slack+Padding : Cette attaque modifie les parties des fichiers qui ne sont pas utilisées (espace slack) et ajoute du contenu supplémentaire. Nos modèles basés sur les morceaux ont montré de la résilience, maintenant une haute précision même contre cette méthode.

  • Attaque Shift : Ici, le contenu des fichiers est décalé, créant de l'espace pour injecter des charges utiles malveillantes. Nos modèles ont atteint une haute précision de détection par rapport aux modèles traditionnels.

  • Attaque GAMMA : Cette attaque injecte du contenu inoffensif dans des fichiers malveillants, essayant de tromper les détecteurs. Nos méthodes basées sur les morceaux ont quand même réussi à détecter un grand pourcentage des exemples adversariaux.

  • Attaque Code Caves : Les attaquants intègrent souvent leurs charges utiles dans des zones inutilisées du code. Encore une fois, nos modèles ont mieux détecté ces fichiers modifiés par rapport aux modèles non lissés.

Limitations et Travaux Futurs

Bien que notre approche soit prometteuse, elle n'est pas sans défis. Une éventuelle limitation est l'hypothèse que tous les morceaux dans un fichier sont soit entièrement malveillants, soit inoffensifs. En réalité, certains fichiers peuvent contenir les deux types de code.

Pour l'avenir, un étiquetage plus précis des morceaux pourrait améliorer encore notre précision de détection. De plus, enquêter sur comment identifier et supprimer le contenu adversarial injecté pourrait renforcer l'efficacité de nos modèles.

Conclusion

En conclusion, notre recherche présente un nouveau moyen de défendre contre les attaques adversariales sur les détecteurs de malware. En décomposant les fichiers en morceaux et en les analysant individuellement, on peut améliorer les taux de détection et maintenir la robustesse face aux astuces intelligentes utilisées par les auteurs de malware. Les résultats de nos expériences soulignent l'efficacité de notre approche, qui surpasse les méthodes traditionnelles dans divers scénarios.

La bataille contre les malwares est en cours, et il est crucial de continuer à développer et améliorer les techniques de détection. Notre travail pose les bases pour de futures recherches sur la détection de malwares et les défenses adversariales, aidant à protéger les utilisateurs de logiciels contre les programmes nuisibles.

Source originale

Titre: A Robust Defense against Adversarial Attacks on Deep Learning-based Malware Detectors via (De)Randomized Smoothing

Résumé: Deep learning-based malware detectors have been shown to be susceptible to adversarial malware examples, i.e. malware examples that have been deliberately manipulated in order to avoid detection. In light of the vulnerability of deep learning detectors to subtle input file modifications, we propose a practical defense against adversarial malware examples inspired by (de)randomized smoothing. In this work, we reduce the chances of sampling adversarial content injected by malware authors by selecting correlated subsets of bytes, rather than using Gaussian noise to randomize inputs like in the Computer Vision (CV) domain. During training, our ablation-based smoothing scheme trains a base classifier to make classifications on a subset of contiguous bytes or chunk of bytes. At test time, a large number of chunks are then classified by a base classifier and the consensus among these classifications is then reported as the final prediction. We propose two strategies to determine the location of the chunks used for classification: (1) randomly selecting the locations of the chunks and (2) selecting contiguous adjacent chunks. To showcase the effectiveness of our approach, we have trained two classifiers with our chunk-based ablation schemes on the BODMAS dataset. Our findings reveal that the chunk-based smoothing classifiers exhibit greater resilience against adversarial malware examples generated with state-of-the-are evasion attacks, outperforming a non-smoothed classifier and a randomized smoothing-based classifier by a great margin.

Auteurs: Daniel Gibert, Giulio Zizzo, Quan Le, Jordi Planes

Dernière mise à jour: 2024-02-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.15267

Source PDF: https://arxiv.org/pdf/2402.15267

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires