Une approche en ligne pour le clustering de malwares
Cette étude présente un nouveau modèle de clustering de malware en ligne utilisant l'apprentissage automatique.
― 9 min lire
Table des matières
Les attaques de Malware ont beaucoup augmenté ces dernières années, devenant de plus en plus sophistiquées et difficiles à détecter. C'est pour ça qu'il est super important de trouver et de classifier les malwares pour garder les infos en sécurité. Il y a plein d'Échantillons de malwares, donc il faut les trier par leurs traits nuisibles. C'est pour ça que les méthodes de Regroupement sont de plus en plus utilisées en sécurité informatique pour analyser le comportement des malwares et identifier de nouveaux groupes. Les méthodes de regroupement en ligne nous aident à comprendre comment les malwares se comportent et à réagir plus vite face aux nouvelles menaces.
Le besoin de détection de malware
Dans le domaine de la détection de malware, il y a deux groupes principaux. Un groupe crée des malwares, souvent pour gagner de l'argent, tandis que l'autre essaie de les trouver et de les arrêter. Avant, créer des logiciels nuisibles prenait beaucoup de temps et nécessitait des connaissances spécifiques sur les systèmes informatiques, les réseaux et la programmation. Aujourd'hui, faire des programmes nuisibles est beaucoup plus rapide et facile. Il existe des outils qui permettent de générer des malwares sans avoir besoin de connaissances approfondies. Certains de ces outils peuvent être trouvés gratuitement, mais d'autres sont difficiles d'accès, car ils peuvent se trouver sur le darknet ou avoir un coût.
Quand on utilise un générateur de malware, on entre un ensemble de paramètres spécifiques, et un type de malware est produit. Des paramètres différents peuvent donner des types de malwares différents. Selon le générateur, on peut trouver des différences entre les types de malwares basées uniquement sur les paramètres utilisés. Par exemple, deux types de malware peuvent être similaires dans leurs actions, mais utiliser des méthodes différentes pour cacher leurs actions nuisibles.
Les chercheurs pensent que les malwares créés par le même générateur montreront des similarités. Ils croient qu'en examinant de près, on peut voir que les échantillons fabriqués par le même générateur se ressemblent. Donc, on peut lier certains générateurs à des Familles spécifiques de malwares. Les études précédentes sur la classification des malwares supposaient que les malwares de la même famille seraient similaires et distincts des autres familles et des fichiers inoffensifs.
Regrouper les malwares en familles est utile pour les entreprises antivirus, car elles reçoivent chaque jour de nombreux nouveaux échantillons nuisibles. L'objectif est de classifier ces échantillons en groupes où les éléments du même groupe appartiennent à la même famille. Cela aidera les analystes de malware à obtenir des échantillons similaires en même temps, rendant leur travail plus rapide.
Le regroupement de malwares est aussi important pour la recherche, car il aide à suivre comment les différentes familles de malwares évoluent au fil du temps. Cette info peut être utilisée pour prédire les futurs types de malwares. C'est crucial pour le secteur antivirus, car cela peut réduire le temps nécessaire pour détecter et éliminer les malwares.
Modèle de regroupement en ligne proposé
Cet article parle d'une nouvelle méthode qui utilise l'apprentissage automatique pour regrouper des échantillons nuisibles dans leurs familles correspondantes en ligne. Ce modèle peut regrouper des échantillons individuellement et ne nécessite pas que tous les échantillons soient présents en même temps. Une nouvelle règle aide à déterminer si un échantillon appartient à une famille connue ou à une nouvelle famille émergente. Les échantillons sont traités à mesure qu'ils arrivent, et les résultats montrent que cette méthode fonctionne mieux que d'appliquer simplement des Algorithmes de regroupement directement.
L'organisation de cet article inclut une revue des travaux connexes, l'introduction de trois algorithmes de regroupement en ligne, la présentation du système proposé et les résultats des expériences. L'article se termine par des suggestions sur ce qui peut être fait ensuite.
Travaux connexes
Il y a un intérêt croissant pour l'utilisation de méthodes non supervisées pour des tâches comme la détection de malware, l'analyse d'image et la communication sans fil. Les études récentes se sont concentrées sur l'utilisation de techniques d'apprentissage non supervisé pour classifier ou trouver des malwares.
Une méthode appelée MalFamAware utilise le regroupement en ligne pour identifier et catégoriser automatiquement les familles de malwares. Elle met à jour les clusters à mesure que de nouveaux échantillons arrivent sans avoir besoin d'analyser à nouveau l'ensemble du jeu de données. Une autre étude a utilisé des méthodes de regroupement en deux étapes qui combinent les résultats de divers algorithmes pour améliorer les résultats finaux de catégorisation.
D'autres études combinent des cartes auto-organisatrices avec d'autres méthodes de regroupement pour améliorer les résultats. Certains chercheurs ont proposé de nouveaux cadres basés sur l'apprentissage non supervisé qui aident à identifier des applications Android malveillantes. D'autres ont travaillé sur des systèmes qui regroupent automatiquement des sites web nuisibles ou des malwares en familles basées sur des caractéristiques communes en utilisant des ensembles de clusters.
Une autre étude a introduit un algorithme génétique pour le regroupement de types de malwares inconnus. Ils ont utilisé un jeu de données de malwares populaire pour améliorer le regroupement comportemental à travers des techniques avancées. Certaines études se sont concentrées sur la façon dont différentes familles de malwares sont liées entre elles en analysant des données en bytes et en utilisant des techniques de regroupement.
De plus, les cartes auto-organisatrices ont été utilisées pour créer des clusters montrant des similarités dans le comportement des malwares. Ces méthodes ont eu divers degrés de succès pour améliorer l'analyse et la classification des échantillons nuisibles.
Méthodologie
Les algorithmes de regroupement aident à regrouper des objets similaires en clusters. Ce travail se concentre sur des méthodes de regroupement en ligne qui traitent les données au fur et à mesure qu'elles arrivent dans le temps. On se concentre sur trois méthodes utilisées dans nos expériences : Online -means, Basic Sequential Algorithmic Scheme (BSAS) et Self-Organizing Map (SOM). On applique ces méthodes pour associer des échantillons à des familles de malwares.
Online -means (OKM)
Cette méthode est une variation des techniques de regroupement traditionnelles, où de nouveaux échantillons sont regroupés et le centre de ce cluster est mis à jour immédiatement. Le souci, c'est que le nombre de clusters doit être défini à l'avance.
Self-Organizing Map (SOM)
Le SOM est un type de technique d'apprentissage non supervisé qui organise les données en fonction de la similarité. Il réduit des données complexes en une grille bidimensionnelle plus simple. L'algorithme sélectionne le nœud qui est le plus similaire à l'entrée donnée, mettant à jour les connexions en fonction de cette similarité. Le SOM apprend grâce aux interactions entre les nœuds, ce qui lui permet de créer des clusters.
Basic Sequential Algorithmic Scheme (BSAS)
L'algorithme BSAS analyse chaque nouveau point de donnée et le regroupe dans un cluster existant ou crée un nouveau. Il le fait en fonction de seuils pré-établis de distance et de nombres de clusters. Le nombre de clusters peut croître naturellement à mesure que de nouvelles données arrivent, rendant la méthode flexible.
Distance-weighted -nearest Neighbor (WKNN)
Ce classificateur est utilisé pour assigner de nouvelles données à des familles de malwares connues en fonction de la distance. Il accorde plus d'importance aux voisins plus proches dans ses décisions.
Approche proposée
Notre modèle se concentre sur le regroupement à la fois d'un ensemble de données fixe d'échantillons étiquetés et d'un flux de nouveaux échantillons. Le but est de regrouper ces échantillons efficacement tout en garantissant une grande pureté dans les clusters.
Préparation des données
Le jeu de données contient de nombreuses caractéristiques liées aux échantillons de malwares. Les données en streaming consistent en des échantillons récemment émergents. En traitant les deux ensembles de données, le système peut rapidement identifier les similarités et les regrouper en conséquence.
Processus de regroupement
Une fois le jeu de données préparé, les échantillons sont traités individuellement. Chaque nouvel échantillon est classé pour voir s'il appartient à une famille existante ou à une nouvelle. Le modèle proposé aide à étendre les clusters en permettant l'ajout de nouveaux échantillons basé sur certaines conditions.
Résultats expérimentaux
Les expériences ont évalué le modèle de regroupement en ligne proposé avec trois algorithmes différents. Chaque méthode aborde la question de la façon de regrouper les malwares nouvellement émergents en fonction de règles établies.
Performance des méthodes de regroupement
Les résultats ont montré que les trois algorithmes ont atteint une pureté de cluster décente, avec OKM généralement meilleur que les autres. L'efficacité du regroupement a également été mesurée en utilisant des coefficients de silhouette, indiquant à quel point les clusters étaient bien séparés.
Comparaison avec d'autres méthodes
Lorsque le modèle de regroupement en ligne proposé a été comparé avec des méthodes traditionnelles, il a montré de meilleures performances. La pureté du regroupement était plus élevée, indiquant un regroupement plus efficace des échantillons.
Efficacité computationnelle
Le temps pris par chaque algorithme de regroupement a été mesuré. Toutes les méthodes ont terminé le regroupement en moins d'une seconde pour le nombre moyen d'échantillons. OKM s'est avéré être le plus rapide parmi les algorithmes testés.
Conclusion
Le travail présenté implique le regroupement en ligne d'échantillons de malwares en streaming avec le but de les regrouper en familles. En utilisant divers algorithmes, l'étude a démontré que cette approche peut être efficace. Les résultats ont indiqué que le modèle de regroupement en ligne a atteint des clusters avec une pureté plus élevée que les méthodes traditionnelles.
Travaux futurs
Il y a un potentiel d'amélioration de ce modèle pour gérer plus de familles tout en maintenant une grande pureté de cluster. Explorer des méthodes comme l'apprentissage semi-supervisé pourrait améliorer le regroupement en utilisant un plus petit ensemble d'échantillons connus.
Cette recherche souligne l'importance de regrouper correctement les échantillons de malwares, ce qui est crucial pour accélérer le processus d'analyse et aider à prédire de nouvelles variantes de malwares.
Titre: Online Clustering of Known and Emerging Malware Families
Résumé: Malware attacks have become significantly more frequent and sophisticated in recent years. Therefore, malware detection and classification are critical components of information security. Due to the large amount of malware samples available, it is essential to categorize malware samples according to their malicious characteristics. Clustering algorithms are thus becoming more widely used in computer security to analyze the behavior of malware variants and discover new malware families. Online clustering algorithms help us to understand malware behavior and produce a quicker response to new threats. This paper introduces a novel machine learning-based model for the online clustering of malicious samples into malware families. Streaming data is divided according to the clustering decision rule into samples from known and new emerging malware families. The streaming data is classified using the weighted k-nearest neighbor classifier into known families, and the online k-means algorithm clusters the remaining streaming data and achieves a purity of clusters from 90.20% for four clusters to 93.34% for ten clusters. This work is based on static analysis of portable executable files for the Windows operating system. Experimental results indicate that the proposed online clustering model can create high-purity clusters corresponding to malware families. This allows malware analysts to receive similar malware samples, speeding up their analysis.
Auteurs: Olha Jurečková, Martin Jureček, Mark Stamp
Dernière mise à jour: 2024-05-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.03298
Source PDF: https://arxiv.org/pdf/2405.03298
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.