Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Intelligence artificielle

Évaluation des algorithmes de détection d'anomalies dans des ensembles de données multivariées

Étude des algos pour détecter des anomalies dans différents jeux de données.

― 6 min lire


Revue des Algorithmes deRevue des Algorithmes deDétection d'Anomaliesdétection d'anomalies efficace.Évaluer les meilleurs algos pour une
Table des matières

La Détection d'anomalies consiste à trouver des points de données qui ne correspondent pas au schéma attendu d'un ensemble de données. Ces points bizarres, connus sous le nom d'anomalies, peuvent survenir pour diverses raisons, comme des erreurs dans la collecte de données, des comportements inhabituels dans les systèmes, ou des changements inattendus dans un processus. Par exemple, en chimie, une expérience mal exécutée peut causer une anomalie, tandis qu'en médecine, une maladie rare pourrait entraîner des symptômes étranges. En maintenance, une lecture inhabituelle peut suggérer qu'un système est sur le point de tomber en panne.

Au fil du temps, de nombreux algorithmes ont été développés pour détecter ces anomalies, chacun ayant ses forces et ses faiblesses. Comprendre quel algorithme utiliser peut être compliqué, surtout pour quelqu'un qui n'est pas un expert dans le domaine. Cette étude évalue divers algorithmes de détection d'anomalies sur des ensembles de données multivariés du monde réel et discute de combien d'algorithmes différents sont nécessaires pour une analyse efficace.

Aperçu des Algorithmes de Détection d'Anomalies

La détection d'anomalies non supervisée est une technique clé en apprentissage automatique, permettant aux chercheurs de repérer des anomalies dans les données sans avoir besoin d'exemples étiquetés. Diverses méthodes ont été créées pour relever des défis distincts en matière de détection d'anomalies. Certaines se concentrent sur des problèmes spécifiques comme la gestion de données à haute dimension, tandis que d'autres visent une performance générale avec une faible utilisation des ressources.

Le défi pour les utilisateurs est de sélectionner l'algorithme le plus approprié parmi les nombreux disponibles, surtout puisque l'efficacité de ces algorithmes peut varier en fonction des ensembles de données spécifiques. Des études précédentes ont tenté de guider les utilisateurs en comparant différents algorithmes, mais beaucoup de ces revues ont eu des limites, n'examinant qu'une poignée d'algorithmes sur un petit nombre d'ensembles de données.

Ce travail vise à combler cette lacune en évaluant un large éventail d'algorithmes de détection d'anomalies non supervisés à travers une plus grande collection d'ensembles de données du monde réel. Cette approche fournit des lignes directrices plus claires sur quand utiliser des algorithmes spécifiques en fonction de leurs performances.

Types d'Anomalies

Les anomalies peuvent être catégorisées selon leurs caractéristiques. Voici quelques types clés :

Anomalies Locales

Les anomalies locales sont des points de données qui sont différents de leur environnement immédiat. Elles existent dans une zone de faible densité par rapport aux points de données voisins.

Anomalies Globales

Les anomalies globales sont des points qui se trouvent dans une région de faible densité par rapport à l'ensemble de l'ensemble de données. Ces anomalies peuvent se démarquer plus clairement par rapport aux anomalies locales.

Anomalies Groupées

Certaines anomalies ne sont pas isolées mais apparaissent plutôt en petits groupes ou en clusters. Ces clusters peuvent parfois cacher la présence de chaque anomalie, rendant leur détection plus difficile.

Anomalies Isolées

Les anomalies isolées sont des points de données uniques qui n'ont pas d'autres points similaires à proximité. Elles sont plus faciles à identifier mais peuvent ne pas représenter le comportement plus large de l'ensemble de données.

Évaluation des Algorithmes

Pour évaluer l'efficacité de divers algorithmes, nous utilisons différents ensembles de données pour analyser leurs performances dans la détection d'anomalies. La performance de chaque algorithme est mesurée à l'aide de scores dérivés de leurs prédictions. L'étude implique plus que simplement comparer des résultats bruts ; elle prend également en compte le comportement de ces algorithmes dans différents scénarios et ensembles de données.

Analyse des Résultats

Après avoir effectué les évaluations, nous examinons la performance globale de chaque algorithme à travers les ensembles de données. Cela nous aide à développer des idées sur quels algorithmes fonctionnent le mieux dans certaines conditions.

Nous constatons que certains algorithmes surclassent systématiquement d'autres, indiquant ceux qui peuvent être les meilleurs choix pour certains types d'anomalies. Par exemple, un algorithme appelé k-plus proches voisins (K-NN) se distingue par sa forte performance, surtout quand il y a de l'incertitude sur les types d'anomalies dans l'ensemble de données.

Recommandations pour les Utilisateurs

Sur la base des conclusions des évaluations, nous suggérons que les utilisateurs aient quelques algorithmes clés à considérer pour leurs tâches de détection d'anomalies.

  1. Quand Incertain sur les Types d'Anomalies : Si les utilisateurs ne savent pas si leur ensemble de données contient des anomalies locales ou globales, l'algorithme k-NN est un choix sûr. Il a montré la capacité de surpasser la plupart des autres méthodes.

  2. Pour les Anomalies Locales : Si les utilisateurs sont certains que des anomalies locales sont présentes, l'algorithme k-NN fonctionne également bien et est recommandé pour ces situations.

  3. Pour les Anomalies Globales : Si l'accent est mis uniquement sur la détection d'anomalies globales, l'algorithme Isolation Forest, surtout sa version étendue, est le meilleur performer.

Conclusion

En conclusion, la recherche souligne le besoin de quelques algorithmes fiables qui peuvent efficacement traiter différents types d'anomalies dans des ensembles de données multivariés. Le k-NN, l'Isolation Forest standard et la version étendue de l'Isolation Forest émergent comme les principales recommandations.

En utilisant ces trois algorithmes, les utilisateurs peuvent réaliser efficacement la détection d'anomalies sans plonger dans les complexités de l'optimisation pour chaque situation différente. Cette approche permet également une reproduction plus facile des résultats pour d'autres études et applications dans des scénarios du monde réel.

L'étude présente une avancée significative dans la compréhension de la sélection des bonnes méthodes de détection d'anomalies pour traiter des anomalies dans divers ensembles de données. De futures recherches pourraient s'appuyer sur ces résultats, notamment en élargissant l'analyse à des ensembles de données plus diversifiés, y compris des images ou des données temporelles, pour améliorer encore la compréhension et les capacités des techniques de détection d'anomalies.

Source originale

Titre: Unsupervised anomaly detection algorithms on real-world data: how many do we need?

Résumé: In this study we evaluate 32 unsupervised anomaly detection algorithms on 52 real-world multivariate tabular datasets, performing the largest comparison of unsupervised anomaly detection algorithms to date. On this collection of datasets, the $k$-thNN (distance to the $k$-nearest neighbor) algorithm significantly outperforms the most other algorithms. Visualizing and then clustering the relative performance of the considered algorithms on all datasets, we identify two clear clusters: one with ``local'' datasets, and another with ``global'' datasets. ``Local'' anomalies occupy a region with low density when compared to nearby samples, while ``global'' occupy an overall low density region in the feature space. On the local datasets the $k$NN ($k$-nearest neighbor) algorithm comes out on top. On the global datasets, the EIF (extended isolation forest) algorithm performs the best. Also taking into consideration the algorithms' computational complexity, a toolbox with these three unsupervised anomaly detection algorithms suffices for finding anomalies in this representative collection of multivariate datasets. By providing access to code and datasets, our study can be easily reproduced and extended with more algorithms and/or datasets.

Auteurs: Roel Bouman, Zaharah Bukhsh, Tom Heskes

Dernière mise à jour: 2023-05-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.00735

Source PDF: https://arxiv.org/pdf/2305.00735

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires