Une nouvelle approche pour la détection d'anomalies dans les données
Présentation d'une méthode innovante pour détecter des anomalies dans des patterns de données complexes.
― 6 min lire
Table des matières
La détection d’anomalies, c’est chercher des trucs qui sortent de l’ordinaire par rapport à ce qu’on attend. Pense à repérer un schéma bizarre dans des données. Par exemple, si la plupart de tes amis ont autour de 75 % à un exam, mais que l’un d’eux a 20 %, ce score est une anomalie.
Quand on regarde des données complexes, comme des images, c’est important d’apprendre des formes plus simples qui nous aident à reconnaître les schémas normaux. Ça facilite la détection de tout ce qui pourrait être bizarre plus tard.
Récemment, de nouvelles techniques d’apprentissage auto-supervisé ont montré de bons résultats pour aider avec ça. Cependant, beaucoup de ces méthodes s’appuient sur des connaissances préalables sur le genre de choses inhabituelles à attendre. Ce n’est pas toujours réaliste parce qu’en vrai, on ne sait souvent pas ce qu’on va croiser.
Pour régler ce problème, on propose une méthode qui regarde les données normales sous différents angles tout en gardant leurs propriétés normales. En faisant ça, on peut mieux repérer les anomalies sans avoir besoin de savoir ce qu’elles sont à l’avance.
Nos tests montrent que cette nouvelle méthode fonctionne super bien sur divers jeux de données et performe particulièrement dans des situations de santé où on manque souvent d'infos sur les anomalies potentielles.
Importance de la Détection d’Anomalies
Repérer des schémas inhabituels est crucial dans plein de domaines comme la santé, la finance, et la sécurité. Par exemple, dans la santé, les médecins filtrent souvent les patients pour déceler des signes de maladies. La plupart du temps, ceux qui sont examinés sont en bonne santé, ce qui rend la tâche d’identifier les cas plus rares de maladies compliquée.
Traditionnellement, des techniques comme les Forêts d’Isolation, le Facteur d’Outlier Local, et les Machines à Vecteurs de Support ont été utilisées pour la détection d’anomalies. Cependant, ces techniques marchent généralement mieux avec des données simples et galèrent avec des données complexes.
Pour y remédier, les chercheurs utilisent de plus en plus le deep learning pour créer de meilleures façons de représenter des données normales de haute dimension comme des images. Un des premiers modèles introduits pour ça était une technique qui regroupe des échantillons normaux proches les uns des autres dans un espace sphérique. Bien que ça ait du succès, cette approche a ses défauts, comme le fait que toutes les données s’effondrent en un seul point.
Pour éviter ces problèmes, les chercheurs ont exploré de nouvelles façons d’apprendre des représentations de manière contrastée. Ça aide à améliorer notre capacité à repérer les anomalies.
Notre Nouvelle Méthode
On introduit une méthode qui nous permet d’apprendre des représentations claires des données normales en plaçant des échantillons d’entraînement dans différents contextes, ce qui nous aide à les voir sous un nouveau jour.
En appliquant des transformations à nos données normales, on peut observer à quel point de nouveaux échantillons s’accordent avec ces contextes appris. Quand les données normales sont transformées, elles s’intègrent bien dans les structures apprises. Cependant, si on voit quelque chose qui ne correspond pas, on peut le repérer comme une anomalie.
Comment Ça Marche
Augmentation de Contexte : Il s’agit de transformer des échantillons normaux de manière à ce qu’ils gardent leurs propriétés normales. Notre approche fait en sorte que, même si les données originales et transformées peuvent sembler similaires au premier abord, elles restent suffisamment distinctes pour qu’on puisse les différencier.
Apprentissage de Représentations : On apprend à regrouper ces échantillons transformés ensemble, donc les similaires sont proches les uns des autres tout en restant différents des dissemblables. Ça nous aide à former des clusters d’échantillons normaux.
Détection d’Anomalies : Quand on introduit de nouveaux échantillons dans ce cadre, on peut mesurer à quel point ces échantillons s’intègrent dans les clusters qu’on a appris précédemment. Si un nouvel échantillon se démarque et n’appartient à aucun de ces clusters, on peut le marquer comme une anomalie.
Tests Expérimentaux
Pour prouver à quel point cette nouvelle méthode est efficace, on l’a testée sur plusieurs jeux de données.
Images Naturelles
On a regardé des jeux de données d’images standards comme CIFAR10 et CIFAR100 pour voir comment notre méthode se comparait aux approches existantes. Nos résultats ont montré que notre méthode surpassait de nombreuses approches traditionnelles.
On a appris que certaines transformations, comme le retournement d’images, fonctionnaient bien tandis que d’autres, comme l’égalisation d’histogramme, n’arrivaient pas à bien distinguer les échantillons normaux des transformés.
Images Médicales
On a aussi fait des tests dans un contexte médical, notamment sur des images de radiographies thoraciques pour la détection de pneumonie. La détection d’anomalies s’avère particulièrement utile ici puisque la plupart des patients sont en bonne santé, faisant des maladies les anomalies.
Notre méthode a non seulement mieux performé par rapport aux méthodes traditionnelles pour identifier les anomalies dans ce contexte médical, mais a aussi montré une performance constante à travers différents tests.
Défis et Considérations
Bien que la détection d’anomalies soit bénéfique, il est essentiel de réfléchir à comment on définit ce qui est 'normal'. Si les jeux de données sont biaisés ou si certains groupes sont sous-représentés, on risque de prendre des décisions incorrectes, menant à de faux alertes ou des anomalies manquées.
De plus, notre focus reste principalement sur les données d’images. On n’a pas encore testé nos méthodes avec d’autres types comme les données temporelles ou les données combinées provenant de différentes sources. Ce serait intéressant de voir si notre méthode pourrait s’appliquer à ces différentes formes de données sans nécessiter de transformations personnalisées.
Conclusion
La détection d’anomalies est un outil précieux qui aide à trouver des schémas inattendus dans les données. Notre nouvelle méthode simplifie le processus d’apprentissage à partir de données normales en utilisant des transformations. Comme ça, on peut voir les données normales sous de nouveaux angles et apprendre à détecter les anomalies efficacement sans avoir besoin de savoir à l’avance ce que ces anomalies pourraient être.
À travers des tests approfondis tant dans des contextes de données naturelles que médicales, on a montré que cette méthode est une solution fiable pour la détection d’anomalies. Avec une exploration supplémentaire sur différents types de données, cette technique pourrait encore renforcer son utilité dans des applications réelles.
Titre: Anomaly Detection by Context Contrasting
Résumé: Anomaly detection focuses on identifying samples that deviate from the norm. When working with high-dimensional data such as images, a crucial requirement for detecting anomalous patterns is learning lower-dimensional representations that capture concepts of normality. Recent advances in self-supervised learning have shown great promise in this regard. However, many successful self-supervised anomaly detection methods assume prior knowledge about anomalies to create synthetic outliers during training. Yet, in real-world applications, we often do not know what to expect from unseen data, and we can solely leverage knowledge about normal data. In this work, we propose Con$_2$, which learns representations through context augmentations that allow us to observe samples from two distinct perspectives while keeping the invariances of normal data. Con$_2$ learns rich representations of context-augmented samples by clustering them according to their context while simultaneously aligning their positions across clusters. At test time, representations of anomalies that do not adhere to the invariances of normal data then deviate from their respective context cluster. Learning representations in such a way thus allows us to detect anomalies without making assumptions about anomalous data.
Auteurs: Alain Ryser, Thomas M. Sutter, Alexander Marx, Julia E. Vogt
Dernière mise à jour: 2024-10-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.18848
Source PDF: https://arxiv.org/pdf/2405.18848
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/HobbitLong/SupContrast
- https://github.com/alinlab/CSI
- https://www.cs.toronto.edu/~kriz/cifar.html
- https://github.com/hendrycks/ss-ood
- https://image-net.org/
- https://www.kaggle.com/competitions/dogs-vs-cats/data
- https://www.kaggle.com/competitions/dogs-vs-cats/rules
- https://www.kaggle.com/datasets/samuelcortinhas/muffin-vs-chihuahua-image-classification/data
- https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia