Améliorer la classification déséquilibrée avec la méthode MixAnN
Une nouvelle méthode améliore la classification dans des jeux de données déséquilibrés en combinant des échantillons.
― 8 min lire
Table des matières
- Le défi des données déséquilibrées
- Le concept de mélange de données
- Composantes clés de la méthode proposée
- Le processus de mélange itératif
- Défis dans le processus de mélange
- Utilisation du processus de prise de décision
- Entraînement du cadre
- Résultats expérimentaux
- Comparaison avec d'autres techniques
- Conclusion et orientations futures
- Source originale
- Liens de référence
La classification déséquilibrée, c'est un souci courant dans plein de situations de la vie réelle où une classe a beaucoup plus de données que l'autre. Par exemple, dans la détection de fraudes, t'as plein de transactions normales mais seulement quelques-unes qui sont frauduleuses. Ce déséquilibre rend l'apprentissage des modèles super compliqué, parce qu'ils ont tendance à privilégier la classe majoritaire.
Pour régler ce problème, plusieurs techniques ont été développées. Une méthode populaire, c'est le Sur-échantillonnage, où on crée plus d’exemples de la classe minoritaire pour équilibrer le dataset. Mais ça peut toujours poser des soucis, surtout quand les exemples minoritaires sont éparpillés de différentes manières au lieu d'être regroupés.
Cet article parle d'une nouvelle approche pour améliorer la classification dans ces situations, en se concentrant sur comment créer des échantillons synthétiques en combinant des données de différentes classes. On va explorer les défis liés et comment les techniques récentes aident à les surmonter.
Le défi des données déséquilibrées
Les datasets déséquilibrés sont partout, touchant des domaines comme la détection d'intrusions, la détection de fraudes, et la détection de pannes en fabrication. Dans ces cas-là, avoir beaucoup d’exemples d'une classe (comme les transactions normales) par rapport à peu d'une autre (comme les transactions frauduleuses) peut causer des problèmes.
Quand on entraîne des modèles sur ces datasets, les algorithmes apprennent souvent à prédire très bien la classe majoritaire, mais galèrent avec la classe minoritaire. Ça donne une performance médiocre pour détecter les événements moins communs mais plus critiques.
Souvent, les chercheurs se tournent vers des techniques de sur-échantillonnage comme le SMOTE, qui génèrent de nouveaux échantillons en mélangeant des échantillons minoritaires existants. Mais ces méthodes peuvent créer des points de données trompeurs, surtout si les échantillons minoritaires sont dispersés dans l'espace des caractéristiques.
Le concept de mélange de données
Au lieu de se concentrer uniquement sur la classe minoritaire pour créer de nouveaux échantillons, on peut penser à mélanger des données des deux classes. Ça permet d'avoir une meilleure représentation de la frontière de décision entre les classes.
L’approche que nous proposons utilise une méthode appelée MixAnN, qui signifie Mélanger Anomalies et Normaux. Cette méthode prend des paires d’échantillons-un de la classe majoritaire et un de la classe minoritaire-et les mélange pour créer de nouveaux échantillons.
L'objectif, c'est d'améliorer la capacité du classificateur à différencier les deux classes. En combinant les points de données, on peut générer des échantillons plus informatifs qui aident à mieux entraîner le modèle.
Composantes clés de la méthode proposée
Le cadre MixAnN repose sur plusieurs idées importantes :
Mélange itératif : Le processus de mélange des échantillons se fait par étapes, chaque itération affinant encore plus les échantillons. Ça aide à explorer efficacement l'espace des caractéristiques.
Processus de Décision de Markov (MDP) : Le mélange itératif peut être vu comme un problème de prise de décision. Le cadre MDP permet au système de choisir les meilleures actions à chaque étape du processus de mélange.
Cadre Acteur-Critique : Un type d'apprentissage par renforcement qui consiste en deux composants : un acteur qui choisit des actions et un critique qui évalue ces actions. Cette combinaison aide à optimiser la stratégie de mélange en fonction des retours reçus.
Chacune de ces composantes joue un rôle crucial pour s'assurer que les échantillons synthétiques générés sont bénéfiques pour la tâche de classification.
Le processus de mélange itératif
La première étape de notre méthode est de définir comment on mélange les échantillons. On vise à généraliser l'information des classes étiquetées et à créer de nouveaux échantillons qui capturent les caractéristiques clés des classes majoritaires et minoritaires.
À chaque itération, on prend un échantillon de chaque classe. On détermine ensuite combien de chaque échantillon utiliser pour créer le nouvel échantillon synthétique. Ce ratio de mélange est important, car il peut influencer la qualité de l'échantillon généré.
Le processus permet de sélectionner de manière adaptative des échantillons en fonction de leurs attributs et des besoins du modèle actuel. Plus on effectue d’itérations, mieux les échantillons s’alignent à ce dont le modèle a besoin pour l’entraînement.
Défis dans le processus de mélange
Développer un cadre de mélange vient avec son lot de défis :
Sélection des échantillons sources : Choisir quels échantillons mélanger est crucial. Une sélection aléatoire peut introduire du bruit, surtout dans les datasets déséquilibrés.
Détermination de la stratégie de mélange : Ce n'est pas suffisant de simplement mélanger des échantillons au hasard. Le ratio de mélange doit être adapté pour chaque paire d'échantillons sources.
Coordination du modèle : Le processus de mélange devrait tenir compte du classificateur sous-jacent pour guider efficacement les stratégies de sélection et de mélange.
Surmonter ces défis nécessite une planification et une exécution minutieuses pour s'assurer que les échantillons synthétiques générés sont vraiment utiles.
Utilisation du processus de prise de décision
Pour s'attaquer aux défis mentionnés, on peut utiliser le cadre MDP. Voici comment ça fonctionne :
États : Chaque état dans le processus représente le scénario actuel basé sur les deux échantillons considérés pour le mélange.
Actions : Les actions incluent le choix du ratio de mélange et le nombre d’échantillons synthétiques à créer.
Fonction de récompense : La fonction de récompense mesure l'efficacité de l'action choisie pour améliorer la performance du classificateur.
En traitant le processus de mélange comme un problème de prise de décision, on peut appliquer des stratégies de l'apprentissage par renforcement pour apprendre des politiques de mélange optimales au fil du temps.
Entraînement du cadre
Pour entraîner notre cadre proposé, il nous faut une méthode pour l'évaluer et l'améliorer continuellement. En utilisant le modèle acteur-critique, on peut optimiser la stratégie de mélange en fonction des récompenses reçues pendant l'entraînement.
L'acteur apprend les meilleures actions à prendre dans chaque état, tandis que le critique évalue ces actions et fournit des retours. Ça crée un cycle efficace où le modèle apprend de ses erreurs et s'améliore avec le temps.
Le processus d'entraînement implique de faire plusieurs itérations jusqu'à ce que le système converge vers une stratégie efficace pour mélanger les échantillons.
Résultats expérimentaux
Pour tester l'efficacité du cadre MixAnN, on a réalisé des expériences sur divers datasets de référence. L'objectif était de voir à quel point cette méthode performait par rapport aux techniques d'augmentation de données existantes.
On a évalué notre modèle en se basant sur des métriques comme la précision, le rappel et le score F1, en se concentrant sur sa capacité à détecter avec précision les instances minoritaires tout en maintenant un équilibre avec la classe majoritaire.
Les résultats ont montré des améliorations significatives par rapport aux méthodes traditionnelles. MixAnN a constamment surpassé les techniques d'augmentation existantes, démontrant sa capacité à générer des échantillons synthétiques de haute qualité.
Comparaison avec d'autres techniques
Dans nos résultats, nous avons aussi comparé MixAnN avec diverses méthodes de base.
Sur-échantillonnage traditionnel : Des techniques comme le SMOTE ont souvent du mal quand les échantillons minoritaires ne sont pas regroupés. L’approche de MixAnN pour mélanger des échantillons des deux classes s'est révélée plus efficace.
Approches basées sur les étiquettes : Bien que ces méthodes se concentrent sur l'utilisation des étiquettes existantes, elles négligent souvent les relations entre échantillons. La capacité de MixAnN à mélanger des échantillons lui a permis de capturer des informations plus nuancées.
Ces comparaisons mettent en évidence la flexibilité et l'adaptabilité du cadre MixAnN pour traiter des tâches de classification déséquilibrées.
Conclusion et orientations futures
Le cadre MixAnN offre une solution prometteuse pour gérer les problèmes de classification déséquilibrée, surtout quand on traite des classes minoritaires diversifiées. En mélangeant des échantillons de manière itérative et en utilisant des techniques d'apprentissage par renforcement, on peut créer des données d'entraînement plus informatives qui aident les classificateurs à mieux performer.
Pour l'avenir, il y a plusieurs domaines à explorer davantage. Un défi significatif est d'aborder le problème de la surconfiance dans certains modèles, où ils peuvent devenir trop sûrs de leurs prédictions.
De plus, on pourrait encore améliorer la scalabilité de MixAnN, potentiellement en intégrant des méthodes de sous-échantillonnage pour compléter le processus de mélange.
Ce travail ouvre la voie à de futures recherches et applications dans divers domaines où les datasets déséquilibrés sont fréquents, contribuant à améliorer la performance et la fiabilité des modèles.
Titre: Tackling Diverse Minorities in Imbalanced Classification
Résumé: Imbalanced datasets are commonly observed in various real-world applications, presenting significant challenges in training classifiers. When working with large datasets, the imbalanced issue can be further exacerbated, making it exceptionally difficult to train classifiers effectively. To address the problem, over-sampling techniques have been developed to linearly interpolating data instances between minorities and their neighbors. However, in many real-world scenarios such as anomaly detection, minority instances are often dispersed diversely in the feature space rather than clustered together. Inspired by domain-agnostic data mix-up, we propose generating synthetic samples iteratively by mixing data samples from both minority and majority classes. It is non-trivial to develop such a framework, the challenges include source sample selection, mix-up strategy selection, and the coordination between the underlying model and mix-up strategies. To tackle these challenges, we formulate the problem of iterative data mix-up as a Markov decision process (MDP) that maps data attributes onto an augmentation strategy. To solve the MDP, we employ an actor-critic framework to adapt the discrete-continuous decision space. This framework is utilized to train a data augmentation policy and design a reward signal that explores classifier uncertainty and encourages performance improvement, irrespective of the classifier's convergence. We demonstrate the effectiveness of our proposed framework through extensive experiments conducted on seven publicly available benchmark datasets using three different types of classifiers. The results of these experiments showcase the potential and promise of our framework in addressing imbalanced datasets with diverse minorities.
Auteurs: Kwei-Herng Lai, Daochen Zha, Huiyuan Chen, Mangesh Bendre, Yuzhong Chen, Mahashweta Das, Hao Yang, Xia Hu
Dernière mise à jour: 2023-08-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.14838
Source PDF: https://arxiv.org/pdf/2308.14838
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.diffchecker.com/diff
- https://www.openml.org/
- https://github.com/Minqi824/ADBench
- https://github.com/yzhao062/pyod
- https://github.com/GuansongPang/deviation-network
- https://github.com/lukasruff/Deep-SAD-PyTorch
- https://github.com/shubhomoydas/ad_examples/tree/master/ad_examples/datasets/anomaly/toy2/fullsamples
- https://github.com/PyLink88/Recurrent-Autoencoder
- https://github.com/yzhao062/pyod/
- https://github.com/syorami/DDC-transfer-learning
- https://github.com/DMIRLAB-Group/SASA