Avancées dans l'apprentissage avec des classes augmentées
Une nouvelle méthode améliore les modèles d'apprentissage automatique pour gérer des classes inconnues pendant les tests.
― 7 min lire
Table des matières
L'apprentissage machine est devenu un outil clé pour résoudre plein de problèmes du monde réel. La plupart des approches se basent sur l'idée qu'on a assez de données pour toutes les classes pendant l'entraînement. Mais parfois, on peut se retrouver avec des classes qu'on n'a pas vues lors de l'entraînement, mais qui apparaissent pendant le test. Ce scénario, on l'appelle l'apprentissage avec des classes augmentées (LAC).
Le défi dans le LAC, c'est de créer des modèles qui peuvent gérer ces classes augmentées et faire des prédictions précises. Un problème courant ici, c'est comment utiliser les relations entre les classes qu'on connaît et celles qu'on ne connaît pas quand elles apparaissent. Les chercheurs ont proposé différentes méthodes pour aborder ce souci, mais beaucoup d'entre elles ont des limites.
Énoncé du problème
Dans le LAC, on entraîne notre modèle sur des données étiquetées, ce qui veut dire qu'on sait à quelle classe appartient chaque exemple. Mais quand on teste notre modèle, on peut tomber sur des exemples de classes qui n'étaient pas incluses pendant l'entraînement. Ça complique un peu la tâche des prédictions. Comme on n'a pas d'infos spécifiques sur ces nouvelles classes, on les traite généralement comme une seule classe.
Une difficulté majeure dans le LAC, c'est de savoir comment tirer parti des données des classes connues pour mieux comprendre et prédire les classes augmentées. Il y a eu diverses techniques proposées pour ça, comme le clustering ou la détection d'anomalies. Certaines méthodes utilisent des modèles qui apprennent profondément les classes connues, tandis que d'autres changent les frontières de décision pour accueillir de nouvelles données.
Des études récentes ont montré qu'on peut créer un estimateur de risque non biaisé (URE) en utilisant des données non étiquetées. Cet URE pourrait aider à améliorer les performances face aux classes augmentées. Le souci, c'est que les travaux précédents se concentraient surtout sur un type de fonction de perte, ce qui limite la flexibilité avec différents ensembles de données.
Contributions
Pour surmonter les limites des méthodes existantes, on introduit un estimateur de risque non biaisé généralisé capable de travailler avec différentes fonctions de perte tout en garantissant des résultats théoriques. Nos contributions incluent :
- Le développement d'un URE généralisé qui supporte diverses fonctions de perte, ce qui le rend plus adaptable à différentes situations.
- Fournir des insights théoriques sur comment cet URE peut minimiser les erreurs de prédictions.
- Introduire un terme de régularisation novateur pour aborder les problèmes de risque empirique négatif qui peuvent mener à du surapprentissage.
- Mener des expériences approfondies qui montrent l'efficacité de notre méthode sur divers ensembles de données et modèles.
Apprentissage avec des classes augmentées
Dans le LAC, les données d'entraînement sont composées d'exemples qui appartiennent à des classes connues. Cependant, lors des tests, on peut voir des nouvelles classes qui ne faisaient pas partie de l'ensemble d'entraînement. Ça exige que les modèles s'adaptent à ces classes inconnues tout en gardant leur précision sur les classes connues.
Le défi, c'est de gérer la relation entre les classes connues et inconnues. Différentes techniques ont été proposées. Certaines se concentrent sur la définition de frontières claires entre les classes connues et inconnues, tandis que d'autres utilisent des données non étiquetées pour améliorer la classification de ces nouvelles classes.
Notre approche utilise un URE généralisé, ce qui devrait donner de meilleurs résultats que les méthodes précédentes. C'est parce que ça ne nous limite pas à des fonctions de perte spécifiques et ça peut s'adapter aux données qu'on a.
La méthode proposée
On présente un URE généralisé qui aborde les limites des études antérieures. Cet URE est flexible et peut accepter différentes fonctions de perte. On fournit aussi une analyse théorique qui assure que la méthode est fiable et converge vers le minimiseur de risque réel.
Notre méthode inclut une régularisation de pénalité de risque qui combat le risque empirique négatif. C'est crucial car beaucoup de pertes de classification communes peuvent produire des valeurs négatives, ce qui mène à du surapprentissage. En ajoutant une pénalité pour les risques négatifs, on peut stabiliser le processus d'entraînement et garder l'exactitude du modèle.
Configuration expérimentale
Pour valider notre méthode, on a mené des expériences utilisant à la fois des ensembles de données à petite et grande échelle. On a sélectionné plusieurs ensembles de données de différentes sources connues, en s'assurant qu'elles variaient en caractéristiques. Pour les petits ensembles de données, on a utilisé des modèles linéaires simples, tandis que pour les plus grands, on a employé des modèles plus complexes, comme des perceptrons multicouches.
Dans nos expériences, on a analysé comment notre méthode se compare aux autres approches existantes. Ça incluait l'évaluation de la précision, du score Macro-F1 et de l'aire sous la courbe (AUC).
Résultats et discussion
Les résultats de nos expériences montrent que notre méthode proposée surpasse les autres approches, que ce soit sur des petits ou grands ensembles de données. On a noté des métriques de performance améliorées, particulièrement dans les cas où les classes augmentées posaient des défis.
Nos découvertes suggèrent que l'URE généralisé offre non seulement de la flexibilité dans le choix des fonctions de perte, mais qu'il améliore aussi la performance prédictive. La régularisation de pénalité de risque s'est révélée efficace pour résoudre les problèmes liés au risque empirique négatif, rendant notre modèle plus robuste pendant l'entraînement.
Analyse plus poussée
On a décidé d'analyser comment la régularisation de pénalité a affecté la performance. Les résultats ont indiqué que notre méthode de pénalité de risque surpassait significativement les fonctions de correction traditionnelles comme l'Unité Linéaire Rectifiée (ReLU) et la Valeur Absolue (ABS). Ça a confirmé que notre méthode atténuait efficacement les problèmes associés aux risques négatifs.
De plus, on a examiné comment la proportion de classes connues par rapport aux classes augmentées influençait la performance. Nos résultats ont montré qu'estimer précisément cette proportion contribuait également à améliorer les résultats de classification.
Conclusion
En résumé, on a exploré le problème de l'apprentissage avec des classes augmentées et proposé un estimateur de risque non biaisé généralisé qui accepte diverses fonctions de perte tout en maintenant une rigueur théorique. On a aussi introduit un terme de régularisation de pénalité de risque pour aider à atténuer le risque empirique négatif qu'on rencontre souvent dans des travaux similaires.
Nos expériences approfondies ont confirmé que notre méthode est efficace dans différents scénarios, prouvant son applicabilité sur un éventail d'ensembles de données et de tâches de classification. Les travaux futurs pourraient se concentrer sur l'amélioration des techniques de régularisation et l'ajustement de l'approche pour des environnements d'apprentissage plus complexes.
Titre: A Generalized Unbiased Risk Estimator for Learning with Augmented Classes
Résumé: In contrast to the standard learning paradigm where all classes can be observed in training data, learning with augmented classes (LAC) tackles the problem where augmented classes unobserved in the training data may emerge in the test phase. Previous research showed that given unlabeled data, an unbiased risk estimator (URE) can be derived, which can be minimized for LAC with theoretical guarantees. However, this URE is only restricted to the specific type of one-versus-rest loss functions for multi-class classification, making it not flexible enough when the loss needs to be changed with the dataset in practice. In this paper, we propose a generalized URE that can be equipped with arbitrary loss functions while maintaining the theoretical guarantees, given unlabeled data for LAC. To alleviate the issue of negative empirical risk commonly encountered by previous studies, we further propose a novel risk-penalty regularization term. Experiments demonstrate the effectiveness of our proposed method.
Auteurs: Senlin Shu, Shuo He, Haobo Wang, Hongxin Wei, Tao Xiang, Lei Feng
Dernière mise à jour: 2023-06-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.06894
Source PDF: https://arxiv.org/pdf/2306.06894
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.