Apprentissage par classes incrémentales : gérer l'oubli et le dérive
Explorer des méthodes pour maintenir la connaissance dans les systèmes d'apprentissage automatique.
― 8 min lire
Table des matières
- Le défi du dériveur de classificateur
- Solutions pour atténuer la dérive de classificateur
- Apprentissage incrémental par classe en pratique
- La dérive de classificateur comme source d'oubli
- Analyse des solutions
- Évaluation des modèles CIL
- Aborder la performance et la dérive
- Conclusion sur l'apprentissage incrémental par classe
- Source originale
- Liens de référence
L'apprentissage incrémental par classe (CIL) est une méthode en machine learning où un système apprend de nouvelles catégories de données au fil du temps sans oublier ce qu'il a déjà appris. Imagine un modèle capable d'apprendre à reconnaître de nouvelles choses sans perdre ses connaissances sur les anciennes. C'est super utile dans plein de domaines, surtout dans des tâches liées au traitement du langage naturel (NLP), où les données et catégories changent souvent.
Mais voilà, un gros souci se présente quand le modèle doit se mettre à jour pour inclure de nouvelles catégories. Ce processus peut amener le modèle à oublier ce qu'il a appris avant, surtout s'il n'a pas accès à des exemples des catégories apprises plus tôt. Ce problème s'appelle l'« Oubli Catastrophique ».
Le défi du dériveur de classificateur
Quand un modèle apprend de façon incrémentale, il met à jour sa frontière de décision pour inclure de nouvelles catégories. C'est là qu'intervient le problème du dériveur de classificateur. La dérive de classificateur fait référence aux changements dans le processus décisionnel du modèle qui peuvent conduire à négliger ou à oublier les anciennes catégories. Dans de nombreux cas, la capacité du modèle à reconnaître des classes précédemment apprises peut diminuer simplement parce qu'il s'adapte à de nouvelles infos.
Malheureusement, c'est un problème courant dans le CIL, et il y a eu peu de recherches sur la façon dont une meilleure compréhension de la dérive de classificateur peut aider à résoudre cette perte de connaissances, surtout quand il n'y a pas d'exemples des anciennes catégories à revisiter.
Solutions pour atténuer la dérive de classificateur
Pour s'attaquer au problème de la dérive de classificateur, un cadre appelé Classificateurs Individuels avec Extracteur de Caractéristiques Gelé (Ice) a été conçu. Ce cadre entraîne des classificateurs séparés pour chaque nouvelle session d'apprentissage, permettant à chaque classificateur de conserver ses connaissances sans être influencé par les mises à jour faites lors des sessions suivantes.
Le cadre Ice a quelques variations conçues pour améliorer son efficacité :
- Ice-Pl : Cette version prend en compte les sorties (Logits) des classificateurs plus anciens lors de l'entraînement du nouveau classificateur, fournissant un contexte pour les informations précédemment apprises.
- Ice-O : Cette variante est spécifiquement conçue pour gérer les cas où une catégorie « Autre » est impliquée, s'assurant que les classificateurs incluent cette catégorie correctement au fur et à mesure de son évolution.
- Ice-Pl O : C'est similaire à Ice-Pl mais intègre aussi la catégorie « Autre ».
Des tests poussés sur différentes tâches de NLP montrent que ces solutions réduisent significativement les effets de l'oubli et surpassent d'autres méthodes existantes.
Apprentissage incrémental par classe en pratique
L'application pratique du CIL est particulièrement pertinente dans des tâches comme la détection d'événements, la reconnaissance d'entités nommées et l'extraction de relations. Dans ces tâches, les modèles sont entraînés à identifier des étiquettes spécifiques dans le texte. Par exemple, dans la détection d'événements, un modèle pourrait avoir besoin de reconnaître différents types d'événements, qui peuvent évoluer avec le temps à cause de scénarios réels changeants, comme passer de se concentrer sur la criminalité à des événements de santé.
Dans le CIL, chaque nouvelle session introduit un ensemble de classes que le modèle n'a jamais vues auparavant. L'objectif est de créer un modèle unifié capable de reconnaître efficacement toutes les classes apprises précédemment et celles nouvellement introduites.
La dérive de classificateur comme source d'oubli
Pour comprendre comment la dérive de classificateur conduit à l'oubli, les chercheurs ont conçu des tests initiaux. En utilisant un modèle de langage fixe qui ne change pas ses paramètres d'extraction de caractéristiques, ils peuvent isoler comment les changements dans la couche de classification peuvent impacter la performance du modèle.
À travers ces tests, deux causes principales de la dérive de classificateur ont été identifiées :
- Explosion de logit nouveau : Quand la sortie d'un nouveau classificateur est beaucoup plus élevée que celles des anciens, elle peut éclipser les classes précédentes, entraînant un oubli.
- Diminution des anciens logit : Comme le modèle ne peut pas accéder aux anciens exemples, les paramètres liés aux anciennes classes peuvent se détériorer avec le temps, entraînant des prédictions moins bonnes pour ces classes.
Ces deux problèmes contribuent significativement à l'oubli et soulignent l'importance de gérer efficacement la dérive de classificateur.
Analyse des solutions
Pour contrer les défis posés par la dérive de classificateur, le cadre Ice et ses variantes offrent des méthodes robustes. Ils permettent à chaque nouveau classificateur d'être formé sans l'influence des classificateurs plus anciens tout en s'assurant que tous les classificateurs communiquent efficacement lors des prédictions.
- Ice : Cette approche garantit que le classificateur de chaque nouvelle session est entraîné indépendamment, préservant les classificateurs précédents et leurs connaissances.
- Ice-Pl : Ici, les anciens classificateurs sont préservés mais gelés, permettant au nouveau classificateur de tirer des enseignements des classes antérieures.
- Ice-O : Cette méthode introduit un logit constant pour la catégorie « Autre », fournissant une frontière efficace qui aide à maintenir la cohérence du modèle.
- Ice-Pl O : En combinant les anciens logits avec la catégorie « Autre », cette approche maintient les avantages de Ice-Pl et Ice-O, offrant une solution complète.
Des tests sur différentes tâches montrent que ces solutions surperforment constamment les anciennes méthodes, entraînant des améliorations significatives de la performance sans besoin de revisiter des exemples précédents.
Évaluation des modèles CIL
Lors de l'évaluation de l'efficacité de ces modèles, les chercheurs ont analysé leur performance à travers plusieurs benchmarks. Les ensembles de données utilisés pour les tests incluent Few-NERD, MAVEN et TACRED, chacun présentant des défis uniques pour l'apprentissage incrémental par classe.
Le processus d'évaluation implique deux paramètres clés :
- Les tâches de détection permettent au modèle de classer tous les tokens dans une phrase, déterminant si chaque token appartient à une catégorie apprise ou à la catégorie « Autre ».
- Les tâches de classification nécessitent que le modèle assigne une catégorie apprise à des entités ou événements candidats donnés sans prendre en compte la catégorie « Autre ».
En comparant la performance dans les tâches de détection et de classification, les chercheurs peuvent obtenir une compréhension complète de la façon dont les modèles gèrent l'oubli et la dérive de classificateur.
Aborder la performance et la dérive
Tout au long du processus d'évaluation, il a été constaté que la baseline Drifted-Bert-représentative des méthodes conventionnelles-souffre souvent de baisses significatives de performance à mesure que de nouvelles sessions sont introduites. En revanche, le cadre Ice montre une résilience, maintenant des niveaux de performance sur les classes précédemment apprises même lors de l'ajout de nouvelles classes.
Des résultats spécifiques indiquent que :
- La catégorie « Autre » aide à préserver les niveaux de performance, car avoir un logit variable pour cette catégorie encourage de meilleurs classificateurs.
- Introduire des exemples négatifs pendant l'entraînement peut servir de contraintes, ce qui atténue efficacement la dérive sans nécessiter d'anciens exemples.
- Geler les paramètres des classificateurs précédents peut parfois nuire à la performance, car cela peut ne pas traiter efficacement la dérive.
Conclusion sur l'apprentissage incrémental par classe
L'étude de l'apprentissage incrémental par classe et de la dérive de classificateur a révélé des insights importants sur la façon dont les modèles peuvent maintenir leur performance au fil du temps. En tirant parti d'un cadre qui permet des classificateurs individuels et une extraction de caractéristiques fixe, les chercheurs ont proposé des solutions efficaces au problème d'oubli inhérent aux méthodes traditionnelles.
Les découvertes soulignent l'importance de gérer la dérive de classificateur dans les contextes CIL, surtout avec des catégories évolutives. Les solutions proposées non seulement améliorent les méthodes existantes, mais ouvrent également la voie à de futures recherches en apprentissage continu, ce qui est crucial alors que les données et les besoins continuent de changer dans les applications réelles.
Une enquête plus approfondie sur l'ajustement des extracteurs de caractéristiques, l'exploration d'autres contextes d'apprentissage et le perfectionnement des méthodes existantes aidera à améliorer les capacités des modèles d'apprentissage incrémental par classe, garantissant qu'ils restent efficaces et robustes face au changement.
Titre: Teamwork Is Not Always Good: An Empirical Study of Classifier Drift in Class-incremental Information Extraction
Résumé: Class-incremental learning (CIL) aims to develop a learning system that can continually learn new classes from a data stream without forgetting previously learned classes. When learning classes incrementally, the classifier must be constantly updated to incorporate new classes, and the drift in decision boundary may lead to severe forgetting. This fundamental challenge, however, has not yet been studied extensively, especially in the setting where no samples from old classes are stored for rehearsal. In this paper, we take a closer look at how the drift in the classifier leads to forgetting, and accordingly, design four simple yet (super-) effective solutions to alleviate the classifier drift: an Individual Classifiers with Frozen Feature Extractor (ICE) framework where we individually train a classifier for each learning session, and its three variants ICE-PL, ICE-O, and ICE-PL&O which further take the logits of previously learned classes from old sessions or a constant logit of an Other class as a constraint to the learning of new classifiers. Extensive experiments and analysis on 6 class-incremental information extraction tasks demonstrate that our solutions, especially ICE-O, consistently show significant improvement over the previous state-of-the-art approaches with up to 44.7% absolute F-score gain, providing a strong baseline and insights for future research on class-incremental learning.
Auteurs: Minqian Liu, Lifu Huang
Dernière mise à jour: 2023-05-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.16559
Source PDF: https://arxiv.org/pdf/2305.16559
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.