Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Améliorer la classification en monde ouvert avec des échantillons négatifs adaptatifs

Une nouvelle méthode pour améliorer la classification dans des catégories inconnues en utilisant des échantillons synthétiques.

― 9 min lire


Améliorer l'IA avec desAméliorer l'IA avec deséchantillons synthétiquesclassification dans les systèmes d'IA.Une nouvelle méthode pour une meilleure
Table des matières

La Classification en monde ouvert, c'est un truc super important en traitement du langage naturel, surtout pour des appli dans la vie réelle. Dans ce cas, des données qui tombent dans une catégorie "inconnue" apparaissent seulement pendant la phase de test. Ça complique la tâche pour construire des modèles qui peuvent reconnaître les catégories connues tout en identifiant quand des données appartiennent à une catégorie inconnue.

La plupart des modèles actuels galèrent parce qu'ils n'ont pas de données pour la catégorie inconnue pendant l'entraînement. En plus, ils n'ont pas de bonnes méthodes pour déterminer les bonnes frontières entre les catégories connues et inconnues.

Pour régler ce problème, on propose une nouvelle méthode appelée les échantillons négatifs adaptatifs (ANS). Cette méthode vise à produire des échantillons synthétiques efficaces de la catégorie inconnue pendant l'entraînement, sans avoir besoin de connaissances ou de jeux de données extérieurs.

Des recherches ont montré que l'utilisation de classificateurs binaires simples en plus peut améliorer les performances. Ces classificateurs peuvent tirer parti des échantillons négatifs générés et simplifier le processus de définition des limites par rapport aux méthodes précédentes.

Le Problème avec la Classification Traditionnelle

La classification standard part du principe que toutes les catégories potentielles attendues pendant le test sont déjà bien connues pendant l'entraînement. Ce n'est pas toujours vrai dans des situations réelles, comme pour la classification d'intentions de dialogue, où de nouvelles intentions peuvent surgir. Du coup, il est essentiel d'avoir un classificateur capable de dire si un échantillon appartient à une catégorie connue ou inconnue.

Cette situation est souvent appelée reconnaissance ouverte multi-classe. Il faut une frontière claire pour séparer les échantillons connus de ceux inconnus pendant la phase de test. Cependant, l'absence d'échantillons de catégorie inconnue durant l'entraînement complique encore plus les choses.

Les recherches récentes sur ce sujet se concentrent surtout sur deux approches. La première consiste à estimer des limites plus précises entre les catégories connues pour faire de la place à la catégorie inconnue. La seconde approche vise à améliorer la représentation des caractéristiques pour simplifier la recherche de frontière.

L'Approche des Échantillons Négatifs Adaptatifs

L'idée principale de la méthode ANS est de synthétiser des échantillons négatifs qui représentent efficacement la catégorie inconnue. Cela se fait via un processus qui ne dépend pas de jeux de données extérieurs ou de connaissances préalables.

Les échantillons négatifs sont générés de manière adaptative pour chaque catégorie connue afin de définir précisément les frontières de ces catégories. Une fois ces échantillons négatifs créés, ils sont utilisés pour entraîner des classificateurs binaires. Chaque catégorie connue a son propre classificateur, qui est formé pour reconnaitre si un échantillon donné appartient à cette catégorie connue ou pas.

Si un échantillon est identifié comme négatif par tous les classificateurs binaires, il est classé comme appartenant à la catégorie inconnue. Sinon, il est transmis au classificateur de catégorie connue pour une classification supplémentaire.

Contexte des Travaux Connus

Dans les méthodes traditionnelles, comme le Local Outlier Factor (LOF) et la Adaptive Decision Boundary (ADB), les chercheurs ont essayé d'ajuster les frontières de décision pour tenir compte de la catégorie ouverte. Bien que ces approches aient montré un certain succès, elles peuvent être freinées par la difficulté à définir des frontières précises ou à calibrer le seuil de décision de manière correcte.

D'autres méthodes ont tenté de renforcer la représentation des caractéristiques. Par exemple, DeepUnk et SEG ont ajouté des contraintes à l'espace de caractéristiques, tandis que d'autres modèles appliquent des techniques d'apprentissage contrastif pour améliorer les représentations. Il est important de noter que beaucoup de ces méthodes introduisent des échantillons négatifs de jeux de données extérieurs, qui ne sont pas toujours disponibles.

Face à ces limitations, l'ANS offre une approche nouvelle en générant des échantillons négatifs synthétiques sans dépendre d'autres jeux de données. Cela facilite la définition de la frontière de décision et améliore les performances de classification.

Le Cadre ANS

Le cadre ANS implique deux composants clés : la génération d'échantillons négatifs synthétiques et le système de classification binaire.

Pendant la phase d'entraînement, des échantillons connus de chaque catégorie sont utilisés pour créer un ensemble d'échantillons négatifs synthétiques. Cela se fait en générant des échantillons de manière à ce qu'ils ne soient pas trop proches des échantillons de catégorie connue ni trop éloignés. Ce placement minutieux aide à former une frontière claire pour la classification.

Chaque échantillon connu donne lieu à la création d'un ensemble d'échantillons synthétiques. L'objectif est de garantir que les classificateurs apprennent à distinguer précisément entre les catégories connues et les échantillons inconnus.

Lors de la phase d'inférence, si tous les classificateurs binaires identifient un échantillon comme négatif, il est marqué comme appartenant à la catégorie inconnue. Sinon, l'échantillon est passé au classificateur de catégorie connue pour être classé dans l'une des catégories connues.

Résultats et Expériences

Pour évaluer l'efficacité de l'approche ANS, des expériences ont été réalisées en utilisant trois jeux de données : Banking, CLINC et Stackoverflow. Ces jeux de données couvrent diverses intentions et catégories, ce qui les rend idéaux pour tester les modèles de classification en monde ouvert.

Les modèles ont été évalués en fonction de leur capacité à classer correctement les échantillons connus tout en identifiant correctement les échantillons inconnus. Les résultats ont montré des améliorations significatives par rapport aux méthodes actuelles de pointe.

Au fur et à mesure que la proportion de catégories connues augmentait, les performances globales du modèle s'amélioraient également. Cela suggère que plus on a d'échantillons connus, mieux on apprend à définir les limites pour la classification.

Les expériences ont révélé que les échantillons négatifs synthétisés sont essentiels et peuvent considérablement améliorer la précision de la classification. Même en comparaison avec des méthodes utilisant des jeux de données supplémentaires, l'ANS a montré des performances compétitives, notamment sur le jeu de données CLINC.

Importance des Échantillons Synthétiques

Les échantillons négatifs synthétisés jouent un rôle crucial dans l'amélioration des performances des modèles de classification. Ils agissent comme une forme d'augmentation de données, aidant les classificateurs à mieux apprendre les représentations des échantillons connus.

Quand les échantillons négatifs ont été ajoutés à divers modèles de base, des améliorations ont été observées dans l'ensemble. Cela souligne l'idée que les échantillons synthétisés peuvent vraiment aider à capturer avec précision les frontières des catégories connues.

Insights des Expériences

Les expériences ont aussi fourni des insights sur des aspects spécifiques du processus d'échantillonnage négatif adaptatif.

  1. Ajouter du bruit gaussien aux échantillons originaux a aidé à lutter contre le problème de trop de confiance dans les classificateurs. La bonne quantité de bruit a amélioré les résultats, tandis que trop de bruit a brouillé la distinction entre les catégories connues et inconnues.

  2. Contrainte des échantillons synthétisés à des limites spécifiques les a empêchés d'être trop proches ou trop éloignés des échantillons connus, améliorant la performance globale des classificateurs.

  3. Inclure une étape de montée de gradient a encore amélioré les résultats. Cette étape a permis au modèle de se concentrer sur les échantillons négatifs synthétiques les plus difficiles, renforçant ainsi la frontière de décision.

  4. Le choix du rayon-définissant à quelle distance ou proximité les négatifs synthétiques pouvaient être par rapport aux échantillons connus-avait un impact sur la performance. Un rayon soigneusement choisi a assuré une classification efficace sans submerger le modèle de bruit.

Conclusion

L'introduction de l'échantillonnage négatif adaptatif offre une solution prometteuse aux défis de la classification en monde ouvert. En générant des échantillons synthétiques qui représentent précisément les catégories inconnues, l'ANS permet aux classificateurs de distinguer plus efficacement les données connues des inconnues.

Cette approche a montré des améliorations substantielles en performance par rapport aux méthodes existantes et souligne la valeur des échantillons négatifs dans la définition de limites de décision claires. À mesure que la recherche dans ce domaine continue, cela ouvre de nouvelles possibilités pour des travaux futurs, y compris des applications potentielles dans d'autres tâches de traitement du langage naturel.

Les efforts visant à améliorer la capacité du modèle à gérer des données plus complexes et des textes plus longs seront essentiels pour faire évoluer cette recherche. Les résultats mettent en avant l'importance de développer des techniques robustes pour la classification en monde ouvert, capables de s'adapter à des paysages de données évolutifs et d'incorporer les retours des utilisateurs en temps réel.

L'exploration continue des techniques de génération d'échantillons synthétiques va probablement faire avancer le domaine et renforcer l'efficacité des systèmes de classification dans des applications pratiques, les rendant finalement plus fiables et précis dans divers scénarios réels.

Source originale

Titre: Open World Classification with Adaptive Negative Samples

Résumé: Open world classification is a task in natural language processing with key practical relevance and impact. Since the open or {\em unknown} category data only manifests in the inference phase, finding a model with a suitable decision boundary accommodating for the identification of known classes and discrimination of the open category is challenging. The performance of existing models is limited by the lack of effective open category data during the training stage or the lack of a good mechanism to learn appropriate decision boundaries. We propose an approach based on \underline{a}daptive \underline{n}egative \underline{s}amples (ANS) designed to generate effective synthetic open category samples in the training stage and without requiring any prior knowledge or external datasets. Empirically, we find a significant advantage in using auxiliary one-versus-rest binary classifiers, which effectively utilize the generated negative samples and avoid the complex threshold-seeking stage in previous works. Extensive experiments on three benchmark datasets show that ANS achieves significant improvements over state-of-the-art methods.

Auteurs: Ke Bai, Guoyin Wang, Jiwei Li, Sunghyun Park, Sungjin Lee, Puyang Xu, Ricardo Henao, Lawrence Carin

Dernière mise à jour: 2023-03-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.05581

Source PDF: https://arxiv.org/pdf/2303.05581

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires