Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Avancée de la classification de texte multi-label avec supervision faible

Une nouvelle méthode pour classifier des textes avec l'input des utilisateurs et une supervision faible.

― 4 min lire


Percée dans laPercée dans laclassification des textesdécouverte de labels efficace.Une nouvelle approche pour une
Table des matières

On se penche sur une nouvelle façon de classifier du texte, appelée classification de texte multi-label en monde ouvert avec supervision faible. Dans ce cas, un utilisateur donne une courte description de ce qu'il veut classifier, mais ne fournit pas de labels spécifiques. Même si certaines méthodes ont été essayées avant, elles ne fonctionnaient souvent qu'avec un seul label et ne s'alignent pas bien avec nos objectifs.

Nos Observations

On a remarqué deux choses principales :

  1. La plupart des documents ont une classe principale qui compose la majorité de leur contenu.
  2. Certains documents incluent des labels moins courants comme classe principale.

Sur la base de ces observations, on a utilisé la description de l'utilisateur pour demander à un grand modèle de langage (LLM) les principales Phrases clés de certains documents. Ensuite, on a regroupé ces phrases clés pour créer un ensemble de labels initiaux. Ensuite, on a utilisé un classificateur multi-label zéro-shot pour trouver des documents avec des scores prédits plus bas et on a revérifié leurs phrases clés pour trouver d'autres labels moins courants.

On a répété cette méthode pour construire un ensemble de labels plus large et on a réussi à créer un classificateur multi-label.

Méthodes et Cadre

Notre cadre est simple. L'utilisateur doit juste donner une brève description pour la tâche de classification. Dans un premier temps, on demande au LLM de trouver les phrases clés. Inclure des exemples dans la description aide le LLM à générer de meilleurs résultats.

  1. Construction de l'Espace de Labels Initial : On commence avec un sous-ensemble de documents et on les divise en plus petits morceaux pour mieux correspondre à ce que le LLM peut gérer. On demande ensuite au LLM d'identifier les principales phrases clés.

  2. Regroupement des Phrases Clés : On regroupe ces phrases clés car certaines peuvent signifier la même chose mais avoir l'air différentes. On choisit les phrases principales de chaque regroupement pour créer notre espace de labels initial.

  3. Amélioration de l'Espace de Labels : On utilise une méthode d'implication textuelle pour classifier chaque morceau de texte par rapport à tous les labels. Pour ceux qui ont des scores prédits plus bas, on rechecke leurs phrases clés pour trouver plus de labels cachés.

Ces étapes sont répétées jusqu'à ce qu'on construise un espace de labels complet.

Résultats et Découvertes

Nos expériences montrent que notre méthode couvre de manière significative les labels de vérité de terrain comparée aux méthodes traditionnelles. Par exemple, on a trouvé une amélioration de 40% en couverture des labels par rapport à d'autres méthodes. De plus, notre précision de classification était la meilleure parmi toutes les méthodes testées.

Importance Pratique

Ce travail est essentiel pour diverses applications réelles, comme étiqueter des produits dans des magasins en ligne. Souvent, il faut identifier plusieurs labels pour un produit sans savoir à l'avance quels labels devraient être. Notre méthode répond directement à ce défi.

Défis et Travaux Futurs

Malgré notre succès, on a encore des défis. Notamment, beaucoup de labels moins courants restent non découverts dans notre processus. Les futures recherches devraient se concentrer sur la capture de plus de ces labels moins courants et appliquer notre méthode à d'autres ensembles de données avec plus de labels.

Conclusion

En résumé, notre travail aborde un nouveau problème de classification de texte, où les utilisateurs fournissent peu d'informations. Notre cadre montre un potentiel pour construire un espace de labels utile et un classificateur capable de trouver à la fois des labels courants et moins courants efficacement. Avec un développement supplémentaire, on vise à améliorer notre capacité à découvrir et classifier des labels de texte avec précision.

Source originale

Titre: Open-world Multi-label Text Classification with Extremely Weak Supervision

Résumé: We study open-world multi-label text classification under extremely weak supervision (XWS), where the user only provides a brief description for classification objectives without any labels or ground-truth label space. Similar single-label XWS settings have been explored recently, however, these methods cannot be easily adapted for multi-label. We observe that (1) most documents have a dominant class covering the majority of content and (2) long-tail labels would appear in some documents as a dominant class. Therefore, we first utilize the user description to prompt a large language model (LLM) for dominant keyphrases of a subset of raw documents, and then construct a (initial) label space via clustering. We further apply a zero-shot multi-label classifier to locate the documents with small top predicted scores, so we can revisit their dominant keyphrases for more long-tail labels. We iterate this process to discover a comprehensive label space and construct a multi-label classifier as a novel method, X-MLClass. X-MLClass exhibits a remarkable increase in ground-truth label space coverage on various datasets, for example, a 40% improvement on the AAPD dataset over topic modeling and keyword extraction methods. Moreover, X-MLClass achieves the best end-to-end multi-label classification accuracy.

Auteurs: Xintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang

Dernière mise à jour: 2024-07-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.05609

Source PDF: https://arxiv.org/pdf/2407.05609

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires