Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Avanzando nella classificazione di testi multi-etichetta con supervisione debole

Un nuovo metodo per classificare testi con input dell'utente e supervisione debole.

― 3 leggere min


Svolta nellaSvolta nellaclassificazione dei testiefficace delle etichette.Un nuovo approccio per una scoperta
Indice

Stiamo esplorando un nuovo modo di classificare i testi chiamato classificazione multi-etichetta open-world con supervisione debole. In questo caso, un utente fornisce una breve descrizione di cosa vuole classificare ma non dà etichette specifiche. Anche se sono stati provati metodi in passato, di solito funzionavano solo con un'etichetta e non si adattavano bene ai nostri obiettivi.

Le nostre osservazioni

Abbiamo notato due cose principali:

  1. La maggior parte dei documenti ha una classe principale che costituisce gran parte del loro contenuto.
  2. Alcuni documenti includono etichette meno comuni come classe principale.

Basandoci su queste osservazioni, abbiamo usato la descrizione dell'utente per chiedere a un grande modello di linguaggio (LLM) le Frasi Chiave principali da alcuni documenti. Poi, abbiamo raggruppato queste frasi chiave per creare un insieme di etichette iniziali. Successivamente, abbiamo utilizzato un classificatore multi-etichetta zero-shot per trovare documenti con punteggi previsti più bassi e abbiamo guardato indietro alle loro frasi chiave per trovare altre etichette meno comuni.

Abbiamo ripetuto questo metodo per costruire un insieme più ampio di etichette e abbiamo creato con successo un classificatore multi-etichetta.

Metodi e framework

Il nostro framework è semplice. L'utente deve solo fornire una breve descrizione per il compito di classificazione. Nel primo passo, chiediamo all'LLM di trovare le frasi chiave. Includere esempi nella descrizione aiuta l'LLM a generare risultati migliori.

  1. Costruzione dello spazio di etichette iniziali: Iniziamo con un sottoinsieme di documenti e li dividiamo in parti più piccole per adattarli meglio a ciò che l'LLM può gestire. Poi chiediamo all'LLM di identificare le frasi chiave principali.

  2. Clustering delle frasi chiave: Raggruppiamo queste frasi chiave perché alcune potrebbero significare la stessa cosa ma apparire diverse. Selezioniamo le frasi principali da ciascun cluster per creare il nostro spazio di etichette iniziali.

  3. Miglioramento dello spazio di etichette: Abbiamo utilizzato un metodo di implicazione testuale per classificare ogni pezzo di testo rispetto a tutte le etichette. Per quei pezzi con punteggi previsti più bassi, controlliamo di nuovo le loro frasi chiave per trovare altre etichette nascoste.

Questi passaggi vengono ripetuti fino a costruire uno spazio di etichette completo.

Risultati e scoperte

I nostri esperimenti mostrano che il nostro metodo copre significativamente le etichette reali rispetto ai metodi tradizionali. Ad esempio, abbiamo riscontrato un miglioramento del 40% nella copertura delle etichette rispetto ad altri metodi. Inoltre, la nostra accuratezza di classificazione è stata la migliore tra tutti i metodi testati.

Importanza pratica

Questo lavoro è fondamentale per varie applicazioni nella vita reale, come il tagging dei prodotti nei negozi online. Spesso, devi identificare più etichette per un prodotto senza sapere in anticipo quali dovrebbero essere. Il nostro metodo affronta direttamente questa sfida.

Sfide e lavoro futuro

Nonostante il nostro successo, abbiamo ancora delle sfide. In particolare, molte etichette meno comuni rimangono scoperte nel nostro processo. La futura ricerca dovrebbe concentrarsi sulla cattura di ulteriori etichette meno comuni e sull'applicazione del nostro metodo ad altri dataset con più etichette.

Conclusione

In sintesi, il nostro lavoro affronta un nuovo problema nella classificazione dei testi, dove gli utenti forniscono informazioni limitate. Il nostro framework mostra potenziale nel costruire uno spazio di etichette utile e un classificatore in grado di trovare sia etichette comuni che meno comuni in modo efficace. Con ulteriori sviluppi, miriamo a migliorare la nostra capacità di scoprire e classificare etichette testuali in modo accurato.

Fonte originale

Titolo: Open-world Multi-label Text Classification with Extremely Weak Supervision

Estratto: We study open-world multi-label text classification under extremely weak supervision (XWS), where the user only provides a brief description for classification objectives without any labels or ground-truth label space. Similar single-label XWS settings have been explored recently, however, these methods cannot be easily adapted for multi-label. We observe that (1) most documents have a dominant class covering the majority of content and (2) long-tail labels would appear in some documents as a dominant class. Therefore, we first utilize the user description to prompt a large language model (LLM) for dominant keyphrases of a subset of raw documents, and then construct a (initial) label space via clustering. We further apply a zero-shot multi-label classifier to locate the documents with small top predicted scores, so we can revisit their dominant keyphrases for more long-tail labels. We iterate this process to discover a comprehensive label space and construct a multi-label classifier as a novel method, X-MLClass. X-MLClass exhibits a remarkable increase in ground-truth label space coverage on various datasets, for example, a 40% improvement on the AAPD dataset over topic modeling and keyword extraction methods. Moreover, X-MLClass achieves the best end-to-end multi-label classification accuracy.

Autori: Xintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang

Ultimo aggiornamento: 2024-07-08 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.05609

Fonte PDF: https://arxiv.org/pdf/2407.05609

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili