Avanzando nella classificazione di testi multi-etichetta con supervisione debole
Un nuovo metodo per classificare testi con input dell'utente e supervisione debole.
― 3 leggere min
Indice
Stiamo esplorando un nuovo modo di classificare i testi chiamato classificazione multi-etichetta open-world con supervisione debole. In questo caso, un utente fornisce una breve descrizione di cosa vuole classificare ma non dà etichette specifiche. Anche se sono stati provati metodi in passato, di solito funzionavano solo con un'etichetta e non si adattavano bene ai nostri obiettivi.
Le nostre osservazioni
Abbiamo notato due cose principali:
- La maggior parte dei documenti ha una classe principale che costituisce gran parte del loro contenuto.
- Alcuni documenti includono etichette meno comuni come classe principale.
Basandoci su queste osservazioni, abbiamo usato la descrizione dell'utente per chiedere a un grande modello di linguaggio (LLM) le Frasi Chiave principali da alcuni documenti. Poi, abbiamo raggruppato queste frasi chiave per creare un insieme di etichette iniziali. Successivamente, abbiamo utilizzato un classificatore multi-etichetta zero-shot per trovare documenti con punteggi previsti più bassi e abbiamo guardato indietro alle loro frasi chiave per trovare altre etichette meno comuni.
Abbiamo ripetuto questo metodo per costruire un insieme più ampio di etichette e abbiamo creato con successo un classificatore multi-etichetta.
Metodi e framework
Il nostro framework è semplice. L'utente deve solo fornire una breve descrizione per il compito di classificazione. Nel primo passo, chiediamo all'LLM di trovare le frasi chiave. Includere esempi nella descrizione aiuta l'LLM a generare risultati migliori.
Costruzione dello spazio di etichette iniziali: Iniziamo con un sottoinsieme di documenti e li dividiamo in parti più piccole per adattarli meglio a ciò che l'LLM può gestire. Poi chiediamo all'LLM di identificare le frasi chiave principali.
Clustering delle frasi chiave: Raggruppiamo queste frasi chiave perché alcune potrebbero significare la stessa cosa ma apparire diverse. Selezioniamo le frasi principali da ciascun cluster per creare il nostro spazio di etichette iniziali.
Miglioramento dello spazio di etichette: Abbiamo utilizzato un metodo di implicazione testuale per classificare ogni pezzo di testo rispetto a tutte le etichette. Per quei pezzi con punteggi previsti più bassi, controlliamo di nuovo le loro frasi chiave per trovare altre etichette nascoste.
Questi passaggi vengono ripetuti fino a costruire uno spazio di etichette completo.
Risultati e scoperte
I nostri esperimenti mostrano che il nostro metodo copre significativamente le etichette reali rispetto ai metodi tradizionali. Ad esempio, abbiamo riscontrato un miglioramento del 40% nella copertura delle etichette rispetto ad altri metodi. Inoltre, la nostra accuratezza di classificazione è stata la migliore tra tutti i metodi testati.
Importanza pratica
Questo lavoro è fondamentale per varie applicazioni nella vita reale, come il tagging dei prodotti nei negozi online. Spesso, devi identificare più etichette per un prodotto senza sapere in anticipo quali dovrebbero essere. Il nostro metodo affronta direttamente questa sfida.
Sfide e lavoro futuro
Nonostante il nostro successo, abbiamo ancora delle sfide. In particolare, molte etichette meno comuni rimangono scoperte nel nostro processo. La futura ricerca dovrebbe concentrarsi sulla cattura di ulteriori etichette meno comuni e sull'applicazione del nostro metodo ad altri dataset con più etichette.
Conclusione
In sintesi, il nostro lavoro affronta un nuovo problema nella classificazione dei testi, dove gli utenti forniscono informazioni limitate. Il nostro framework mostra potenziale nel costruire uno spazio di etichette utile e un classificatore in grado di trovare sia etichette comuni che meno comuni in modo efficace. Con ulteriori sviluppi, miriamo a migliorare la nostra capacità di scoprire e classificare etichette testuali in modo accurato.
Titolo: Open-world Multi-label Text Classification with Extremely Weak Supervision
Estratto: We study open-world multi-label text classification under extremely weak supervision (XWS), where the user only provides a brief description for classification objectives without any labels or ground-truth label space. Similar single-label XWS settings have been explored recently, however, these methods cannot be easily adapted for multi-label. We observe that (1) most documents have a dominant class covering the majority of content and (2) long-tail labels would appear in some documents as a dominant class. Therefore, we first utilize the user description to prompt a large language model (LLM) for dominant keyphrases of a subset of raw documents, and then construct a (initial) label space via clustering. We further apply a zero-shot multi-label classifier to locate the documents with small top predicted scores, so we can revisit their dominant keyphrases for more long-tail labels. We iterate this process to discover a comprehensive label space and construct a multi-label classifier as a novel method, X-MLClass. X-MLClass exhibits a remarkable increase in ground-truth label space coverage on various datasets, for example, a 40% improvement on the AAPD dataset over topic modeling and keyword extraction methods. Moreover, X-MLClass achieves the best end-to-end multi-label classification accuracy.
Autori: Xintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang
Ultimo aggiornamento: 2024-07-08 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.05609
Fonte PDF: https://arxiv.org/pdf/2407.05609
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.