Fortschrittliche Multi-Label Textklassifizierung mit schwacher Überwachung
Eine neue Methode zur Klassifizierung von Text mit Benutzereingaben und schwacher Überwachung.
― 3 min Lesedauer
Inhaltsverzeichnis
Wir schauen uns eine neue Methode zur Klassifizierung von Texten an, die offene Multi-Label-Textklassifikation mit schwacher Supervision heisst. Dabei gibt ein Nutzer eine kurze Beschreibung dessen, was er klassifizieren möchte, ohne spezifische Labels anzugeben. Einige Methoden wurden zwar schon vorher ausprobiert, haben aber meist nur mit einem Label funktioniert und passen nicht so gut zu unseren Zielen.
Unsere Beobachtungen
Wir haben zwei Hauptsachen bemerkt:
- Die meisten Dokumente haben eine Hauptklasse, die den Grossteil ihres Inhalts ausmacht.
- Bei manchen Dokumenten tauchen weniger häufige Labels als Hauptklasse auf.
Basierend auf diesen Beobachtungen haben wir die Beschreibung des Nutzers genutzt, um ein grosses Sprachmodell (LLM) nach den Hauptschlüsselphrasen aus einigen Dokumenten zu fragen. Dann haben wir diese Schlüsselphrasen gruppiert, um ein Set von Anfangslabels zu erstellen. Als Nächstes haben wir einen Zero-Shot-Multi-Label-Klassifizierer verwendet, um Dokumente mit niedrigeren Vorhersagewerten zu finden und haben deren Schlüsselphrasen nochmal angeschaut, um weitere weniger häufige Labels zu finden.
Wir haben diese Methode wiederholt, um ein breiteres Set von Labels aufzubauen und erfolgreich einen Multi-Label-Klassifizierer erstellt.
Methoden und Rahmen
Unser Rahmen ist einfach. Der Nutzer muss nur eine kurze Beschreibung für die Klassifikationsaufgabe geben. Im ersten Schritt fordern wir das LLM auf, die Schlüsselphrasen zu finden. Beispiele in der Beschreibung helfen dem LLM, bessere Ergebnisse zu erzeugen.
Aufbau des Anfangs-Labelraums: Wir starten mit einer Teilmenge von Dokumenten und teilen sie in kleinere Teile auf, damit sie besser zum LLM passen. Dann bitten wir das LLM, die Hauptschlüsselphrasen zu identifizieren.
Clustering der Schlüsselphrasen: Wir clustern diese Schlüsselphrasen, weil einige möglicherweise dasselbe bedeuten, aber unterschiedlich aussehen. Wir wählen die Hauptphrasen aus jedem Cluster aus, um unseren Anfangs-Labelraum zu erstellen.
Verbesserung des Labelraums: Wir haben eine Textverwandtschaftsmethode verwendet, um jedes Textstück gegen alle Labels zu klassifizieren. Für die Stücke mit niedrigeren Vorhersagewerten überprüfen wir erneut ihre Schlüsselphrasen, um weitere versteckte Labels zu finden.
Diese Schritte wiederholen wir, bis wir einen umfassenden Labelraum aufgebaut haben.
Ergebnisse und Erkenntnisse
Unsere Experimente zeigen, dass unsere Methode die tatsächlichen Labels im Vergleich zu traditionellen Methoden erheblich abdeckt. Zum Beispiel haben wir eine Verbesserung der Labelabdeckung um 40 % im Vergleich zu anderen Methoden festgestellt. Ausserdem war unsere Klassifikationsgenauigkeit die beste unter allen getesteten Methoden.
Praktische Bedeutung
Diese Arbeit ist wichtig für verschiedene reale Anwendungen, wie das Taggen von Produkten in Online-Shops. Oft muss man mehrere Labels für ein Produkt identifizieren, ohne vorher zu wissen, welche Labels das sein sollten. Unsere Methode geht direkt auf diese Herausforderung ein.
Herausforderungen und zukünftige Arbeiten
Trotz unseres Erfolgs haben wir immer noch Herausforderungen. Insbesondere bleiben viele weniger häufige Labels in unserem Prozess unentdeckt. Zukünftige Forschungen sollten sich darauf konzentrieren, mehr von diesen weniger häufigen Labels zu erfassen und unsere Methode auf andere Datensätze mit mehr Labels anzuwenden.
Fazit
Zusammenfassend beschäftigt sich unsere Arbeit mit einem neuen Problem in der Textklassifizierung, bei dem Nutzer begrenzte Informationen bereitstellen. Unser Rahmen zeigt Potenzial beim Aufbau eines nützlichen Labelraums und eines Klassifizierers, der sowohl gängige als auch weniger häufige Labels effektiv finden kann. Mit weiterer Entwicklung wollen wir unsere Fähigkeit verbessern, Textlabels genau zu entdecken und zu klassifizieren.
Titel: Open-world Multi-label Text Classification with Extremely Weak Supervision
Zusammenfassung: We study open-world multi-label text classification under extremely weak supervision (XWS), where the user only provides a brief description for classification objectives without any labels or ground-truth label space. Similar single-label XWS settings have been explored recently, however, these methods cannot be easily adapted for multi-label. We observe that (1) most documents have a dominant class covering the majority of content and (2) long-tail labels would appear in some documents as a dominant class. Therefore, we first utilize the user description to prompt a large language model (LLM) for dominant keyphrases of a subset of raw documents, and then construct a (initial) label space via clustering. We further apply a zero-shot multi-label classifier to locate the documents with small top predicted scores, so we can revisit their dominant keyphrases for more long-tail labels. We iterate this process to discover a comprehensive label space and construct a multi-label classifier as a novel method, X-MLClass. X-MLClass exhibits a remarkable increase in ground-truth label space coverage on various datasets, for example, a 40% improvement on the AAPD dataset over topic modeling and keyword extraction methods. Moreover, X-MLClass achieves the best end-to-end multi-label classification accuracy.
Autoren: Xintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang
Letzte Aktualisierung: 2024-07-08 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.05609
Quell-PDF: https://arxiv.org/pdf/2407.05609
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.