Maschinelles Lernen für die Themenklassifizierung in deutschen Richtlinien nutzen
Diese Studie bewertet maschinelle Lernmodelle zur Klassifizierung von deutschen politikbezogenen Webseiten.
― 9 min Lesedauer
Inhaltsverzeichnis
- Das Bedürfnis nach Klassifikation verstehen
- Grosse Sprachmodelle zur Themenklassifikation erkunden
- Verwandte Arbeiten
- Funktionsbasierte Lernen und aktuelle Fortschritte
- Modelle, die auf deutschen Texten vortrainiert wurden, untersuchen
- In-Context-Lernen mit generativen Modellen
- Datensammlung und Annotationsprozess
- Datenvorverarbeitung für effektives Training
- Strategien zur Stichprobenahme negativer Beispiele
- Bewertung der überwachten Klassifikation
- Leistungsergebnisse von Zero-Shot- und Few-Shot-Klassifikationen
- Durchführung einer manuellen Fehlanalyse
- Fazit und zukünftige Richtung
- Originalquelle
- Referenz Links
Forscher in den politischen und Sozialwissenschaften nutzen Klassifikationsmodelle, um Trends im Informationskonsum zu analysieren, indem sie die Browserverläufe vieler Webseiten untersuchen. Sie brauchen automatisierte Methoden, weil es nicht praktisch ist, all diese Daten manuell zu kennzeichnen.
In dieser Arbeit schauen wir uns die Erkennung von themenbezogenen Inhalten als binäre Klassifikationsaufgabe an. Wir prüfen, wie gut feinabgestimmte, vortrainierte Modelle im Vergleich zu In-Context-Lernstrategien funktionieren. Mit nur ein paar hundert gekennzeichneten Beispielen pro Thema wollen wir Inhalte zu drei bestimmten deutschen Politiken in einer Sammlung von gescrapten Webseiten identifizieren. Wir vergleichen Modelle, die mehrere Sprachen verstehen, mit solchen, die nur Deutsch verstehen, und schauen uns an, wie verschiedene Methoden zur Stichprobenahme von negativen Daten die Ergebnisse beeinflussen. Ausserdem untersuchen wir, wie die Kombination von URL-Features und Inhalten die Klassifikation beeinflusst.
Unsere Ergebnisse zeigen, dass selbst eine kleine Stichprobe von gekennzeichneten Daten einen effektiven Klassifikator erstellen kann. Das Feintuning der encoder-basierten Modelle ergab bessere Ergebnisse als In-Context-Lernen. Die Klassifikatoren, die sowohl URL-Features als auch Inhalte nutzten, waren die besten, während die Nutzung von URLs allein gute Ergebnisse zeigte, wenn Inhalte fehlten.
Das Bedürfnis nach Klassifikation verstehen
Textklassifikation hilft Forschern zu verstehen, wie Menschen Informationen konsumieren. Durch die Kategorisierung grosser Sammlungen von Browserverläufen können sie Muster im Online-Nachrichtenkonsum identifizieren und die Exposition gegenüber bestimmten Ideen, wie Populismus, messen. Oft passen nur kleine Teile der Webseitenbesuche zu einem bestimmten Thema, was manuelle Kennzeichnung schwierig macht. Aus diesem Grund werden maschinelle Lernklassifikatoren zu einer nützlichen, automatisierten und skalierbaren Lösung.
Mit dem Aufkommen der Transformer-Architektur wurde das Feintuning vortrainierter Sprachmodelle zum Standard für die Textklassifikation. Die Anwendungen reichen von der Analyse öffentlicher Meinungen zu politischen Themen bis hin zur Identifizierung von protestbezogenen Inhalten in Nachrichtenartikeln. Weitere Anwendungen umfassen die Sentiment-Analyse in sozialen Medien und Werbung. Allerdings benötigt das Feintuning von Klassifikatoren normalerweise Hunderte bis Tausende von manuell gekennzeichneten Dokumenten. Aufgrund der vielfältigen Natur des Webs und der unordentlichen Daten von Scraping ist es oft schwierig und zeitaufwendig, ein gutes Trainingsset zu erstellen.
Grosse Sprachmodelle zur Themenklassifikation erkunden
In dieser Studie untersuchen wir die Verwendung grosser Sprachmodelle (LLMs) für die binäre Themenklassifikation über eine Sammlung von gescrapten Webseiten. Wir prüfen unsere Methode, indem wir Webseiten identifizieren, die Informationen zu drei spezifischen deutschen Politiken bieten: (1) eine Politik zur Bekämpfung von Kinderarmut, (2) Förderung erneuerbarer Energien und (3) Änderungen der Cannabergesetze. Wir bewerten die Genauigkeit der Klassifikation zwischen mehrsprachigen und einsprachigen vortrainierten Sprachmodellen und passen sie mit gekennzeichneten Daten an. Ausserdem schauen wir uns generative Modelle an und bewerten, wie gut Few-Shot- oder Zero-Shot-Prompting für die Dokumentklassifikation funktioniert.
Verwandte Arbeiten
Forscher in den politischen und Sozialwissenschaften nutzen zunehmend die Themenklassifikation, um grosse Sammlungen von Webseiten zu filtern. Diese Aufgabe wird oft als binäre oder Mehrklassenklassifikation betrachtet, bei der Textsegmente einer oder mehreren vordefinierten Kategorien zugeordnet werden. Bis vor kurzem stützten sich Forscher auf traditionelle Methoden wie naive Bayes-Klassifikatoren und logistische Regression.
Die Einführung von BERT-Modellen eröffnete neue Chancen zur Verbesserung der Klassifikationsgenauigkeit. Das Feintuning von BERT-Modellen wurde genutzt, um öffentliche Meinungen zu politischen Themen zu klassifizieren und protestbezogene Inhalte in Artikeln zu erkennen. Weitere Forschungen behandeln die Verwendung von URL-Features, extrahierten Inhalten und verschiedenen Datentypen für die Webseitenklassifikation.
Funktionsbasierte Lernen und aktuelle Fortschritte
Historisch betrachtete die Textklassifikation die Extraktion von Vektor-Darstellungen des Textes und verwendete sie mit Klassifikatoren, um die Endlabels festzulegen. Techniken wie Support Vector Machines und naive Bayes-Modelle, oft mit frequenzbasierten TF-IDF-Vektoren, waren der Standard. In letzter Zeit begannen Ansätze, Methoden wie Word2Vec und GloVe zu verwenden, um dichte Darstellungen zu erstellen.
Jüngste Fortschritte in der Textklassifikation kamen mit Modellen wie BERT, die Aufmerksamkeitsmechanismen verwenden und auf grossen Mengen unlabeled Text trainiert wurden, bevor sie für spezifische Aufgaben wie die Dokumentklassifikation feingetunt werden. Modelle wie mBERT sind auf Daten in mehreren Sprachen vorbereitet, während XLM-RoBERTa auf Text aus vielen Sprachen aufbaut. Das Feintuning von BERT umfasst normalerweise den Austausch der letzten Schicht durch einen Klassifikationskopf für endgültige Vorhersagen.
Modelle, die auf deutschen Texten vortrainiert wurden, untersuchen
Viele Forschungen haben sich auf Textklassifikationsaufgaben spezialisiert, die speziell für Deutsch gedacht sind. Obwohl nicht alle Studien Transformer-Modelle für die deutsche Textklassifikation verwenden, heben viele die Vorteile von BERT-Modellen in diesem Bereich hervor. DBMDZ BERT ist ähnlich wie BERT-base, wurde aber auf deutschen Segmenten bestimmter Datenquellen trainiert. GBERT übertrifft andere Varianten und nutzt zusätzliche Daten, um das Training zu verbessern.
In-Context-Lernen mit generativen Modellen
Grosse generative Modelle wie FLAN, Mistral und LLaMa sind ebenfalls transformerbasiert, verwenden jedoch unterschiedliche Strukturen zur Generierung von Ausgaben. Diese Modelle haben sich in verschiedenen NLP-Aufgaben als sehr anpassungsfähig gezeigt, indem sie Anweisungen direkt in die Eingabe einfügten, oft zusammen mit ein paar gekennzeichneten Beispielen, wodurch die Notwendigkeit von Parameteraktualisierungen entfällt. Generative Modelle besitzen in der Regel einige mehrsprachige Fähigkeiten, die es ihnen ermöglichen, mit verschiedenen Sprachen umzugehen.
Obwohl neuronale Netzwerke heutzutage die beste Option für die Textklassifikation sind, fehlt es in der aktuellen Forschung immer noch an einer umfassenden Bewertung von LLMs zur Auffindung themenbezogener Inhalte auf deutschen Webseiten. Diese Studie zielt darauf ab, eine gründliche Untersuchung in dieser Lücke bereitzustellen und sie mit traditionellen Methoden zu vergleichen.
Datensammlung und Annotationsprozess
Wir haben Browserverläufe im Rahmen eines grösseren Projekts gesammelt, bei dem Teilnehmer an einer Online-Studie teilgenommen haben. Die Teilnehmer wurden angewiesen, Informationen zu drei politischen Themen zu finden. Während der Studie besuchten sie viele einzigartige URLs, und nur einige davon wurden nach manueller Überprüfung als relevant eingestuft. Um unser Dataset zu bereichern, haben wir weitere URLs gesucht, indem wir online nach politischen Themen gesucht haben.
Die URLs wurden mit bestimmten Python-Paketen gescrapt, und der normale Textinhalt wurde aus dem HTML extrahiert. Wir haben die Daten jedes Themas manuell mit Labels getaggt, die angaben, ob sie relevant oder nicht relevant waren. Wir haben einen mehrstufigen Filterprozess angewendet, um unsere Daten zu verfeinern und sicherzustellen, dass nur die relevantesten URLs in unser endgültiges Dataset aufgenommen wurden.
Nach dem Scraping und der Annotation der Webseiten haben wir ein hochkonfidenzielles Dataset erstellt, das aus mehreren relevanten Webseiten für jedes Thema und vielen nicht relevanten bestand. Wir haben auch zusätzliche Daten mit niedrigeren Vertrauenslabels gesammelt, um unsere Klassifikatoren unter realen Bedingungen zu testen.
Datenvorverarbeitung für effektives Training
Wir haben die Schritte zur Vorverarbeitung detailliert beschrieben, um die Datensätze für das Training und die Bewertung zu organisieren, einschliesslich der Methoden zur Stichprobenahme und zum Umgang mit längeren Webseiten. Wir haben die Datensätze in Trainings- und Testsets partitioniert und dabei sichergestellt, dass nur die zuverlässigsten URLs verwendet wurden.
Um mit dem begrenzten Eingabekontext für unsere Modelle umzugehen, haben wir den Inhalt der Webseiten in kleinere Teile unterteilt, wobei wir darauf geachtet haben, ihre ursprünglichen Labels im Auge zu behalten. Für unsere Experimente haben wir verschiedene Ansätze für das Training und die Tests verwendet, um die überwachte Klassifikation zu bewerten.
Strategien zur Stichprobenahme negativer Beispiele
Wir haben das Ungleichgewicht in unserem Dataset angegangen, indem wir verschiedene Methoden zur Stichprobenahme negativer Beispiele untersucht haben. Wir haben zufällige Stichproben getestet, bei denen wir einfach eine Anzahl negativer Beispiele ausgewählt haben, und stratifizierte Stichproben, bei denen wir eine faire Repräsentation unterschiedlicher Quellen sichergestellt haben. Ausserdem haben wir clusterbasierte Stichproben geprüft, die Dokumentenvektoren verwendeten, um Beispiele effektiv zu gruppieren und auszuwählen.
Bewertung der überwachten Klassifikation
Wir haben mehrere einsprachige und mehrsprachige Encoder-Modelle untersucht, die auf deutschen Texten vortrainiert wurden. Für das Feintuning haben wir die Parameter bei allen Modellen gleich gehalten. Wir haben Klassifikatoren trainiert, die nur URLs verwendeten, und solche, die URLs mit Inhalten kombinierten.
Unsere Analyse hat gezeigt, dass die Einbeziehung von Webseiteninhalten die Klassifikationsleistung erheblich verbesserte. Insgesamt schnitten die Klassifikatoren am besten ab, als sie sowohl URL- als auch Inhaltsmerkmale verwendeten. In Situationen ohne Inhalte konnten URL-Klassifizierer dennoch angemessen abschneiden.
Leistungsergebnisse von Zero-Shot- und Few-Shot-Klassifikationen
Neben der überwachten Klassifikation haben wir auch die Leistung von Zero-Shot- und Few-Shot-Methoden erkundet. Wir fanden heraus, dass beide Ansätze gute Ergebnisse liefern konnten, wobei das beste Zero-Shot-Modell beeindruckende Werte erzielte. Obwohl generative Modelle vielversprechend waren, schnitten sie im Allgemeinen schlechter ab als feinabgestimmte Klassifikatoren, wenn gekennzeichnete Daten zur Verfügung standen.
Durchführung einer manuellen Fehlanalyse
Um unser Modell weiter zu verfeinern, haben wir eine manuelle Fehlanalyse durchgeführt, bei der wir falsch klassifizierte Webseiten anhand des am besten abschneidenden Klassifikators untersucht haben. Durch die Überprüfung dieser Fehlklassifikationen haben wir Verbesserungsmöglichkeiten identifiziert, wie zum Beispiel Probleme mit Labels und Prozessen, die zu falschen Kategorisierungen führten.
Wir haben mehrere Arten von Fehlern kategorisiert, die der Klassifikator gemacht hat, und dabei Fälle gefunden, in denen er irrelevante Inhalte falsch klassifizierte oder von vagen Inhalten in die Irre geführt wurde. Wir haben erkannt, dass es schwierig sein kann, zwischen schwacher und starker Themenrelevanz zu unterscheiden, insbesondere wenn man sich auf URL-Level-Labels verlässt.
Fazit und zukünftige Richtung
Zusammenfassend lässt sich sagen, dass unsere Studie feinabgestimmte Encoder-Modelle mit In-Context-Lernstrategien zur Klassifizierung themenbezogener Inhalte verglichen hat. Unsere Ergebnisse deuten darauf hin, dass es mit ein paar hundert gekennzeichneten Beispielen möglich ist, effektiv Inhalte zu finden, die mit bestimmten deutschen Politiken verbunden sind. Wir haben beobachtet, dass das am besten abschneidende Modell ein gewisses Mass an Genauigkeit erreichte, die Leistung aber je nach Thema variierte.
Feintuning-Modelle zeigten starke Ergebnisse, wenn sie gegen qualitativ hochwertige, gekennzeichnete Datensätze bewertet wurden, aber die Leistung sank bei weniger hochwertigen Daten. Dennoch übertrafen Klassifikatoren, die Webseiteninhalte verwendeten, in der Regel diejenigen, die nur URLs verwendeten. Unsere Analyse hob die Bedeutung der Verfeinerung unserer Trainingsdaten und der Einführung besserer Methoden zur Unterscheidung relevanter Inhalte hervor.
Für die zukünftige Arbeit könnte eine Verbesserung der Präzision durch besseres Filtern irrelevanter Proben und die Schaffung eines robusteren Trainingsprozesses erreicht werden. Wir sehen auch Wert darin, fortgeschrittene Prompting-Methoden zu testen, um das Denken in generativen Modellen zu verbessern. Schliesslich erkennen wir die Notwendigkeit einer genauen inhaltsbasierten Kennzeichnung, um Vorurteile in URL-Level-Daten zu adressieren.
Zusammenfassend lässt sich sagen, dass unsere Forschung das Potenzial sowohl traditioneller als auch neuerer Klassifikationsmethoden zeigt, aber es bleibt eine bedeutende Möglichkeit für weitere Verbesserungen in diesem Bereich.
Titel: Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data
Zusammenfassung: Researchers in the political and social sciences often rely on classification models to analyze trends in information consumption by examining browsing histories of millions of webpages. Automated scalable methods are necessary due to the impracticality of manual labeling. In this paper, we model the detection of topic-related content as a binary classification task and compare the accuracy of fine-tuned pre-trained encoder models against in-context learning strategies. Using only a few hundred annotated data points per topic, we detect content related to three German policies in a database of scraped webpages. We compare multilingual and monolingual models, as well as zero and few-shot approaches, and investigate the impact of negative sampling strategies and the combination of URL & content-based features. Our results show that a small sample of annotated data is sufficient to train an effective classifier. Fine-tuning encoder-based models yields better results than in-context learning. Classifiers using both URL & content-based features perform best, while using URLs alone provides adequate results when content is unavailable.
Autoren: Julian Schelb, Roberto Ulloa, Andreas Spitz
Letzte Aktualisierung: 2024-07-23 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.16516
Quell-PDF: https://arxiv.org/pdf/2407.16516
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://sharegpt.com
- https://pypi.org/project/requests/
- https://pypi.org/project/selectolax
- https://python.langchain.com/docs/modules/data_connection/document_transformers/
- https://python.langchain.com/docs/
- https://www.deepset.ai/german-bert
- https://github.com/julianschelb/Topic-Classification
- https://sanitygroup.com/
- https://luckyhemp.de
- https://buergergeld.org
- https://gutefrage.net/frage/chef-zahlt-bar-auf-die-hand-legal
- https://gutefrage.net/
- https://www.bmfsfj.de/bmfsfj/service/gesetze/gesetz-zur-einfuehrung-einer-kindergrundsicherung-und-zur-aenderung-weiterer-bestimmungen-bundeskindergrundsicherungsgesetz-bkg--230650
- https://www.bundesregierung.de/breg-de/schwerpunkte/klimaschutz/novelle-eeg-gesetz-2023-2023972
- https://www.bundesgesundheitsministerium.de/themen/cannabis/faq-cannabisgesetz
- https://www.bundesgesundheitsministerium.de/themen/
- https://tecson.de/heizoelpreise.html
- https://barth-wuppertal.de/warum-eine-neue-gasheizung-noch-sinn-macht
- https://kinder-grund-sicherung.de/impressum
- https://www.cdu.de/artikel/ganzheitliche-loesungen-statt-buerokratie
- https://leafly.de/
- https://solaridee.de/
- https://www.hwk-stuttgart.de/e-mobilitaet
- https://www.umweltbundesamt.de
- https://hartz4antrag.de/
- https://landkreisleipzig.de/pressemeldungen.html?pm_id=5477
- https://hartziv.org/
- https://leipzig.de/umwelt-und-verkehr
- https://www.fuehrungszeugnis.bund.de/ffwr
- https://loerrach-landkreis.de/
- https://www.lernstudio-barbarossa.de/regensburg
- https://www.biker-boarder.de/cannondale/2824204s.html
- https://kachelmannwetter.com/de/wetteranalyse/hessen
- https://swr.de/