Utiliser l'apprentissage automatique pour la classification des sujets dans les politiques allemandes
Cette étude évalue des modèles d'apprentissage automatique pour classifier des pages web liées aux politiques allemandes.
― 12 min lire
Table des matières
- Comprendre le besoin de classification
- Explorer les grands modèles de langage pour la classification de sujet
- Travaux connexes
- Apprentissage basé sur les caractéristiques et avancées récentes
- Examen de modèles pré-entraînés sur des textes allemands
- Apprentissage contextuel avec des modèles génératifs
- Processus de collecte et d'annotation des données
- Prétraitement des données pour un entraînement efficace
- Stratégies d'échantillonnage d'exemples Négatifs
- Évaluation de la classification supervisée
- Résultats de performance des Classifications zéro-shot et few-shot
- Réalisation d'une analyse manuelle des erreurs
- Conclusions et direction future
- Source originale
- Liens de référence
Les chercheurs en sciences politiques et sociales utilisent des modèles de classification pour analyser les tendances de consommation d'informations en étudiant les historiques de navigation de nombreuses pages web. Ils ont besoin de méthodes automatisées car étiqueter manuellement toutes ces données n'est pas pratique.
Dans ce travail, on se concentre sur la détection de Contenu lié à un sujet comme une tâche de classification binaire. On vérifie comment fonctionnent les modèles pré-entraînés ajustés par rapport aux stratégies d'apprentissage contextuel. En utilisant juste quelques centaines d'exemples étiquetés par sujet, on vise à identifier du contenu sur trois politiques allemandes spécifiques dans une collection de pages web récupérées. On compare des modèles multilingues à ceux qui ne comprennent que l'allemand et on examine comment différentes méthodes d'échantillonnage de données négatives influencent les résultats. On analyse aussi comment la combinaison des caractéristiques d'URL et de contenu impacte la classification.
Nos résultats indiquent qu'un petit échantillon de données étiquetées peut créer un classificateur efficace. L'ajustement des modèles basés sur des encodeurs a produit de meilleurs résultats que l'apprentissage contextuel. Les classificateurs qui utilisaient à la fois les caractéristiques d'URL et de contenu ont obtenu les meilleures performances, tandis que l'utilisation des URL seules a montré de bons résultats en cas d'absence de contenu.
Comprendre le besoin de classification
La classification de texte aide les chercheurs à comprendre comment les gens consomment l'information. En catégorisant de grandes collections d'historiques de navigation, ils peuvent identifier des motifs dans la consommation de nouvelles en ligne et mesurer l'exposition à des idées spécifiques, comme le populisme. Souvent, seule une petite partie des visites de pages web correspond à un sujet particulier, ce qui rend l'étiquetage manuel difficile. Pour cette raison, les classificateurs de machine learning deviennent une solution utile, automatisée et évolutive.
Avec l'essor de l'architecture transformer, l'ajustement de modèles de langage pré-entraînés est devenu standard pour la classification de texte. Les applications vont de l'analyse des opinions publiques sur des politiques à l'identification de contenu lié aux manifestations dans des articles de nouvelles. D'autres applications incluent l'analyse des sentiments sur les réseaux sociaux et la publicité. Pourtant, l'ajustement des classificateurs nécessite généralement des centaines à des milliers de documents étiquetés manuellement. Vu la nature diverse du web et les données désordonnées provenant du scraping, créer un bon ensemble d'entraînement est souvent difficile et prend beaucoup de temps.
Explorer les grands modèles de langage pour la classification de sujet
Dans cette étude, on se penche sur l'utilisation de grands modèles de langage (LLMs) pour la classification binaire de sujet à travers un ensemble de pages web récupérées. On teste notre méthode en identifiant les pages web qui fournissent des informations sur trois politiques allemandes spécifiques : (1) une politique pour lutter contre la pauvreté infantile, (2) la promotion des énergies renouvelables, et (3) des changements aux lois sur le cannabis. On évalue la précision de la classification entre les modèles de langue pré-entraînés multilingues et monolingues, en les ajustant avec des données étiquetées. On s'intéresse aussi aux modèles génératifs et on évalue comment les incitations peu ou pas d'exemples fonctionnent pour la classification de documents.
Travaux connexes
Les chercheurs en sciences politiques et sociales utilisent de plus en plus la classification par sujet pour filtrer de grandes collections de pages web. Cette tâche est souvent vue comme une classification binaire ou multiclass, où des segments de texte sont assignés à une ou plusieurs catégories prédéfinies. Jusqu'à récemment, les chercheurs se reposaient sur des méthodes traditionnelles comme les classificateurs naifs de Bayes et la régression logistique.
L'introduction des modèles BERT a ouvert de nouvelles chances d'améliorer la précision de classification. L'ajustement des modèles BERT a été utilisé pour classifier les opinions publiques sur des politiques et détecter du contenu lié aux manifestations dans des articles. D'autres recherches concernent l'utilisation des caractéristiques d'URL, du contenu extrait, et de divers types de données pour la classification de pages web.
Apprentissage basé sur les caractéristiques et avancées récentes
Historiquement, la classification de texte impliquait l'extraction de représentations vectorielles de texte et leur utilisation avec des classificateurs pour déterminer les étiquettes finales. Des techniques comme les machines à vecteurs de support et les modèles de Bayes naïfs, souvent avec des vecteurs TF-IDF basés sur la fréquence, étaient la norme. Récemment, des approches ont commencé à utiliser des méthodes comme Word2Vec et GloVe pour créer des représentations denses.
Les avancées récentes en classification de texte ont émergé avec des modèles comme BERT, utilisant des mécanismes d'attention et entraînés sur de grandes quantités de texte non étiqueté avant d'être ajustés pour des tâches spécifiques comme la classification de documents. Des modèles comme mBERT sont préparés sur des données dans plusieurs langues, tandis que XLM-RoBERTa est construit sur du texte provenant de nombreuses langues. L'ajustement de BERT implique généralement de remplacer la dernière couche par une tête de classification pour les prédictions finales.
Examen de modèles pré-entraînés sur des textes allemands
Beaucoup de recherches se sont concentrées sur des tâches de classification de texte spécifiquement pour l'allemand. Bien que toutes les études n'utilisent pas de modèles transformer pour la classification de texte allemand, beaucoup soulignent les avantages des modèles BERT dans ce domaine. DBMDZ BERT est similaire à BERT-base mais entraîné sur des segments allemands de certaines sources de données. GBERT surpasse d'autres variantes et utilise des données supplémentaires pour améliorer l'entraînement.
Apprentissage contextuel avec des modèles génératifs
De grands modèles génératifs comme FLAN, Mistral et LLaMa sont aussi basés sur des transformateurs mais utilisent des structures différentes pour générer des sorties. Ces modèles ont montré une grande adaptabilité à travers diverses tâches de PNL en incluant des instructions directement dans l'entrée, souvent accompagnées de quelques exemples étiquetés, supprimant ainsi le besoin de mises à jour de paramètres. Les modèles génératifs possèdent généralement des capacités multilingues, leur permettant de gérer différentes langues.
Alors que les réseaux neuronaux sont la meilleure option pour la classification de texte de nos jours, la recherche actuelle n'a toujours pas fait d'évaluation complète des LLMs pour trouver du contenu lié à des sujets sur des pages web allemandes. Cette étude vise à fournir une enquête approfondie sur cette lacune tout en la comparant à des méthodes traditionnelles.
Processus de collecte et d'annotation des données
On a collecté des traces de navigation dans le cadre d'un projet plus large où des participants ont pris part à une étude en ligne. Les participants ont été invités à trouver des informations sur trois sujets politiques. Pendant l'étude, ils ont visité de nombreuses URL uniques, et seules certaines ont été jugées pertinentes après vérification manuelle. Pour enrichir notre ensemble de données, on a ajouté plus d'URL en cherchant des politiques en ligne.
Les URL ont été récupérées en utilisant certains packages Python, et le contenu en texte brut a été extrait du HTML. On a manuellement étiqueté les données de chaque sujet avec des étiquettes indiquant si elles étaient pertinentes ou non. On a appliqué un processus de filtrage en plusieurs étapes pour affiner nos données, garantissant que seules les URL les plus pertinentes ont été intégrées dans notre ensemble de données final.
Après avoir récupéré et annoté les pages web, on a établi un ensemble de données de haute confiance composé de plusieurs pages web pertinentes pour chaque sujet et de nombreuses non pertinentes. On a aussi rassemblé des données supplémentaires avec des étiquettes de confiance plus faibles pour tester nos classificateurs dans des conditions réelles.
Prétraitement des données pour un entraînement efficace
On a détaillé les étapes de prétraitement pour organiser les ensembles de données pour l'entraînement et l'évaluation, y compris comment échantillonner des exemples et gérer des pages web plus longues. On a partitionné les ensembles de données en ensembles d'entraînement et de test, en s'assurant que seules les URL les plus fiables étaient utilisées.
Pour gérer le contexte d'entrée limité pour nos modèles, on a divisé le contenu des pages web en plus petites parties tout en veillant à garder leurs étiquettes originales. Pour nos expériences, on a utilisé différentes approches pour l'entraînement et le test afin d'évaluer la classification supervisée.
Négatifs
Stratégies d'échantillonnage d'exemplesOn a abordé le déséquilibre dans notre ensemble de données en examinant diverses méthodes pour l'échantillonnage d'exemples négatifs. On a testé l'échantillonnage aléatoire, où on sélectionnait simplement un certain nombre d'exemples négatifs, et l'échantillonnage stratifié, où on s'assurait d'une représentation équitable de différentes sources. On a aussi examiné l'échantillonnage basé sur des clusters, qui utilisait des vecteurs de documents pour grouper et échantillonner des exemples efficacement.
Évaluation de la classification supervisée
On a examiné plusieurs modèles encoders monolingues et multilingues qui ont été pré-entraînés sur des textes allemands. Pour l'ajustement, on a gardé les mêmes paramètres pour tous les modèles. On a entraîné des classificateurs utilisant juste des URL et ceux qui combinaient des URL avec du contenu.
Notre analyse a révélé que l'incorporation de contenu de pages web a considérablement amélioré la performance de classification. Globalement, les classificateurs ont mieux fonctionné en utilisant à la fois des caractéristiques d'URL et de contenu. Dans des situations sans contenu, les classificateurs basés sur les URL pouvaient encore performer de manière adéquate.
Classifications zéro-shot et few-shot
Résultats de performance desEn plus de la classification supervisée, on a aussi exploré la performance des méthodes zéro-shot et few-shot. On a constaté que les deux approches pouvaient donner de bons résultats, le meilleur modèle zéro-shot réalisant des scores impressionnants. Cependant, bien que les modèles génératifs aient montré du potentiel, ils ont généralement eu des performances inférieures à celles des classificateurs ajustés quand des données étiquetées étaient disponibles.
Réalisation d'une analyse manuelle des erreurs
Pour affiner davantage notre modèle, on a réalisé une analyse manuelle des erreurs, en examinant les pages web mal classées basées sur le classificateur le plus performant. En révisant ces malclassifications, on a identifié des domaines à améliorer, comme les problèmes avec les étiquettes et les traitements qui ont conduit à des catégorisations incorrectes.
On a classé plusieurs types d'erreurs commises par le classificateur, trouvant des cas où il a mal classé du contenu non pertinent ou a été induit en erreur par du contenu vague. On a reconnu que distinguer entre une faiblesse et une forte pertinence de sujet peut être difficile, surtout en s'appuyant sur des étiquettes au niveau des URL.
Conclusions et direction future
En résumé, notre étude a comparé des modèles d'encodeurs ajustés avec des stratégies d'apprentissage contextuel pour classifier du contenu lié à un sujet. Nos résultats suggèrent qu'avec quelques centaines d'exemples étiquetés, il est possible de trouver efficacement du contenu lié à des politiques allemandes spécifiques. On a observé que le modèle le plus performant a atteint un certain niveau de précision, mais la performance variait selon les sujets.
L'ajustement des modèles a montré de bons résultats quand évalué par rapport à des ensembles de données étiquetés de haute qualité, mais la performance a chuté sur des données de qualité inférieure. Néanmoins, les classificateurs utilisant du contenu de pages web ont généralement surpassé ceux n'utilisant que des URL. Notre analyse a souligné l'importance de raffiner nos données d'entraînement et d'introduire de meilleures méthodes pour distinguer le contenu pertinent.
Pour les travaux futurs, améliorer la précision pourrait impliquer un meilleur filtrage des échantillons non pertinents et la création d'un processus d'entraînement plus robuste. On voit aussi de la valeur dans le test de méthodes de prompting avancées pour améliorer le raisonnement dans les modèles génératifs. Enfin, on reconnaît le besoin d'une étiquetage basé sur le contenu précis pour traiter les biais présents dans les données au niveau des URL.
En conclusion, bien que notre recherche démontre le potentiel des méthodes de classification traditionnelles et plus récentes, il reste une opportunité significative pour des améliorations supplémentaires dans le domaine.
Titre: Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data
Résumé: Researchers in the political and social sciences often rely on classification models to analyze trends in information consumption by examining browsing histories of millions of webpages. Automated scalable methods are necessary due to the impracticality of manual labeling. In this paper, we model the detection of topic-related content as a binary classification task and compare the accuracy of fine-tuned pre-trained encoder models against in-context learning strategies. Using only a few hundred annotated data points per topic, we detect content related to three German policies in a database of scraped webpages. We compare multilingual and monolingual models, as well as zero and few-shot approaches, and investigate the impact of negative sampling strategies and the combination of URL & content-based features. Our results show that a small sample of annotated data is sufficient to train an effective classifier. Fine-tuning encoder-based models yields better results than in-context learning. Classifiers using both URL & content-based features perform best, while using URLs alone provides adequate results when content is unavailable.
Auteurs: Julian Schelb, Roberto Ulloa, Andreas Spitz
Dernière mise à jour: 2024-07-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.16516
Source PDF: https://arxiv.org/pdf/2407.16516
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://sharegpt.com
- https://pypi.org/project/requests/
- https://pypi.org/project/selectolax
- https://python.langchain.com/docs/modules/data_connection/document_transformers/
- https://python.langchain.com/docs/
- https://www.deepset.ai/german-bert
- https://github.com/julianschelb/Topic-Classification
- https://sanitygroup.com/
- https://luckyhemp.de
- https://buergergeld.org
- https://gutefrage.net/frage/chef-zahlt-bar-auf-die-hand-legal
- https://gutefrage.net/
- https://www.bmfsfj.de/bmfsfj/service/gesetze/gesetz-zur-einfuehrung-einer-kindergrundsicherung-und-zur-aenderung-weiterer-bestimmungen-bundeskindergrundsicherungsgesetz-bkg--230650
- https://www.bundesregierung.de/breg-de/schwerpunkte/klimaschutz/novelle-eeg-gesetz-2023-2023972
- https://www.bundesgesundheitsministerium.de/themen/cannabis/faq-cannabisgesetz
- https://www.bundesgesundheitsministerium.de/themen/
- https://tecson.de/heizoelpreise.html
- https://barth-wuppertal.de/warum-eine-neue-gasheizung-noch-sinn-macht
- https://kinder-grund-sicherung.de/impressum
- https://www.cdu.de/artikel/ganzheitliche-loesungen-statt-buerokratie
- https://leafly.de/
- https://solaridee.de/
- https://www.hwk-stuttgart.de/e-mobilitaet
- https://www.umweltbundesamt.de
- https://hartz4antrag.de/
- https://landkreisleipzig.de/pressemeldungen.html?pm_id=5477
- https://hartziv.org/
- https://leipzig.de/umwelt-und-verkehr
- https://www.fuehrungszeugnis.bund.de/ffwr
- https://loerrach-landkreis.de/
- https://www.lernstudio-barbarossa.de/regensburg
- https://www.biker-boarder.de/cannondale/2824204s.html
- https://kachelmannwetter.com/de/wetteranalyse/hessen
- https://swr.de/