Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Usare il Machine Learning per la classificazione dei temi nelle politiche tedesche

Questo studio valuta modelli di machine learning per classificare pagine web tedesche relative alle politiche.

― 9 leggere min


Machine Learning per ilMachine Learning per ilContenuto Politicotedesche.per le pagine web delle politicheAnalizzando modelli di classificazione
Indice

I ricercatori nelle scienze politiche e sociali usano modelli di Classificazione per analizzare le tendenze nel consumo di informazioni studiando le cronologie di navigazione di molte pagine web. Hanno bisogno di metodi automatizzati perché etichettare manualmente tutti questi dati non è pratico.

In questo lavoro, ci concentriamo sul rilevare contenuti correlati a un argomento come un compito di classificazione binaria. Verifichiamo quanto bene funzionano i modelli pre-addestrati e ottimizzati rispetto alle strategie di apprendimento in contesto. Usando solo qualche centinaio di esempi etichettati per argomento, puntiamo a identificare contenuti su tre politiche tedesche specifiche in una raccolta di pagine web scaricate. Confrontiamo modelli che comprendono più lingue con quelli che capiscono solo il tedesco, e analizziamo come diversi metodi di campionamento di dati Negativi influenzano i risultati. Guardiamo anche a come combinare le caratteristiche degli URL e il Contenuto influisce sulla classificazione.

I nostri risultati indicano che anche un piccolo campione di dati etichettati può creare un classificatore efficace. L'ottimizzazione dei modelli basati su encoder ha prodotto risultati migliori rispetto all'apprendimento in contesto. I classificatori che usavano sia le caratteristiche degli URL che il contenuto hanno ottenuto i risultati migliori, mentre l'uso solo degli URL ha mostrato buoni risultati quando il contenuto mancava.

Comprendere la Necessità della Classificazione

La classificazione del testo aiuta i ricercatori a capire come le persone consumano informazioni. Categorizing grandi collezioni di cronologie di navigazione consente di identificare schemi nel consumo di notizie online e misurare l'esposizione a idee specifiche, come il populismo. Spesso, solo una piccola parte delle visite alle pagine web si adatta a un argomento particolare, rendendo difficile l'etichettatura manuale. Per questo motivo, i classificatori di machine learning diventano una soluzione utile, automatizzata e scalabile.

Con l'ascesa dell'architettura dei trasformatori, l'ottimizzazione dei modelli di linguaggio pre-addestrati è diventata la norma per la classificazione del testo. Le applicazioni vanno dall'analisi delle opinioni pubbliche sulle politiche all'identificazione di contenuti legati a proteste negli articoli di notizie. Altre applicazioni includono analisi del sentiment sui social media e pubblicità. Eppure, ottimizzare i classificatori di solito richiede centinaia o migliaia di documenti etichettati manualmente. Data la diversità della rete e i dati disordinati ottenuti dal scraping, creare un buon set di addestramento è spesso difficile e richiede molto tempo.

Esplorare Modelli di Linguaggio Grandi per la Classificazione di Argomenti

In questo studio, esaminiamo l'uso di modelli di linguaggio grandi (LLMs) per la classificazione binaria di argomenti su un insieme di pagine web scaricate. Verifichiamo il nostro metodo identificando pagine web che forniscono informazioni su tre politiche tedesche specifiche: (1) una politica per combattere la povertà infantile, (2) promuovere le energie rinnovabili e (3) modifiche alle leggi sulla cannabis. Valutiamo l'accuratezza della classificazione tra modelli di linguaggio pre-addestrati multilingue e monolingue, adattandoli con dati etichettati. Esploriamo anche modelli generativi e valutiamo come funziona il prompting few-shot o zero-shot per la classificazione dei documenti.

Lavoro Correlato

I ricercatori nelle scienze politiche e sociali usano sempre di più la classificazione degli argomenti per filtrare grandi collezioni di pagine web. Questo compito è spesso visto come classificazione binaria o multiclasse, dove segmenti di testo vengono assegnati a una o più categorie predefinite. Fino a poco tempo fa, i ricercatori si affidavano a metodi tradizionali come i classificatori naive Bayes e la regressione logistica.

L'introduzione dei modelli BERT ha offerto nuove opportunità di miglioramento nell'accuratezza della classificazione. L'ottimizzazione dei modelli BERT è stata utilizzata per classificare opinioni pubbliche sulle politiche e rilevare contenuti legati a proteste negli articoli. Altre ricerche hanno riguardato l'uso delle caratteristiche degli URL, del contenuto estratto e di vari tipi di dati per la classificazione delle pagine web.

Apprendimento Basato su Caratteristiche e Progressi Recenti

Storicamente, la classificazione del testo comportava l'estrazione di rappresentazioni vettoriali del testo e il loro utilizzo con classificatori per determinare le etichette finali. Tecniche come le macchine a vettori di supporto e i modelli naive Bayes, spesso con vettori TF-IDF basati sulla frequenza, erano lo standard. Recentemente, gli approcci hanno iniziato a utilizzare metodi come Word2Vec e GloVe per creare rappresentazioni dense.

I recenti progressi nella classificazione del testo sono emersi con modelli come BERT, che utilizzano meccanismi di attenzione e sono addestrati su grandi quantità di testo non etichettato prima di essere ottimizzati per compiti specifici come la classificazione dei documenti. Modelli come mBERT sono preparati su dati in più lingue, mentre XLM-RoBERTa è costruito su testi di molte lingue. L'ottimizzazione di BERT comporta solitamente la sostituzione dell'ultimo strato con una testa di classificazione per le predizioni finali.

Esaminare Modelli Pre-addestrati su Testi Tedeschi

Molte ricerche si sono concentrate su compiti di classificazione del testo specificamente per il tedesco. Anche se non tutti gli studi utilizzano modelli transformer per la classificazione del testo tedesco, molti evidenziano i vantaggi dei modelli BERT in questo campo. DBMDZ BERT è simile a BERT-base ma addestrato su segmenti tedeschi di alcune fonti di dati. GBERT supera altre varianti e utilizza dati aggiuntivi per migliorare l'addestramento.

Apprendimento in Contesto con Modelli Generativi

Grandi modelli generativi come FLAN, Mistral e LLaMa sono anche basati su trasformatori ma utilizzano strutture diverse per generare output. Questi modelli hanno dimostrato una grande adattabilità in vari compiti di NLP includendo istruzioni direttamente nell'input, spesso insieme a qualche esempio etichettato, eliminando la necessità di aggiornamenti ai parametri. I modelli generativi possiedono generalmente alcune abilità multilingue, permettendo loro di gestire lingue diverse.

Sebbene le reti neurali siano le migliori opzioni per la classificazione del testo al giorno d'oggi, la ricerca attuale manca ancora di una valutazione completa degli LLMs per trovare contenuti correlati a un argomento sulle pagine web tedesche. Questo studio mira a fornire un'indagine approfondita su questa lacuna, confrontandola con metodi tradizionali.

Raccolta Dati e Processo di Annotazione

Abbiamo raccolto tracce di navigazione come parte di un progetto più ampio in cui i partecipanti hanno partecipato a uno studio online. I partecipanti sono stati istruiti a trovare informazioni su tre argomenti politici. Durante lo studio, hanno visitato molti URL unici, e solo alcuni sono stati ritenuti rilevanti dopo un controllo manuale. Per arricchire il nostro dataset, abbiamo aggiunto più URL cercando online politiche.

Gli URL sono stati estratti usando alcuni pacchetti Python, e il contenuto di testo semplice è stato estratto dall'HTML. Abbiamo etichettato manualmente i dati di ciascun argomento con etichette che indicano se erano rilevanti o meno. Abbiamo applicato un processo di filtraggio in più fasi per affinare i nostri dati, assicurandoci che solo gli URL più rilevanti entrassero nel nostro dataset finale.

Dopo aver estratto e annotato le pagine web, abbiamo creato un dataset ad alta fiducia composto da diverse pagine web rilevanti per ciascun argomento e molte non rilevanti. Abbiamo anche raccolto dati aggiuntivi con etichette di fiducia più bassa per testare i nostri classificatori in condizioni reali.

Preprocessing dei Dati per un Addestramento Efficace

Abbiamo dettagliato i passaggi di preprocessing per organizzare i dataset per l'addestramento e la valutazione, inclusi come campionare esempi e gestire pagine web più lunghe. Abbiamo suddiviso i dataset in set di addestramento e di test, assicurandoci di utilizzare solo gli URL più affidabili.

Per affrontare il contesto di input limitato per i nostri modelli, abbiamo diviso il contenuto delle pagine web in parti più piccole mantenendo traccia delle loro etichette originali. Per i nostri esperimenti, abbiamo adottato approcci diversi per l'addestramento e il test per valutare la classificazione supervisionata.

Strategie di Campionamento di Esempi Negativi

Abbiamo affrontato l'impatto del dataset sbilanciato esaminando vari metodi per il campionamento di esempi negativi. Abbiamo testato il campionamento casuale, dove semplicemente selezionavamo un certo numero di esempi negativi, e il campionamento stratificato, dove garantivamo una rappresentazione equa di diverse fonti. Abbiamo anche esaminato il campionamento basato su cluster, che utilizzava vettori di documenti per raggruppare e campionare esempi in modo efficace.

Valutazione della Classificazione Supervisionata

Abbiamo esaminato diversi modelli encoder monolingue e multilingue che sono stati pre-addestrati su testi tedeschi. Per l'ottimizzazione, abbiamo mantenuto gli stessi parametri tra tutti i modelli. Abbiamo addestrato classificatori che utilizzavano solo URL e quelli che combinavano URL con contenuto.

La nostra analisi ha rivelato che incorporare il contenuto delle pagine web migliorava significativamente le prestazioni della classificazione. Complessivamente, i classificatori hanno fatto meglio utilizzando sia le caratteristiche degli URL che del contenuto. In situazioni senza contenuto, i classificatori basati sugli URL potevano comunque eseguire in modo adeguato.

Risultati delle Prestazioni delle Classificazioni Zero-shot e Few-shot

Oltre alla classificazione supervisionata, abbiamo anche esplorato le prestazioni dei metodi zero-shot e few-shot. Abbiamo scoperto che entrambi gli approcci possono dare buoni risultati, con il miglior modello zero-shot che raggiunge punteggi impressionanti. Tuttavia, mentre i modelli generativi hanno mostrato promesse, generalmente hanno performato peggio dei classificatori ottimizzati quando erano disponibili dati etichettati.

Esecuzione di un'Analisi Manuale degli Errori

Per affinare ulteriormente il nostro modello, abbiamo condotto un'analisi manuale degli errori, esaminando le pagine web mal classificate in base al classificatore con le migliori prestazioni. Rivedendo queste mal classificazioni, abbiamo identificato aree di miglioramento, come problemi con le etichette e il processamento che hanno portato a categorizzazioni errate.

Abbiamo categorizzato diversi tipi di errori commessi dal classificatore, trovando casi in cui ha mal classificato contenuti irrilevanti o è stato fuorviato da contenuti vaghi. Abbiamo riconosciuto che distinguere tra rilevanza debole e forte dell'argomento può essere difficile, soprattutto quando ci si basa su etichette a livello di URL.

Conclusioni e Direzione Futura

In sintesi, il nostro studio ha confrontato modelli encoder ottimizzati con strategie di apprendimento in contesto per classificare contenuti correlati a un argomento. I nostri risultati suggeriscono che con qualche centinaio di esempi etichettati, è possibile trovare efficacemente contenuti legati a politiche tedesche specifiche. Abbiamo osservato che il modello con le migliori prestazioni ha raggiunto un certo livello di accuratezza, ma le prestazioni variavano a seconda dell'argomento.

L'ottimizzazione dei modelli ha mostrato risultati solidi quando valutata su dataset etichettati di alta qualità, ma le prestazioni sono diminuite su dati di bassa qualità. Tuttavia, i classificatori che utilizzavano il contenuto delle pagine web hanno generalmente superato quelli che utilizzavano solo URL. La nostra analisi ha evidenziato l'importanza di affinare i nostri dati di addestramento e introdurre metodi migliori per distinguere i contenuti rilevanti.

Per lavori futuri, migliorare la precisione potrebbe comportare un filtraggio migliore dei campioni irrilevanti e la creazione di un processo di addestramento più robusto. Vediamo anche valore nel testare metodi di prompting avanzati per migliorare il ragionamento nei modelli generativi. Infine, riconosciamo la necessità di un'etichettatura accurata basata sui contenuti per affrontare i pregiudizi presenti nei dati a livello di URL.

In conclusione, mentre la nostra ricerca dimostra il potenziale di metodi di classificazione sia tradizionali che più recenti, c'è ancora un'opportunità significativa per ulteriori miglioramenti nel campo.

Fonte originale

Titolo: Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data

Estratto: Researchers in the political and social sciences often rely on classification models to analyze trends in information consumption by examining browsing histories of millions of webpages. Automated scalable methods are necessary due to the impracticality of manual labeling. In this paper, we model the detection of topic-related content as a binary classification task and compare the accuracy of fine-tuned pre-trained encoder models against in-context learning strategies. Using only a few hundred annotated data points per topic, we detect content related to three German policies in a database of scraped webpages. We compare multilingual and monolingual models, as well as zero and few-shot approaches, and investigate the impact of negative sampling strategies and the combination of URL & content-based features. Our results show that a small sample of annotated data is sufficient to train an effective classifier. Fine-tuning encoder-based models yields better results than in-context learning. Classifiers using both URL & content-based features perform best, while using URLs alone provides adequate results when content is unavailable.

Autori: Julian Schelb, Roberto Ulloa, Andreas Spitz

Ultimo aggiornamento: 2024-07-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.16516

Fonte PDF: https://arxiv.org/pdf/2407.16516

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Link di riferimento

Articoli simili