Progressi nella classificazione dei generi di notizie
La ricerca si concentra sulla classificazione di articoli di notizie in più lingue tramite l'apprendimento automatico.
― 6 leggere min
Indice
- La Sfida
- Imbalance nei Dati
- Approcci per l'Addestramento del Modello
- Transizione ai Modelli multilingue
- Metodi di Ottimizzazione
- Metodologia
- Risultati degli Approcci Tradizionali
- Prestazioni degli Approcci Multilingue
- Importanza dei Pesi dei campioni e delle Classi
- Valutazione dell'Efficacia del Modello
- Analisi degli Errori
- Risultati Finali
- Conclusione
- Fonte originale
- Link di riferimento
Negli ultimi anni, capire le notizie online è diventato sempre più importante mentre il panorama dei media evolve. I ricercatori stanno cercando modi per identificare automaticamente il genere degli articoli di notizie, come vengono inquadrati e le tecniche usate per convincere i lettori. È particolarmente complicato perché le diverse lingue e stili possono rendere difficile analizzare i contenuti delle notizie in modo efficace. È stato avviato un progetto per indagare come affrontare questi problemi attraverso una combinazione di tecniche di machine learning, concentrandosi sia su approcci monolingue che multilingue.
La Sfida
Il compito prevedeva di rilevare diversi generi di notizie, tecniche di inquadramento e metodi persuasivi in diverse lingue, tra cui inglese, francese, tedesco, italiano, polacco e russo. Inoltre, sono state incluse spagnolo, greco e georgiano per vedere se il sistema potesse comunque funzionare senza una formazione precedente su queste lingue. Una sfida chiave era l'imbalncio nei dati di addestramento. Ad esempio, in una categoria etichettata "satira," c'erano solo 87 campioni rispetto a 878 per "opinione," rendendo difficile per i modelli imparare in modo efficace.
Imbalance nei Dati
Il problema dell'imbalance nei dati significava che i modelli spesso si concentravano sui gruppi più grandi, trascurando quelli più piccoli. Con un totale di 1.234 campioni in uno dei compiti, semplicemente non c'erano abbastanza punti dati per addestrare correttamente un modello di deep learning. Per affrontare questo, sono state considerate varie metodologie per regolare i dati di addestramento, permettendo al modello di prestare più attenzione alle categorie minoritarie.
Approcci per l'Addestramento del Modello
Inizialmente, sono stati usati metodi di machine learning tradizionali, concentrandosi su lingue singole. Questi approcci funzionavano meglio quando il set di addestramento era piccolo. Sono state esplorate tecniche che utilizzano vettori TF-IDF insieme a classificatori come la regressione logistica e la foresta casuale. Sono stati introdotti anche metodi di deep learning, utilizzando modelli come CNN e RNN. Tuttavia, a causa della quantità limitata di dati, questi modelli complessi a volte portavano a overfitting, dove diventavano troppo addestrati sui dati di addestramento ma si comportavano male su dati nuovi e non visti.
Transizione ai Modelli multilingue
Per migliorare le prestazioni, è stato adottato un modello multilingue chiamato XLM-RoBERTa. Questo modello era progettato per gestire più lingue contemporaneamente ed è stato ottimizzato per apprendere caratteristiche comuni tra le lingue. Regolando attentamente i pesi assegnati a diverse classi nei dati di addestramento, il modello era meglio attrezzato per affrontare l'imbalance nei dati.
Metodi di Ottimizzazione
Sono state testate due strategie per ottimizzare il modello: metodo agnostico rispetto al compito e metodo dipendente dal compito. Il metodo agnostico trattava ogni compito separatamente, addestrando il modello su un compito alla volta. Al contrario, l'approccio dipendente dal compito prevedeva l'addestramento del modello su un compito e poi l'utilizzo del modello addestrato come punto di partenza per il compito successivo. Questo secondo metodo ha sfruttato la conoscenza condivisa dai compiti precedenti, portando a miglioramenti nelle prestazioni.
Metodologia
Un processo chiamato cross-validation a 10 pieghe è stato usato per valutare quanto bene si comportavano i modelli. I dati sono stati suddivisi in 10 sottoinsiemi diversi, e il modello è stato addestrato su nove di essi mentre veniva testato su quello rimanente. Questo ciclo è stato ripetuto fino a quando ogni sottoinsieme era stato utilizzato per il test. In questo modo, è stato possibile calcolare una misura di prestazione più affidabile.
Pulire i dati è stato un altro passo importante. Sono stati rimossi caratteri non necessari, come segni di punteggiatura e URL, e tutto il testo è stato convertito in minuscolo. Gli articoli sono stati anche standardizzati per garantire che potessero essere elaborati nel modello in modo efficiente.
Risultati degli Approcci Tradizionali
Nelle valutazioni iniziali, i metodi di machine learning tradizionali hanno mostrato risultati migliori rispetto ai modelli di deep learning per alcune lingue. Combinazioni di TF-IDF e regressione logistica hanno funzionato particolarmente bene, ottenendo punteggi forti in diversi casi. Tuttavia, i metodi di deep learning hanno mostrato alcune promesse, specialmente quando si utilizzavano embedding da modelli pre-addestrati.
Prestazioni degli Approcci Multilingue
Quando è stato usato il modello multilingue, le prestazioni complessive sono migliorate. Il modello si è comportato significativamente meglio rispetto ai modelli in lingua singola, dimostrando che la conoscenza condivisa tra diverse lingue ha permesso una migliore estrazione delle caratteristiche e classificazione. Questo era particolarmente evidente quando il modello è stato ampliato per includere dati linguistici aggiuntivi.
Importanza dei Pesi dei campioni e delle Classi
Lo studio ha anche evidenziato l'importanza di utilizzare pesi dei campioni e Pesi delle classi. I pesi dei campioni garantivano che i batch di addestramento rappresentassero bene il dataset, mentre i pesi delle classi penalizzavano le classificazioni errate per le classi più piccole. Questi aggiustamenti hanno giocato un ruolo cruciale nel migliorare le prestazioni del modello, permettendogli di prestare maggiore attenzione alle classi minoritarie e migliorare l'accuratezza complessiva.
Valutazione dell'Efficacia del Modello
È stato condotto uno studio di ablation per determinare quali componenti del processo di addestramento fossero più efficaci. I risultati hanno mostrato che rimuovere pesi dei campioni o pesi delle classi ha portato a un calo delle prestazioni. Questo indicava che entrambe le strategie erano vitali per ottenere un'alta accuratezza, particolarmente per le classi minoritarie.
Analisi degli Errori
Analizzando gli errori, i modelli addestrati senza aggiustamenti sui pesi si sono comportati male nelle classi minoritarie, in particolare nel gruppo "satira". Spesso venivano commesse classificazioni errate, dimostrando che una mancanza di attenzione sui campioni minoritari poteva avere effetti negativi sulle prestazioni complessive del modello.
Risultati Finali
I risultati finali hanno mostrato che il sistema ha raggiunto punteggi impressionanti in diverse lingue, classificandosi secondo in italiano e spagnolo durante la fase di test ufficiale. Tuttavia, le prestazioni non sono state così forti in alcuni sottocompiti, in particolare quelli che richiedevano una classificazione a livello di frase.
Conclusione
Questo studio illustra la complessità dell'analisi dei contenuti di notizie in diverse lingue. Implementando sia metodi tradizionali che di deep learning, insieme a una considerazione attenta dell'equilibrio dei dati, è stato possibile fare progressi nella classificazione accurata dei generi di notizie e delle tecniche di inquadramento. I lavori futuri mireranno a migliorare ulteriormente questi modelli, possibilmente attraverso strategie di aumento dei dati e processi di addestramento migliorati. I risultati suggeriscono anche che l'apprendimento collettivo tra i compiti può migliorare significativamente le prestazioni del modello, rendendolo un approccio prezioso nella elaborazione del linguaggio naturale.
Titolo: Team QUST at SemEval-2023 Task 3: A Comprehensive Study of Monolingual and Multilingual Approaches for Detecting Online News Genre, Framing and Persuasion Techniques
Estratto: This paper describes the participation of team QUST in the SemEval2023 task 3. The monolingual models are first evaluated with the under-sampling of the majority classes in the early stage of the task. Then, the pre-trained multilingual model is fine-tuned with a combination of the class weights and the sample weights. Two different fine-tuning strategies, the task-agnostic and the task-dependent, are further investigated. All experiments are conducted under the 10-fold cross-validation, the multilingual approaches are superior to the monolingual ones. The submitted system achieves the second best in Italian and Spanish (zero-shot) in subtask-1.
Autori: Ye Jiang
Ultimo aggiornamento: 2023-04-09 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2304.04190
Fonte PDF: https://arxiv.org/pdf/2304.04190
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.