Rilevare le agende politiche sui social media
Questo articolo esplora come i social media influenzano le opinioni politiche durante le elezioni.
― 8 leggere min
Indice
- L'importanza delle agende
- Metodologia per la rilevazione delle agende
- Lavori correlati
- Entailment testuale e classificazione del testo
- Creazione del dataset delle agende
- Addestramento e valutazione
- Risultati dai modelli di rilevazione delle agende
- Limitazioni e sfide
- Conclusione
- Considerazioni etiche e pratiche responsabili
- Direzioni future
- Fonte originale
- Link di riferimento
Capire come le persone comunicano sui social media, soprattutto durante eventi politici, è importante. Alcuni individui o gruppi possono influenzare le opinioni promuovendo idee o azioni specifiche. Questo può succedere tramite messaggi su piattaforme come Twitter. Ad esempio, durante elezioni significative, alcuni influencer cercano di influenzare il sentimento pubblico a favore o contro i candidati. Questo articolo discute un metodo per identificare queste influenze sui social media con dati limitati e si concentra sulle Elezioni Presidenziali Francesi del 2022.
L'importanza delle agende
Un'"Agenda" si riferisce a un insieme di argomenti o idee che ricevono attenzione in un ordine specifico. Le agende possono influenzare come le persone si comportano, soprattutto nelle conversazioni e nelle relazioni. In questo contesto, un'agenda potrebbe riguardare i motivi dietro i messaggi, come indirizzare una conversazione verso il supporto o l'opposizione a un candidato. Chi controlla un'agenda ha un grande potere sul proprio pubblico.
Quando si guarda alle campagne online, specialmente quelle legate a questioni politiche, i ricercatori di solito indagano chi stabilisce queste agende- possono essere organi di stampa tradizionali o gruppi online segreti che mirano a plasmare l'opinione pubblica. Ci sono tre livelli di impostazione dell'agenda:
- Livello Uno: Il pubblico viene detto esplicitamente cosa pensare o fare, come spingere le persone a votare per un candidato specifico.
- Livello Due: Invece di dire alle persone cosa credere, gli influencer evidenziano determinate caratteristiche dei loro obiettivi (ad esempio, far sembrare un candidato buono o cattivo), lasciando che il pubblico formi le proprie opinioni.
- Livello Tre: Questo implica collegare più obiettivi insieme, influenzando la percezione pubblica attraverso il confronto.
In questo lavoro ci concentriamo sui primi due livelli di impostazione dell'agenda, specialmente durante le recenti elezioni francesi. Il nostro obiettivo è identificare i casi in cui le agende vengono promosse tramite messaggi sui social media.
Metodologia per la rilevazione delle agende
Ci siamo concentrati sui tweet, che includono messaggi originali, retweet, risposte e citazioni, per lo più in francese ma anche in inglese. L'idea è di etichettare ogni tweet secondo il tipo di agenda, anche se quell'agenda non è chiaramente dichiarata. Le etichette delle agende sono state sviluppate da esperti in scienze politiche, evidenziando richieste di azione. Date le limitazioni dei dati etichettati in scenari reali, abbiamo utilizzato campioni piccoli annotati da esperti e metodi che richiedono pochi o nessun dato di addestramento.
Definiamo un'agenda come l'intenzione dietro un messaggio. Dimostrando che un tweet implica un'agenda specifica, possiamo assegnare l'etichetta appropriata. Per raggiungere questo, affrontiamo la rilevazione delle agende come un problema di Entailment Testuale, che ha mostrato risultati promettenti in studi precedenti.
Lavori correlati
Studi precedenti hanno cercato modi per rilevare influenze nei messaggi sui social media. Gli studiosi hanno esaminato come le agende dei media plasmiano l'opinione pubblica e come i social media interagiscano con i mezzi di informazione tradizionali. Molte volte, i ricercatori si affidano all'analisi manuale per trovare agende quando mancano vasti set di dati etichettati. Questo può comportare una codifica laboriosa di messaggi o articoli di notizie. Altri studi hanno tentato metodi automatizzati usando il rilevamento di parole chiave.
Recentemente, sono emersi metodi di apprendimento automatico per analizzare grandi set di dati. Un metodo comporta la modellazione di argomenti per scoprire temi sottostanti, seguita dallo sviluppo di etichette d'agenda da parte di esperti umani, che vengono poi utilizzate per addestrare classificatori. Molti di questi approcci possono essere costosi e poco praticabili, soprattutto in situazioni in rapido cambiamento.
Entailment testuale e classificazione del testo
Nella classificazione testuale, i ricercatori hanno creato framework che trattano il compito come una serie di coppie di affermazioni, dove una è il testo da classificare e l'altra rappresenta le etichette potenziali. Questo approccio imita il processo decisionale umano durante il processo di etichettatura. Applicando questo metodo, possiamo migliorare la rilevazione delle agende, soprattutto in situazioni che mancano di abbondanti dati etichettati.
Per preparare il nostro modello per la rilevazione delle agende, abbiamo utilizzato diversi dataset consolidati per aiutarlo a imparare il concetto di entailment. Abbiamo convertito tutti i dati in problemi di classificazione binaria e unito esempi di addestramento per sviluppare un robusto set di addestramento. Poiché il nostro compito coinvolgeva tweet sia in inglese che in francese, abbiamo tradotto una porzione dei nostri dati di addestramento per garantire una copertura linguistica diversificata.
Creazione del dataset delle agende
Per sviluppare il nostro dataset delle agende, abbiamo raccolto tweet riguardanti le Elezioni Presidenziali Francesi del 2022. Da un ampio pool di tweet, abbiamo campionato il 10%. Dopo aver pulito i dati rimuovendo spazi bianchi non necessari, ci siamo assicurati che i tweet rispettassero il limite di caratteri di Twitter.
Per etichettare i tweet, abbiamo impiegato un metodo che calcolava similitudini semantiche tra i testi dei tweet e le definizioni di agenda predefinite. Abbiamo utilizzato un modello di embedding di frasi multilingue per questo, che ci ha permesso di assegnare automaticamente etichette d'agenda ai messaggi di ranking più alto. Due annotatori umani hanno esaminato queste assegnazioni per confermare l'accuratezza e hanno collaborato per risolvere eventuali discrepanze.
Addestramento e valutazione
Abbiamo creato tre set separati per addestramento, sviluppo e test per garantire una corretta valutazione dei nostri modelli. Esaminando le prestazioni di vari modelli, abbiamo regolato il nostro processo per determinare il livello di fiducia delle previsioni, impostando una soglia minima per etichettare i messaggi in base ai punteggi di probabilità.
Risultati dai modelli di rilevazione delle agende
Nel testare i nostri modelli in un contesto di zero-shot, li abbiamo confrontati con vari modelli di riferimento. I nostri risultati hanno indicato che i modelli addestrati sui nostri dati specifici delle agende hanno avuto prestazioni significativamente migliori rispetto a quelli che utilizzavano dati generali. Questo suggerisce l'efficacia del nostro approccio nella rilevazione delle agende, anche quando ci si confronta con esempi limitati.
Nei nostri esperimenti, abbiamo osservato che i modelli che utilizzano l'entailment testuale producevano prestazioni superiori rispetto ai modelli di classificazione tradizionali. Questo era particolarmente vero nel contesto multilingue, dove un modello specifico addestrato con i nostri dati bilingue eccelleva rispetto ad altri metodi.
Limitazioni e sfide
Nonostante il successo, riconosciamo le sfide nella nostra ricerca. Le fonti di dati che abbiamo utilizzato possono introdurre bias, e il nostro dataset delle agende è più piccolo di quelli tipicamente richiesti per un addestramento robusto. L'approccio di apprendimento zero-shot sottolinea ulteriormente la necessità di ipotesi di alta qualità e la difficoltà nel generare una gamma diversificata di esempi.
Inoltre, mentre il nostro modello ha funzionato bene, alcune previsioni non si allineavano con i messaggi reali, portando a casi di sovra-etichettatura o etichette mancanti. Questo suggerisce aree di miglioramento, soprattutto integrando conoscenze esterne rilevanti per il contesto.
Conclusione
La metodologia sviluppata per rilevare le agende attraverso i social media dimostra che è possibile lavorare con dati annotati limitati. Il nostro lavoro evidenzia un angolo promettente trattando la classificazione del testo come un problema di entailment testuale. Questo approccio ci ha permesso di classificare messaggi con una vasta gamma di agende mantenendo flessibilità per applicazioni future al di là dei social media.
Attraverso i nostri risultati, speriamo di contribuire con preziose intuizioni sulle campagne di influenza, particolarmente nei contesti politici, e di porre le basi per studi futuri nell'analisi della comunicazione attraverso diversi formati mediatici.
La nostra ricerca indica che comprendere e rilevare le agende non è limitato a una sola piattaforma. Le tecniche che abbiamo descritto possono anche esplorare come le idee si diffondono attraverso articoli di notizie e blog. Continuando a ricercare su questo argomento, miriamo a scoprire intuizioni più profonde e ampliare i nostri metodi per incorporare varie forme di comunicazione.
Considerazioni etiche e pratiche responsabili
Durante il nostro studio, abbiamo mantenuto un forte impegno verso le considerazioni etiche nella raccolta di dati, annotazione e sviluppo del modello. Questo implica assicurarsi che i nostri sforzi siano progettati per rispettare la privacy e minimizzare i bias, mantenendo al contempo trasparenza nei nostri processi.
Mentre andiamo avanti, riconosciamo l'importanza di una valutazione continua dei nostri modelli e pratiche per garantire equità e responsabilità nel nostro approccio alla rilevazione delle agende e all'analisi dei social media. Riflettendo sul nostro lavoro, speriamo di contribuire positivamente al campo e supportare lo sviluppo di pratiche di intelligenza artificiale responsabili nella ricerca.
Direzioni future
Guardando avanti, immaginiamo diverse aree di crescita ed esplorazione. Un'avenue potrebbe comportare il perfezionamento delle nostre etichette di agenda e metodi per catturare meglio le sfumature presenti in contesti vari o in diverse lingue. Vediamo anche il potenziale per sviluppare ulteriormente i nostri modelli per integrare conoscenze provenienti da fonti esterne, il che potrebbe migliorarne le prestazioni e l'adattabilità.
Pursuendo vie diverse per la collaborazione, miriamo a continuare a migliorare la qualità del discorso sui social media, assicurandoci che la nostra ricerca sia rilevante e benefica per la società. Con l'evoluzione continua della tecnologia della comunicazione, c'è sempre spazio per ulteriori indagini su come i messaggi influenzano il sentimento pubblico e le azioni sociali.
Rimanendo concentrati su questi obiettivi, speriamo di avanzare nel campo dell'analisi dei social media e contribuire a una comprensione più profonda di come la comunicazione plasmi opinioni e comportamenti nella società.
Titolo: Uncovering Agendas: A Novel French & English Dataset for Agenda Detection on Social Media
Estratto: The behavior and decision making of groups or communities can be dramatically influenced by individuals pushing particular agendas, e.g., to promote or disparage a person or an activity, to call for action, etc.. In the examination of online influence campaigns, particularly those related to important political and social events, scholars often concentrate on identifying the sources responsible for setting and controlling the agenda (e.g., public media). In this article we present a methodology for detecting specific instances of agenda control through social media where annotated data is limited or non-existent. By using a modest corpus of Twitter messages centered on the 2022 French Presidential Elections, we carry out a comprehensive evaluation of various approaches and techniques that can be applied to this problem. Our findings demonstrate that by treating the task as a textual entailment problem, it is possible to overcome the requirement for a large annotated training dataset.
Autori: Gregorios Katsios, Ning Sa, Ankita Bhaumik, Tomek Strzalkowski
Ultimo aggiornamento: 2024-05-01 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2405.00821
Fonte PDF: https://arxiv.org/pdf/2405.00821
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://dl.fbaipublicfiles.com/glue/data/RTE.zip
- https://huggingface.co/Helsinki-NLP/opus-mt-en-fr
- https://www.kaggle.com/datasets/jeanmidev/french-presidential-online-listener
- https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2
- https://github.com/HiyaToki/Uncovering-Agendas/
- https://huggingface.co/google/mt5-base
- https://huggingface.co/google/t5-v1_1-base
- https://huggingface.co/bert-base-uncased
- https://huggingface.co/bert-base-multilingual-uncased
- https://huggingface.co/sentence-transformers/all-mpnet-base-v2
- https://huggingface.co/facebook/bart-large-mnli