Rilevare la soggettività nei articoli di notizie
La ricerca sviluppa una raccolta di frasi per identificare la soggettività nel reporting di notizie.
― 5 leggere min
La soggettività nella scrittura si riferisce a opinioni personali, sentimenti e interpretazioni che influenzano come qualcosa viene presentato. Questo concetto è particolarmente importante negli articoli di notizie, dove ci si aspetta spesso un reporting obiettivo. Tuttavia, la soggettività può infiltrarsi, influenzando il modo in cui le informazioni vengono comunicate. Per affrontare questo problema, i ricercatori hanno creato una nuova Collezione di frasi per aiutare a rilevare contenuti soggettivi negli articoli di notizie.
Cos'è il Riconoscimento della Soggettività?
Il riconoscimento della soggettività è il compito di identificare se una frase esprime un'opinione personale o è strettamente fattuale. Questo compito può svolgere un ruolo chiave in varie applicazioni, come sintetizzare informazioni, estrarre affermazioni e controllare i fatti. Tuttavia, riconoscere la soggettività non è un lavoro semplice, nemmeno per le persone. Interpretazioni diverse della stessa frase possono portare a disaccordi su se sia soggettiva o oggettiva.
La Sfida di Raccogliere Dati
Creare collezioni di frasi per il riconoscimento della soggettività è un processo complesso e spesso costoso. Molti metodi tradizionali si basano sulla ricerca di parole specifiche o sull'uso di elenchi di parole già esistenti che sono contrassegnate come soggettive. Questi approcci possono risultare inefficaci, poiché spesso dipendono da strumenti specifici per ogni lingua, rendendoli meno efficaci per lingue diverse.
Per superare queste difficoltà, i ricercatori hanno sviluppato un nuovo insieme di linee guida per annotare le frasi. Queste linee guida sono destinate ad applicarsi a varie lingue e non solo a una lingua specifica. Creando una nuova collezione di frasi in inglese, questa ricerca mira a facilitare la costruzione di modelli in grado di identificare la soggettività nella scrittura.
Creazione della Nuova Collezione
I ricercatori hanno raccolto un totale di 1.049 frasi, incluse sia esempi soggettivi che oggettivi. Hanno ottenuto queste frasi da articoli riguardanti affari politici in diverse fonti di notizie online. La collezione consiste di 411 frasi che esprimono opinioni soggettive e 638 che sono puramente oggettive.
Per creare questa collezione, hanno reclutato diversi annotatori che sono stati formati per etichettare ciascuna frase. Gli annotatori dovevano discutere attentamente i casi poco chiari per arrivare a una comprensione comune. Questa collaborazione ha aiutato a perfezionare le linee guida su cosa conta come Soggettivo o oggettivo.
Come Ha Funzionato il Processo di Annotazione
Il processo di annotazione ha coinvolto più fasi. Inizialmente, coppie di annotatori etichettavano le frasi in modo indipendente. Poi si sono riuniti per discutere le loro decisioni su casi ambigui. Questa collaborazione ha permesso di risolvere disaccordi e migliorare la coerenza dei loro giudizi. Per i casi in cui non riuscivano a mettersi d'accordo, un terzo annotatore interveniva per prendere la decisione finale.
Per garantire qualità, i ricercatori hanno misurato il livello di accordo tra gli annotatori durante tutto il processo. Hanno scoperto che le loro nuove linee guida portavano a una migliore coerenza rispetto ai tentativi precedenti che si basavano solo su elenchi di parole o lessici.
Testare Modelli di Machine Learning
Una volta pronta la collezione, i ricercatori hanno testato vari modelli di machine learning per vedere quanto bene potevano classificare le frasi come soggettive o oggettive. Hanno valutato approcci diversi, inclusi classificatori tradizionali e modelli avanzati basati su trasformatori. Questi modelli sono noti per la loro capacità di apprendere da grandi set di dati e riconoscere schemi.
I ricercatori hanno anche esplorato impostazioni diverse. Hanno esaminato impostazioni monolingue, dove i modelli erano addestrati e testati sulla stessa lingua, e impostazioni multilingue, dove i modelli erano addestrati su più lingue. Hanno testato i loro modelli sia su corpus in inglese che in italiano per capire quanto bene gli approcci potessero trasferirsi tra le lingue.
Risultati degli Esperimenti
I risultati hanno indicato che i modelli basati su trasformatori hanno performato meglio sulla nuova collezione. Quando addestrati in impostazioni multilingue, questi modelli hanno mostrato una migliore performance di classificazione rispetto ai modelli tradizionali. Questo suggerisce che usare dati provenienti da più lingue può migliorare la capacità di rilevare la soggettività nelle frasi.
Inoltre, i ricercatori hanno notato che i loro modelli si sono generalizzati bene tra le lingue. Le metriche di performance hanno mostrato che le frasi nella collezione in inglese potrebbero essere utilizzate efficacemente per informare modelli operanti in italiano e viceversa. Questa scoperta è promettente per la ricerca futura che potrebbe coinvolgere altre lingue.
Implicazioni per la Ricerca Futura
La nuova collezione e le linee guida aprono diverse opportunità per la ricerca futura. Una direzione è estendere questo lavoro per includere più lingue ed esplorare le implicazioni più ampie del riconoscimento della soggettività nella copertura delle notizie a livello globale. I ricercatori hanno anche suggerito di condurre un'analisi accurata degli errori commessi nella classificazione delle frasi per capire meglio quali tipi di contenuti soggettivi siano più difficili da individuare.
Un altro percorso da esplorare è l'effetto dei bias personali tra gli annotatori. Dato che la soggettività può essere influenzata dai background e dalle esperienze individuali, comprendere e mitigare tali bias è essenziale per creare risorse giuste e equilibrate.
Considerazioni Etiche
La ricerca riconosce le implicazioni etiche della soggettività nel reporting delle notizie. Migliorando il riconoscimento della soggettività, il lavoro mira a aumentare la consapevolezza dei potenziali bias nei contenuti mediatici. È fondamentale che i ricercatori e i giornalisti riconoscano come le opinioni personali possano plasmare le informazioni presentate al pubblico.
Inoltre, il corpus creato da questa ricerca è destinato esclusivamente a scopi accademici. È importante approcciarsi all'uso di questa risorsa con cautela per garantire che le intuizioni estratte non portino a malintesi o abusi in mani meno attente.
Conclusione
Lo sviluppo di una nuova collezione e di chiare linee guida per il riconoscimento della soggettività negli articoli di notizie fornisce una risorsa preziosa per ricercatori e professionisti. Concentrandosi sia sull'inglese che sull'italiano, la ricerca dimostra il potenziale di un approccio multilingue per migliorare il riconoscimento della soggettività. Con ulteriori studi che esplorano questo nuovo terreno, si spera di creare una comprensione più chiara di come le informazioni soggettive influenzino le notizie e gli impatti associati sulla percezione pubblica.
Titolo: A Corpus for Sentence-level Subjectivity Detection on English News Articles
Estratto: We develop novel annotation guidelines for sentence-level subjectivity detection, which are not limited to language-specific cues. We use our guidelines to collect NewsSD-ENG, a corpus of 638 objective and 411 subjective sentences extracted from English news articles on controversial topics. Our corpus paves the way for subjectivity detection in English and across other languages without relying on language-specific tools, such as lexicons or machine translation. We evaluate state-of-the-art multilingual transformer-based models on the task in mono-, multi-, and cross-language settings. For this purpose, we re-annotate an existing Italian corpus. We observe that models trained in the multilingual setting achieve the best performance on the task.
Autori: Francesco Antici, Andrea Galassi, Federico Ruggeri, Katerina Korre, Arianna Muti, Alessandra Bardi, Alice Fedotova, Alberto Barrón-Cedeño
Ultimo aggiornamento: 2024-05-24 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.18034
Fonte PDF: https://arxiv.org/pdf/2305.18034
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.dropbox.com/sh/pterfc16inz0h7b/AAB3csoKxYJNa11A-CZZt4xZa
- https://textblob.readthedocs.io/
- https://acl-org.github.io/ACLPUB/formatting.html
- https://2023.eacl.org/calls/papers/
- https://aclweb.org/anthology/anthology.bib.gz
- https://www.aclweb.org/portal/content/acl-code-ethics
- https://www.acm.org/code-of-ethics