Affrontare la soggettività nel giornalismo
Uno studio su come rilevare affermazioni soggettive negli articoli di notizie usando tecniche avanzate.
― 6 leggere min
Indice
- Introduzione
- Il problema della soggettività negli articoli di notizie
- Il nostro approccio alla generazione di dati
- Creazione di una checklist sulla soggettività
- Progettazione di prompt per la generazione di testi
- Tecniche di generazione di dati e bilanciamento
- Addestrare modelli specifici per lingua
- Valutazione dei nostri metodi
- Confronto tra diversi modelli GPT-3
- Valutazione qualitativa dei testi generati
- Conclusione
- Fonte originale
- Link di riferimento
Questo documento è protetto da copyright e il suo utilizzo è consentito sotto la Licenza Creative Commons Attribution 4.0 Internazionale.
Introduzione
Nel mondo del giornalismo, è fondamentale capire quando un testo esprime opinioni personali piuttosto che informazioni fattuali. Questo è importante perché le notizie di parte possono influenzare l'opinione pubblica, anche se alcune parti di un articolo sono basate su fatti. La capacità di determinare automaticamente se un testo è Soggettivo o oggettivo potrebbe essere di grande aiuto per i redattori e i fact-checker.
Il problema della soggettività negli articoli di notizie
Gli articoli di notizie spesso mescolano fatti con opinioni. Questa combinazione può creare confusione tra i lettori, poiché le affermazioni soggettive possono distorcere la verità. Il nostro compito è classificare le frasi degli articoli di notizie come soggettive, cioè che riflettono punti di vista personali, o oggettive, cioè che presentano informazioni fattuali senza pregiudizi personali.
Una delle principali sfide che affrontiamo è lo sbilanciamento delle classi nel dataset. Ci sono spesso molte più frasi oggettive che soggettive. Questo sbilanciamento può portare a modelli che faticano a identificare le frasi soggettive. Inoltre, il concetto di soggettività può variare tra diverse culture e contesti. Pertanto, una semplice riscrittura delle frasi potrebbe non catturare l'aspetto giornalistico della soggettività.
Il nostro approccio alla generazione di dati
Per affrontare questi problemi, abbiamo creato nuovi dati di addestramento utilizzando un metodo che coinvolge modelli GPT-3. Abbiamo basato il nostro lavoro su un elenco di controllo derivato dagli standard giornalistici per garantire che i testi generati riflettano vari stili soggettivi. Questo ci consente di creare materiali di addestramento che rappresentano meglio l'argomento.
Abbiamo condotto esperimenti in tre lingue: inglese, turco e tedesco. I nostri risultati mostrano che utilizzare diversi stili soggettivi migliora le prestazioni dei modelli progettati per rilevare la soggettività. Questo evidenzia l'importanza di espressioni soggettive diversificate all'interno di ciascuna lingua.
Un'altra scoperta chiave è che l'Oversampling basato sullo stile, che significa creare più campioni da stili soggettivi, funziona meglio della normale parafrasi, in particolare in turco e inglese. Tuttavia, abbiamo notato che GPT-3 a volte fatica a produrre testi di qualità in lingue diverse dall'inglese.
Creazione di una checklist sulla soggettività
Per generare testi che riflettano una prospettiva giornalistica, abbiamo sviluppato una checklist. Abbiamo consultato i redattori per capire come valutano la soggettività negli articoli. Dopo aver raccolto queste informazioni, le abbiamo incrociate con la letteratura giornalistica e linguistica esistente. Il risultato è stata una checklist completa che include stili distinti che rappresentano vari angoli soggettivi.
Progettazione di prompt per la generazione di testi
Il nostro passo successivo ha coinvolto la creazione di prompt in inglese, turco e tedesco per istruire i modelli GPT-3 su come generare testi basati sugli stili identificati. All'inizio abbiamo creato un template in inglese, ma non ha funzionato bene in altre lingue. Di conseguenza, abbiamo adattato i template per ogni lingua separatamente.
I primi due autori del nostro lavoro, essendo madrelingua turco e tedesco, hanno discusso i prompt in inglese e si sono assicurati che le traduzioni catturassero il significato previsto. Questo approccio ha mantenuto la coerenza tra le lingue, permettendo nel contempo flessibilità per le differenze stilistiche.
Tecniche di generazione di dati e bilanciamento
Per generare il nostro dataset, abbiamo prima misurato il gap tra il numero di frasi soggettive e oggettive. Abbiamo poi selezionato campioni a caso per creare un dataset bilanciato. Concentrandoci sulle differenze nel numero di campioni, abbiamo garantito che i nostri modelli avessero abbastanza dati da cui imparare.
Abbiamo utilizzato tecniche sia di under-sampling che di over-sampling per gestire lo sbilanciamento delle classi. L'under-sampling significa rimuovere campioni oggettivi fino a farli corrispondere al numero di campioni soggettivi, mentre l'over-sampling implica aggiungere campioni generati al dataset originale per bilanciare le classi.
Addestrare modelli specifici per lingua
Per il nostro compito di rilevamento della soggettività, ci siamo affidati a modelli specifici per lingua: Roberta-base per l'inglese, German Bert per il tedesco e BERTurk per il turco. Questi modelli si sono dimostrati efficaci per compiti nelle rispettive lingue. Abbiamo limitato la lunghezza dell'input per garantire un'elaborazione efficiente e abbiamo condotto l'addestramento su più epoche per affinare i modelli.
Valutazione dei nostri metodi
Dopo aver addestrato i modelli, abbiamo valutato quanto i nuovi campioni generati con GPT-3 abbiano migliorato l'accuratezza dei modelli. Abbiamo confrontato le prestazioni dei nostri modelli con tre baseline: quelli addestrati solo su dataset originali, quelli addestrati con normale parafrasi e quelli che utilizzano testi oggettivi parafrasati.
I nostri risultati hanno mostrato che l'oversampling basato sullo stile ha migliorato significativamente le prestazioni dei modelli per l'inglese e il turco. Tuttavia, non ha portato gli stessi benefici per i trasformatori tedeschi. Tra i vari stili, abbiamo scoperto che alcuni stili, come il partigiano e l'esagerato, funzionavano bene per il turco, mentre i stili di propaganda e esagerato avevano un effetto positivo sui modelli inglesi.
Confronto tra diversi modelli GPT-3
Volevamo anche esplorare come si comportassero diversi modelli GPT-3 nella generazione di campioni di addestramento. A questo scopo, abbiamo confrontato text-davinci-003 con gpt-3.5-turbo (ChatGPT). Anche se non ci sono state differenze significative nelle prestazioni complessive, sono stati notati alcuni miglioramenti in determinati stili soggettivi utilizzando il Modello ChatGPT.
Valutazione qualitativa dei testi generati
Oltre alle valutazioni quantitative, abbiamo condotto una valutazione qualitativa dei testi generati. Abbiamo esaminato la naturalezza, la correttezza e la rilevanza dei testi prodotti da entrambi i modelli. Abbiamo scoperto che i campioni in inglese contenevano spesso frasi esagerate e a volte utilizzavano un linguaggio offensivo. Nel caso dei campioni turchi, abbiamo notato che i riferimenti in prima persona erano comuni, rendendo i testi meno formali. I campioni in tedesco contenevano occasionalmente un linguaggio non adatto al contesto.
Conclusione
In sintesi, il nostro studio ha utilizzato l'oversampling basato sullo stile con modelli GPT-3, concentrandosi sugli stili giornalistici per affrontare la scarsità di dati nel rilevamento della soggettività. I nostri esperimenti hanno evidenziato che questo approccio è più efficace della parafrasi standard. Stili diversi hanno fornito benefici variabili a seconda della lingua, riflettendo distinzioni culturali e potenziali pregiudizi nei dati.
Il nostro lavoro è specifico per ogni lingua ed è limitato dalla disponibilità di dati di alta qualità per le lingue meno comuni. La ricerca futura dovrebbe cercare di trovare modelli migliori per queste lingue e migliorare la formulazione dei prompt per ottenere risultati più accurati. Inoltre, la scelta dei campioni gioca un ruolo cruciale nel raggiungere un efficace trasferimento di stile, un aspetto che intendiamo approfondire ulteriormente negli studi futuri.
Titolo: DWReCO at CheckThat! 2023: Enhancing Subjectivity Detection through Style-based Data Sampling
Estratto: This paper describes our submission for the subjectivity detection task at the CheckThat! Lab. To tackle class imbalances in the task, we have generated additional training materials with GPT-3 models using prompts of different styles from a subjectivity checklist based on journalistic perspective. We used the extended training set to fine-tune language-specific transformer models. Our experiments in English, German and Turkish demonstrate that different subjective styles are effective across all languages. In addition, we observe that the style-based oversampling is better than paraphrasing in Turkish and English. Lastly, the GPT-3 models sometimes produce lacklustre results when generating style-based texts in non-English languages.
Autori: Ipek Baris Schlicht, Lynn Khellaf, Defne Altiok
Ultimo aggiornamento: 2023-07-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2307.03550
Fonte PDF: https://arxiv.org/pdf/2307.03550
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.