Analizzando la Rappresentazione di Genere nei Media Francesi
Uno strumento misura quanto spesso vengono citate donne e uomini nelle notizie francesi.
― 5 leggere min
Radar de Parità è uno strumento che usa la tecnologia informatica per analizzare articoli di notizie francesi e vedere quanto spesso vengono citate donne e uomini. Controlla ogni giorno sei fonti di notizie in francese in Canada per vedere l'equilibrio tra il numero di donne e uomini menzionati.
Progettazione del Sistema e Sfide
La progettazione di questo sistema include diversi passaggi per analizzare gli articoli, concentrandosi soprattutto su come riconosciamo e colleghiamo le diverse menzioni delle persone. Una delle principali sfide è stata rendere questo sistema efficace per la lingua francese, che ha caratteristiche uniche rispetto all'inglese. Questo è un passo importante che arricchisce la nostra conoscenza del lavoro con il francese nei sistemi informatici.
Il sistema ha raccolto dati per oltre un anno, totalizzando 282.512 articoli di notizie, e i risultati hanno mostrato che le donne non vengono citate tanto quanto gli uomini in queste storie. Questo sistema aiuta a fare luce sulla Rappresentanza di genere nei media.
Rappresentanza di Genere nei Media
Il tema della rappresentanza di genere nei media è stato discusso per decenni. Le ricerche hanno dimostrato che donne e identità di genere diverse sono spesso sottorappresentate nelle notizie. Questo studio si concentra specificamente su quante donne e uomini vengono citati negli articoli. L’idea iniziale era che gli uomini venissero citati di più rispetto alle donne, in base ai numeri della popolazione generale.
Per affrontare questa questione, il sistema raccoglie grandi quantità di dati e analizza le Citazioni degli articoli di notizie. Le citazioni sono definite come parole pronunciate direttamente o indirettamente dalle persone. Il sistema tiene traccia di chi sta parlando e poi usa altri strumenti per indovinare il genere di questi oratori.
Processo di Estrazione delle Citazioni
Per estrarre le citazioni, il sistema utilizza una serie di passaggi, inclusa la scomposizione del testo per trovare chi parla e cosa dice. Cerca parole e frasi specifiche che indicano citazioni. Inoltre, verifica il genere degli oratori usando strumenti che prevedono il genere in base ai nomi.
L’obiettivo finale è presentare questi risultati su un cruscotto pubblico, dove le persone possono vedere come le rappresentanze di genere si confrontano nei media.
Sfide Linguistiche nell'NLP
Anche se ci sono stati molti progressi nell'elaborazione del linguaggio da parte dei computer, la maggior parte di questi strumenti si concentra sull'inglese. Questo significa che lingue come il francese, che hanno le loro caratteristiche uniche, spesso mancano di strumenti adeguati. Non ci sono tante risorse per il francese, il che rende più difficile applicare efficacemente modelli linguistici avanzati.
In questo progetto, abbiamo usato una libreria chiamata spaCy, che è potente e ben mantenuta, per eseguire l'analisi. Tuttavia, abbiamo incontrato problemi perché alcuni strumenti per il francese non erano così sviluppati. Ad esempio, uno strumento per riconoscere quando viene menzionata la stessa persona più volte (chiamato risoluzione di coreferenza) non era disponibile per il francese, quindi abbiamo creato la nostra versione.
Raccolta Dati Quotidiana
Il sistema raccoglie articoli di notizie ogni giorno da sei fonti in francese in Canada. Dopo aver memorizzato gli articoli in un database, li elabora per trovare informazioni sulle citazioni. Ciò include l'identificazione dei nomi menzionati negli articoli e la determinazione dei loro generi.
Riconoscimento delle Persone e Risoluzione di Coreferenza
Per riconoscere le persone negli articoli, il sistema utilizza il Riconoscimento di Entità Nominate (NER). Il NER aiuta a identificare le persone e assicura che ci stiamo concentrando solo su quelle realmente menzionate negli articoli. Questo processo può essere complicato poiché non è sempre chiaro a chi ci si riferisca.
La risoluzione di coreferenza aiuta a identificare quando nomi o frasi diversi si riferiscono alla stessa persona. Ad esempio, se qualcuno viene chiamato sia "Giovanni" che "Sig. Rossi" in un articolo, il sistema riconosce che si tratta della stessa persona.
Misurazione del Genere nelle Fonti di Notizie
Dopo aver raccolto le citazioni, il passo successivo è capire quante donne e uomini sono stati citati. Il sistema distingue tra citazioni dirette (parola per parola) e citazioni indirette (parafrasi). Una volta raccolte le citazioni, vengono abbinate ai nomi delle persone che le hanno pronunciate.
Le previsioni di genere sono fatte in base ai nomi degli oratori, con un focus sull'identificazione se sono uomini, donne o persone non binarie. Questo processo evidenzia quante voci sono incluse nella conversazione.
Valutazione del Sistema
Per testare quanto bene funzioni il sistema, è stato confrontato con dati annotati da esseri umani. Un insieme di articoli è stato accuratamente etichettato da una persona fluente in francese e inglese per vedere quanto accuratamente il sistema potesse identificare citazioni e oratori.
La valutazione si è concentrata su quanto spesso il sistema riuscisse a trovare correttamente citazioni e identificare chi le ha pronunciate. I risultati hanno mostrato che, mentre il sistema era generalmente preciso, c'erano ancora aree da migliorare.
Risultati sulla Rappresentanza di Genere
L'analisi delle notizie per 15 mesi ha rivelato un significativo sbilanciamento nella rappresentanza di genere. I dati hanno mostrato che circa il 71,5% delle fonti citate erano uomini, mentre solo il 28,3% erano donne, con una percentuale molto piccola di individui non binari rappresentati. Questi risultati evidenziano una continua tendenza al dominio maschile nella copertura mediatica.
Le persone più frequentemente citate erano politici per entrambi i generi, seguiti da figure sportive e funzionari. Tuttavia, emerge una differenza significativa in settori come la salute, dove le donne sono citate più spesso.
Conclusione e Direzioni Future
Questo studio illustra il continuo sbilanciamento di genere nei media canadesi francofoni. Il sistema sviluppato, Radar de Parité, non solo rivela queste statistiche ma serve anche come strumento pratico per esaminare come sono rappresentate le voci nelle notizie. L'approccio combina analisi linguistica con tecniche computazionali moderne per fornire un quadro più chiaro della rappresentanza di genere.
Ulteriori lavori potrebbero perfezionare le previsioni di genere e migliorare i metodi per riconoscere citazioni e oratori. Questo progetto evidenzia l'importanza di affrontare la rappresentanza di genere nei media e incoraggia sforzi continui per amplificare le voci sottorappresentate.
Titolo: Radar de Parit\'e: An NLP system to measure gender representation in French news stories
Estratto: We present the Radar de Parit\'e, an automated Natural Language Processing (NLP) system that measures the proportion of women and men quoted daily in six Canadian French-language media outlets. We outline the system's architecture and detail the challenges we overcame to address French-specific issues, in particular regarding coreference resolution, a new contribution to the NLP literature on French. We also showcase statistics covering over one year's worth of data (282,512 news articles). Our results highlight the underrepresentation of women in news stories, while also illustrating the application of modern NLP methods to measure gender representation and address societal issues.
Autori: Valentin-Gabriel Soumah, Prashanth Rao, Philipp Eibl, Maite Taboada
Ultimo aggiornamento: 2023-04-19 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2304.09982
Fonte PDF: https://arxiv.org/pdf/2304.09982
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://radardeparite.femmesexpertes.ca/
- https://gendergaptracker.informedopinions.org/
- https://github.com/sfu-discourse-lab/GenderGapTracker
- https://spacy.io/universe/project/neuralcoref
- https://spacy.io/universe/project/coreferee
- https://www.lapresse.ca/actualites/grand-montreal/201901/31/01-5212974-un-homme-lie-a-la-mafia-serait-un-proprietaire-de-la-grande-roue.php
- https://genderize.io/
- https://gender-api.com/
- https://informedopinions.org/
- https://github.com/explosion/coreferee
- https://www.tvanouvelles.ca/2019/02/08/un-carnet-des-commotions-cerebrales-pour-les-jeunes-1
- https://plus.lapresse.ca/screens/4130e87a-3488-40ed-8b85-946bcc2064eb__7C___0.html