Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Analizzando la Rappresentazione di Genere nei Media Francesi

Uno strumento misura quanto spesso vengono citate donne e uomini nelle notizie francesi.

― 5 leggere min


Disuguaglianza di genereDisuguaglianza di generenell'analisi dei mediafrancesi.citazioni tra i generi nelle notizieUno strumento svela le disparità nelle
Indice

Radar de Parità è uno strumento che usa la tecnologia informatica per analizzare articoli di notizie francesi e vedere quanto spesso vengono citate donne e uomini. Controlla ogni giorno sei fonti di notizie in francese in Canada per vedere l'equilibrio tra il numero di donne e uomini menzionati.

Progettazione del Sistema e Sfide

La progettazione di questo sistema include diversi passaggi per analizzare gli articoli, concentrandosi soprattutto su come riconosciamo e colleghiamo le diverse menzioni delle persone. Una delle principali sfide è stata rendere questo sistema efficace per la lingua francese, che ha caratteristiche uniche rispetto all'inglese. Questo è un passo importante che arricchisce la nostra conoscenza del lavoro con il francese nei sistemi informatici.

Il sistema ha raccolto dati per oltre un anno, totalizzando 282.512 articoli di notizie, e i risultati hanno mostrato che le donne non vengono citate tanto quanto gli uomini in queste storie. Questo sistema aiuta a fare luce sulla Rappresentanza di genere nei media.

Rappresentanza di Genere nei Media

Il tema della rappresentanza di genere nei media è stato discusso per decenni. Le ricerche hanno dimostrato che donne e identità di genere diverse sono spesso sottorappresentate nelle notizie. Questo studio si concentra specificamente su quante donne e uomini vengono citati negli articoli. L’idea iniziale era che gli uomini venissero citati di più rispetto alle donne, in base ai numeri della popolazione generale.

Per affrontare questa questione, il sistema raccoglie grandi quantità di dati e analizza le Citazioni degli articoli di notizie. Le citazioni sono definite come parole pronunciate direttamente o indirettamente dalle persone. Il sistema tiene traccia di chi sta parlando e poi usa altri strumenti per indovinare il genere di questi oratori.

Processo di Estrazione delle Citazioni

Per estrarre le citazioni, il sistema utilizza una serie di passaggi, inclusa la scomposizione del testo per trovare chi parla e cosa dice. Cerca parole e frasi specifiche che indicano citazioni. Inoltre, verifica il genere degli oratori usando strumenti che prevedono il genere in base ai nomi.

L’obiettivo finale è presentare questi risultati su un cruscotto pubblico, dove le persone possono vedere come le rappresentanze di genere si confrontano nei media.

Sfide Linguistiche nell'NLP

Anche se ci sono stati molti progressi nell'elaborazione del linguaggio da parte dei computer, la maggior parte di questi strumenti si concentra sull'inglese. Questo significa che lingue come il francese, che hanno le loro caratteristiche uniche, spesso mancano di strumenti adeguati. Non ci sono tante risorse per il francese, il che rende più difficile applicare efficacemente modelli linguistici avanzati.

In questo progetto, abbiamo usato una libreria chiamata spaCy, che è potente e ben mantenuta, per eseguire l'analisi. Tuttavia, abbiamo incontrato problemi perché alcuni strumenti per il francese non erano così sviluppati. Ad esempio, uno strumento per riconoscere quando viene menzionata la stessa persona più volte (chiamato risoluzione di coreferenza) non era disponibile per il francese, quindi abbiamo creato la nostra versione.

Raccolta Dati Quotidiana

Il sistema raccoglie articoli di notizie ogni giorno da sei fonti in francese in Canada. Dopo aver memorizzato gli articoli in un database, li elabora per trovare informazioni sulle citazioni. Ciò include l'identificazione dei nomi menzionati negli articoli e la determinazione dei loro generi.

Riconoscimento delle Persone e Risoluzione di Coreferenza

Per riconoscere le persone negli articoli, il sistema utilizza il Riconoscimento di Entità Nominate (NER). Il NER aiuta a identificare le persone e assicura che ci stiamo concentrando solo su quelle realmente menzionate negli articoli. Questo processo può essere complicato poiché non è sempre chiaro a chi ci si riferisca.

La risoluzione di coreferenza aiuta a identificare quando nomi o frasi diversi si riferiscono alla stessa persona. Ad esempio, se qualcuno viene chiamato sia "Giovanni" che "Sig. Rossi" in un articolo, il sistema riconosce che si tratta della stessa persona.

Misurazione del Genere nelle Fonti di Notizie

Dopo aver raccolto le citazioni, il passo successivo è capire quante donne e uomini sono stati citati. Il sistema distingue tra citazioni dirette (parola per parola) e citazioni indirette (parafrasi). Una volta raccolte le citazioni, vengono abbinate ai nomi delle persone che le hanno pronunciate.

Le previsioni di genere sono fatte in base ai nomi degli oratori, con un focus sull'identificazione se sono uomini, donne o persone non binarie. Questo processo evidenzia quante voci sono incluse nella conversazione.

Valutazione del Sistema

Per testare quanto bene funzioni il sistema, è stato confrontato con dati annotati da esseri umani. Un insieme di articoli è stato accuratamente etichettato da una persona fluente in francese e inglese per vedere quanto accuratamente il sistema potesse identificare citazioni e oratori.

La valutazione si è concentrata su quanto spesso il sistema riuscisse a trovare correttamente citazioni e identificare chi le ha pronunciate. I risultati hanno mostrato che, mentre il sistema era generalmente preciso, c'erano ancora aree da migliorare.

Risultati sulla Rappresentanza di Genere

L'analisi delle notizie per 15 mesi ha rivelato un significativo sbilanciamento nella rappresentanza di genere. I dati hanno mostrato che circa il 71,5% delle fonti citate erano uomini, mentre solo il 28,3% erano donne, con una percentuale molto piccola di individui non binari rappresentati. Questi risultati evidenziano una continua tendenza al dominio maschile nella copertura mediatica.

Le persone più frequentemente citate erano politici per entrambi i generi, seguiti da figure sportive e funzionari. Tuttavia, emerge una differenza significativa in settori come la salute, dove le donne sono citate più spesso.

Conclusione e Direzioni Future

Questo studio illustra il continuo sbilanciamento di genere nei media canadesi francofoni. Il sistema sviluppato, Radar de Parité, non solo rivela queste statistiche ma serve anche come strumento pratico per esaminare come sono rappresentate le voci nelle notizie. L'approccio combina analisi linguistica con tecniche computazionali moderne per fornire un quadro più chiaro della rappresentanza di genere.

Ulteriori lavori potrebbero perfezionare le previsioni di genere e migliorare i metodi per riconoscere citazioni e oratori. Questo progetto evidenzia l'importanza di affrontare la rappresentanza di genere nei media e incoraggia sforzi continui per amplificare le voci sottorappresentate.

Articoli simili