Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Calcul et langage# Traitement de l'audio et de la parole

Représentation des genres dans les infos à la télé française

Cet article examine l'équilibre des genres dans les bulletins d'infos français sur différents sujets.

― 7 min lire


Biais de genre dans lesBiais de genre dans lesnews françaiseset des femmes dans les diffusions.Examiner le temps de parole des hommes
Table des matières

Cet article examine comment le genre est représenté dans les actualités diffusées en France. Il se concentre sur les Sujets discutés dans les programmes de télé et de radio et vérifie si les hommes ou les femmes parlent plus sur certains sujets. L'étude utilise une grande quantité de données pour comprendre s'il y a des biais dans la fréquence à laquelle les hommes et les femmes s'expriment sur divers thèmes.

Contexte

Ces dernières années, de nombreuses organisations ont travaillé pour améliorer l'égalité des Genres dans les médias. En France, des rapports ont montré que les femmes ont souvent moins de temps de parole dans les programmes d'info par rapport aux hommes. Cet article vise à évaluer ces différences et fournir des données claires sur la façon dont la Représentation des genres se manifeste dans le contenu des nouvelles.

Pour réaliser cette analyse, les chercheurs ont utilisé un ensemble de données de plus de 11 000 heures d'actualités collectées depuis 21 chaînes françaises en 2023. Ils voulaient voir si les femmes étaient sous-représentées dans des sujets clés comme le sport, la politique et les conflits, tout en disant peut-être plus dans des domaines comme la météo et la santé.

Collecte des données

Les chercheurs ont commencé par transcrire les émissions d'actualités en texte. Ils ont utilisé une technologie avancée pour convertir le langage parlé en texte afin de créer une base de données qui pourrait être analysée. L'ensemble de données comprend une large gamme de programmes classés par type de sujet.

Pour approfondir les données, ils ont aussi créé un sous-ensemble plus petit de dialogues. Ce sous-ensemble a été annoté, ce qui signifie que chaque dialogue a été examiné et étiqueté selon son sujet. Cela a impliqué un processus manuel où les chercheurs ont regardé des extraits des Diffusions et les ont classés selon un ensemble de directives.

Classification des sujets

La catégorisation des sujets était basée sur une liste prédéfinie de 18 catégories que les chercheurs ont créées. Parmi ces catégories, il y avait des sujets comme le sport, la politique, la santé et la météo. En organisant le contenu de cette manière, les chercheurs pouvaient mieux analyser comment les différents genres sont représentés à travers divers sujets.

Après avoir traité les transcriptions, les chercheurs ont utilisé différentes méthodes pour classifier les sujets. Ils ont exploré à la fois des techniques traditionnelles d'apprentissage automatique et des approches plus récentes qui utilisent de grands modèles de langage pour la classification. L'objectif était d'identifier quelle approche donnait les meilleurs résultats.

Résultats de la représentation des genres

L'analyse a révélé que les femmes ne représentaient que 34 % du temps de parole total dans les diffusions étudiées. Ce chiffre est nettement inférieur à la population féminine moyenne en France, qui est d'environ 51,6 %. Les résultats montrent qu'il y a un écart significatif entre la représentation attendue et réelle des femmes dans les actualités diffusées.

En regardant des sujets spécifiques, les données montrent que les femmes parlaient moins fréquemment dans des catégories comme le sport, où leur représentation était notablement basse. Cependant, dans des sujets plus traditionnellement "doux" comme la météo et la santé, le temps de parole des femmes était supérieur à leur moyenne générale.

Différences selon les types de chaînes

L'étude a également examiné s'il y avait des différences de représentation en fonction du type de chaîne. Les chaînes publiques ont montré une plus grande proportion de temps de parole féminin avec 40,5 %, contre 34,1 % pour les chaînes privées. Cela suggère que les politiques et choix éditoriaux des chaînes peuvent jouer un rôle dans la représentation des genres.

Processus d'annotation humaine

Pour vérifier la classification des sujets, un groupe de chercheurs a annoté manuellement une partie des données. Cela a été fait pour assurer l'exactitude du processus de catégorisation et pour fournir une référence pour évaluer la performance des modèles automatisés. Les chercheurs ont noté que certains sujets pouvaient être ambigus et qu'il y avait de la variabilité dans la façon dont différents annotateurs classaient le même dialogue.

Évaluations des modèles

Les chercheurs ont utilisé plusieurs modèles pour classifier les sujets automatiquement. Ils ont comparé la précision de ces modèles en regardant des métriques comme la précision et le rappel. Certains modèles ont mieux fonctionné que d'autres, et les résultats ont aidé à comprendre quelle méthode était la plus efficace pour classifier les dialogues avec précision.

L'analyse a montré que les modèles entraînés sur des données annotées étaient capables de s'améliorer par rapport aux modèles de base. Cela suggère qu'utiliser une combinaison d'efforts humains et machines pourrait conduire à de meilleurs résultats de classification.

Exploration des biais de genre dans les sujets

Après avoir classé les dialogues, les chercheurs ont comparé les résultats pour voir comment les différents genres étaient représentés à travers les divers sujets. Ils ont trouvé que certains sujets étaient largement dominés par les hommes, comme le sport et la politique. À l'inverse, les femmes étaient plus souvent associées à des sujets liés à la santé et à la culture.

En visualisant ces tendances, les chercheurs ont mis en lumière des disparités significatives dans la façon dont les sujets sont discutés par les différents genres. La recherche indique que certains sujets restent très masculins, ce qui pourrait impacter la façon dont le public perçoit les questions de genre dans les médias.

Directions futures

Les chercheurs encouragent d'autres études qui pourraient offrir des aperçus plus profonds sur la représentation des genres dans les médias. Par exemple, examiner comment différents types de chaînes influencent la couverture des sujets de genre fournirait un contexte précieux. Ils ont également exprimé un intérêt à explorer la signification des sujets pour différents publics, comme les perspectives locales par rapport aux nationales.

Un autre domaine qui nécessite de l'attention est la représentation des personnes non-binaires, étant donné que les outils actuels se concentrent principalement sur une compréhension binaire du genre. Ce manque de recherche souligne la nécessité d'une approche plus inclusive dans les études futures.

Conclusion

Cette étude constitue une étape importante pour comprendre la représentation des genres dans les actualités diffusées en France. En analysant une quantité substantielle de données, les chercheurs ont mis en lumière comment certains sujets sont plus enclins à avoir une représentation masculine ou féminine. Les résultats révèlent un besoin clair d'analyse continue et d'action pour garantir une représentation équilibrée des genres dans les médias, soulignant l'importance de poursuivre les efforts pour améliorer l'égalité dans toutes les formes de communication.

Les chercheurs espèrent que leur travail informera non seulement les futures études mais entraînera également des changements dans les politiques et pratiques au sein de l'industrie médiatique pour promouvoir une représentation plus équitable des genres dans la couverture des nouvelles.

Source originale

Titre: Automatic Classification of News Subjects in Broadcast News: Application to a Gender Bias Representation Analysis

Résumé: This paper introduces a computational framework designed to delineate gender distribution biases in topics covered by French TV and radio news. We transcribe a dataset of 11.7k hours, broadcasted in 2023 on 21 French channels. A Large Language Model (LLM) is used in few-shot conversation mode to obtain a topic classification on those transcriptions. Using the generated LLM annotations, we explore the finetuning of a specialized smaller classification model, to reduce the computational cost. To evaluate the performances of these models, we construct and annotate a dataset of 804 dialogues. This dataset is made available free of charge for research purposes. We show that women are notably underrepresented in subjects such as sports, politics and conflicts. Conversely, on topics such as weather, commercials and health, women have more speaking time than their overall average across all subjects. We also observe representations differences between private and public service channels.

Auteurs: Valentin Pelloin, Lena Dodson, Émile Chapuis, Nicolas Hervé, David Doukhan

Dernière mise à jour: 2024-07-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.14180

Source PDF: https://arxiv.org/pdf/2407.14180

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires