Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Lutter contre le sexisme en ligne grâce à des méthodes de détection innovantes

La recherche se concentre sur l'amélioration des systèmes pour identifier et classer le sexisme en ligne de manière efficace.

― 6 min lire


Lutter contre le sexismeLutter contre le sexismeen lignedétecter le sexisme en ligne.La recherche avance des modèles pour
Table des matières

Le sexisme et la misogynie sont des problèmes sérieux qui ont pris de l’ampleur sur les réseaux sociaux. Cette augmentation rend non seulement les espaces en ligne hostiles, mais promeut aussi des stéréotypes négatifs, causant du tort aux individus et aux communautés. Pour contrer ces comportements nuisibles, des chercheurs travaillent sur la Détection et la classification du sexisme en ligne. Un récent concours s’est concentré sur l’amélioration de ces systèmes de détection pour les rendre plus faciles à comprendre. L’objectif est d’identifier clairement le contenu sexiste et de le classer dans des catégories spécifiques.

Contexte

La montée du sexisme en ligne a posé des défis importants pour surveiller et traiter ce comportement. Divers efforts de recherche se sont concentrés sur la détection du sexisme, mais beaucoup de systèmes existants sont difficiles à interpréter. La tâche récente vise à améliorer la clarté de ces modèles de détection. Les participants de cette tâche devaient créer des systèmes qui signalent les messages sexistes et les classent en différents types en fonction de la gravité ou des spécificités.

Approche de recherche

Étant donné les défis pour rassembler des données précises, les chercheurs cherchent souvent des moyens d'utiliser des données existantes pour entraîner efficacement leurs modèles. Des études antérieures ont montré que former davantage les modèles, en utilisant des données de catégories pertinentes, peut améliorer leur performance dans l'identification de types spécifiques de contenu. Notre approche a été influencée par ces résultats.

Nous avons utilisé plusieurs ensembles de données pertinents pour la détection de discours haineux et de sexisme, comprenant divers systèmes de labellisation : certains classaient les messages comme discours haineux et d'autres se concentraient sur différentes Classifications du sexisme. Notre but était d’identifier les meilleures techniques pour préparer les données, entraîner les modèles et améliorer la performance en utilisant deux stratégies principales : un Entraînement supplémentaire et un Apprentissage multitâche.

Collecte et préparation des données

La détection du sexisme était basée sur un grand ensemble de données contenant des messages provenant de plateformes sociales comme Reddit et Gab. Cet ensemble de données a été utilisé pour entraîner et évaluer nos modèles. Les données ont été divisées en deux parties : une pour l’entraînement et une pour le test. Nous avons également utilisé plusieurs autres ensembles de données qui se concentraient sur le discours haineux et le sexisme.

Avant l’entraînement, nous devions nettoyer et organiser les données. Ce processus impliquait de supprimer les noms d’utilisateur et les URLs des messages pour garantir que les informations personnelles n'étaient pas utilisées dans notre analyse. De plus, nous avons standardisé les hashtags et converti les émojis en mots pour faciliter le traitement du texte.

Entraînement supplémentaire

Dans notre recherche, nous avons testé différentes méthodes d'entraînement pour voir laquelle était la plus efficace. Nous avons spécifiquement examiné deux méthodes :

  1. Entraînement préalable adapté au domaine (DAPT) : Cette méthode utilisait des données liées au sujet du sexisme pour former davantage le modèle.

  2. Entraînement préalable adapté à la tâche (TAPT) : Cette méthode se concentrait uniquement sur des données pertinentes aux tâches spécifiques.

Nous avons testé ces méthodes pour découvrir laquelle pouvait améliorer la capacité du modèle à détecter le sexisme dans les textes.

Apprentissage multitâche

Une autre partie clé de notre recherche impliquait l'utilisation de l'apprentissage multitâche (MTL). Cette approche permet à un modèle d'apprendre de plusieurs tâches en même temps, plutôt que de se concentrer uniquement sur une seule. En s’entraînant sur différents types de tâches liées, nous espérions enrichir la compréhension du contenu par le modèle et améliorer ses performances globales.

Dans le MTL, nous avons utilisé un modèle partagé qui traitait les tâches ensemble mais maintenait des parties distinctes pour chaque tâche. De cette façon, le modèle pouvait combiner des connaissances de divers domaines tout en résolvant des problèmes différents. Nous avons examiné combien il était utile de former nos modèles de cette manière, en nous concentrant particulièrement sur les tâches liées à la détection du sexisme et du discours haineux.

Résultats des expériences

Tout au long de nos tests, nous avons découvert que l’entraînement supplémentaire utilisant des données spécifiques au domaine améliorait généralement la performance. Nous avons constaté que l'apprentissage multitâche était particulièrement bénéfique pour certaines tâches, surtout quand les tâches concernaient la détection générale du discours haineux. Pour les tâches axées sur des formes spécifiques de sexisme, des méthodes d'entraînement standard se sont avérées plus efficaces.

Conclusion

L'étude a révélé des perspectives prometteuses sur les processus de détection du sexisme en ligne. En utilisant des stratégies d'entraînement supplémentaire et d'apprentissage multitâche, nous avons pu améliorer la performance de nos modèles. Différentes tâches ont bénéficié de différentes techniques d'entraînement, soulignant l'importance de choisir la bonne approche en fonction des objectifs spécifiques de la recherche.

À l'avenir, il est clair que créer des modèles capables de détecter et de classer efficacement le sexisme dans les espaces en ligne est crucial. Alors que les environnements en ligne continuent de croître, nos efforts pour les rendre plus sûrs et plus respectueux pour tous les utilisateurs doivent également progresser.

Source originale

Titre: LCT-1 at SemEval-2023 Task 10: Pre-training and Multi-task Learning for Sexism Detection and Classification

Résumé: Misogyny and sexism are growing problems in social media. Advances have been made in online sexism detection but the systems are often uninterpretable. SemEval-2023 Task 10 on Explainable Detection of Online Sexism aims at increasing explainability of the sexism detection, and our team participated in all the proposed subtasks. Our system is based on further domain-adaptive pre-training (Gururangan et al., 2020). Building on the Transformer-based models with the domain adaptation, we compare fine-tuning with multi-task learning and show that each subtask requires a different system configuration. In our experiments, multi-task learning performs on par with standard fine-tuning for sexism detection and noticeably better for coarse-grained sexism classification, while fine-tuning is preferable for fine-grained classification.

Auteurs: Konstantin Chernyshev, Ekaterina Garanina, Duygu Bayram, Qiankun Zheng, Lukas Edman

Dernière mise à jour: 2023-06-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.05075

Source PDF: https://arxiv.org/pdf/2306.05075

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires