Détecter la misogynie dans le langage des réseaux sociaux italiens
Une étude sur l'identification du langage misogyne à travers des mots péjoratifs dans les tweets.
― 11 min lire
Table des matières
- Langage péjoratif
- Questions de recherche et méthodologie
- Compilation du corpus
- Annotation des données
- Méthodologie pour détecter la misogynie
- Résultats et évaluation
- Analyse qualitative des erreurs
- Analyse des embeddings de mots
- Analyse des modèles de langage
- Conclusion
- Considérations éthiques
- Source originale
- Liens de référence
La Misogynie se manifeste souvent à travers un langage blessant, ce qui rend important de trouver des moyens de la détecter sur les réseaux sociaux. Beaucoup de mots neutres peuvent avoir des significations négatives quand ils sont utilisés comme insultes. Comprendre les significations de ces mots est crucial pour repérer le langage misogyniste. Pour aider avec ça, on présente une nouvelle collection de 1 200 tweets italiens qui ont été soigneusement étiquetés pour montrer à la fois un langage nuisible et un contenu misogyne.
Langage péjoratif
Le langage péjoratif fait référence à des mots ou des phrases qui peuvent rabaisser ou insulter quelqu'un. Par exemple, certains mots peuvent sembler inoffensifs mais peuvent prendre une signification négative selon comment ils sont utilisés. Certains termes peuvent désigner à la fois des idées neutres et des traits négatifs. La façon dont ces termes changent de signification dépend de leur contexte. Ce changement de signification est connu sous le nom de péjoration.
En revanche, la mélioration est quand un terme qui commence négatif finit par avoir une signification neutre ou positive. Par exemple, certaines insultes peuvent être récupérées par les groupes contre lesquels elles ont été utilisées, changeant leur impact au fil du temps.
Les termes péjoratifs sont particulièrement pertinents lorsqu'on cherche des signes de misogynie, car beaucoup de mots inoffensifs sont souvent utilisés pour insulter les femmes, en se concentrant sur leur apparence ou leur intelligence. On appelle ces termes nuisibles "épithètes péjoratives." Des exemples en italien incluent "balena" qui signifie à la fois "baleine" et est utilisé pour insulter les femmes en surpoids, et "gallina," qui signifie "poule" mais peut impliquer la stupidité.
Les modèles modernes de langage ont du mal à identifier précisément le langage misogyniste lorsque des phrases incluent ces termes difficiles. Quand des mots qui peuvent avoir plusieurs significations sont présents dans les données d'entraînement mais pas dans les données de test, cela entraîne beaucoup d'erreurs dans la classification.
Pour améliorer la détection du langage misogyniste, on propose de désambiguïser d'abord les termes péjoratifs. Notre objectif est de découvrir si clarifier des termes potentiellement blessants peut mener à une meilleure identification du langage misogyniste tout en réduisant les erreurs.
Questions de recherche et méthodologie
Pour aborder nos objectifs, on se concentre sur trois questions principales :
- Quels mots péjoratifs sont couramment utilisés contre les femmes en ligne ?
- Peut-on améliorer les modèles pour identifier si les mots dans les tweets sont utilisés de manière négative ou neutre ?
- Dans quelle mesure les modèles de langage comprennent-ils les mots péjoratifs dans leur contexte ?
Pour répondre à la première question, on crée une liste de termes offensants utilisés pour cibler les femmes. Cela nous aide à rassembler des tweets contenant ces mots, que l'on utilise ensuite pour construire notre collection de 1 200 tweets.
Pour la deuxième question, on peaufine deux modèles basés sur BERT, un modèle populaire de compréhension du langage. Le premier modèle détermine si un mot dans un tweet est utilisé de manière négative ou neutre, tandis que le second modèle détecte la misogynie. Les résultats du premier modèle aident à informer le second sur la nature des mots utilisés.
En réponse à la troisième question, on analyse à quel point les modèles de langage plus larges comprennent ces termes péjoratifs en utilisant leurs motifs de mots dans le contexte.
Compilation du corpus
Pour rassembler les mots péjoratifs utilisés contre les femmes dans les communautés en ligne italiennes, on suit deux étapes principales :
Création d'un Lexique : On rassemble une liste de mots provenant de diverses sources, y compris des contributions de locuteurs natifs qui utilisent régulièrement les réseaux sociaux, et des bases de données existantes de termes offensants. L'accent est mis sur les mots polysemiques-ceux ayant à la fois des significations neutres et négatives.
Récupération de tweets : En utilisant la liste compilée, on collecte des tweets qui incluent ces termes péjoratifs. Pour notre collection, on vise un mélange équilibré de tweets utilisant ces mots de manière neutre et offensive.
Pour assurer la qualité de nos choix lexicaux, on vérifie manuellement que ces mots peuvent être utilisés de deux manières en les recherchant sur Twitter. En conséquence, on termine avec une liste finale de 24 mots qui ont cette double utilisation.
Annotation des données
Pour étiqueter notre ensemble de données selon les significations des mots et la détection de la misogynie, on fait appel à six annotateurs ayant une expertise dans divers domaines. Au départ, on réalise une étude pilote pour explorer les défis de l'annotation et vérifier les différences de perspective entre les annotateurs masculins et féminins.
L'annotation suit une approche flexible, permettant des jugements personnels sans directives strictes. Chaque annotateur examine 50 tweets. La constance des étiquettes est ensuite mesurée à l'aide d'un outil d'analyse statistique, montrant un accord modéré parmi le groupe.
Grâce aux retours reçus des annotateurs, on identifie plusieurs points clés de débat :
Manque de contexte : Certains tweets sont trop brefs, rendant l'intention de l'auteur floue. On étiquette ceux-ci comme neutres lorsque le sens ne peut pas être déterminé.
Compliments objectivants : Certains tweets peuvent sembler flatteurs en surface mais sont en réalité objectivants. On les classe comme péjoratifs.
Utilisation envers des objets : Un terme utilisé négativement pour un objet inanimé ne le rend pas automatiquement péjoratif. On les étiquette comme neutres.
Termes péjoratifs contre les hommes : Les mots utilisés pour insulter les hommes doivent être étiquetés comme péjoratifs, même s'ils ne concernent pas le principal sujet de l'étude.
Discours rapporté : Si un terme péjoratif est utilisé dans un discours rapporté, il peut toujours être considéré comme négatif malgré le contexte global étant neutre. On les catégorise comme péjoratifs.
Après les études pilotes, on annotent notre collection de 1 200 tweets. Pour assurer l'exactitude, un annotateur s'occupe de cette tâche, garantissant la cohérence à travers l'ensemble de données. La Corrélation finale entre la misogynie et les étiquettes péjoratives montre un lien significatif-beaucoup de tweets contenant des mots péjoratifs sont également identifiés comme misogynes.
Méthodologie pour détecter la misogynie
Pour évaluer l'efficacité de notre approche, on utilise un modèle basé sur BERT populaire appelé AlBERTo. On le peaufine pour effectuer la désambiguïsation des mots péjoratifs et la détection de la misogynie.
La tâche de désambiguïsation implique d'identifier si un mot dans une phrase est péjoratif ou neutre. Cette classification aide à enrichir l'entrée pour le modèle de détection de la misogynie. On explore deux méthodes pour faire cela :
- Concaténation : Ajouter des informations sur les mots péjoratifs à la fin des tweets.
- Substitution : Remplacer des termes ambigus par leurs équivalents clairs et non ambigus.
On mène des expériences sur notre ensemble de données et des ensembles de données de référence, cherchant des améliorations dans la précision de classification.
Résultats et évaluation
Les résultats de nos expériences montrent que la désambiguïsation des mots péjoratifs améliore significativement la détection du langage misogyne. Les deux méthodes que nous avons essayées-concaténation et substitution-montrent des améliorations claires dans la performance du modèle.
On analyse aussi les taux de faux positifs, en examinant combien de fois le modèle étiquette incorrectement des tweets neutres comme misogynes. Après avoir appliqué notre désambiguïsation des mots péjoratifs, on observe une baisse notable des faux positifs, surtout dans notre ensemble de test.
Bien qu'on constate des gains dans nos résultats, l'impact sur les anciens ensembles de données de référence est plus limité en raison de leur nombre plus faible d'exemples péjoratifs. Cela suggère que notre approche fonctionne mieux lorsque l'ensemble d'entraînement comprend un bon mélange d'utilisations péjoratives et neutres.
Analyse qualitative des erreurs
Pour mieux comprendre où nos modèles ont des difficultés, on passe en revue manuellement les tweets mal classés dans différents paramètres.
Dans les cas où la misogynie rapportée est présente, les modèles ont souvent du mal à reconnaître l'intention derrière un terme péjoratif utilisé dans un contexte de condamnation. De plus, lorsque des termes péjoratifs sont dirigés vers des hommes, ces instances sont parfois classées à tort comme misogynes.
Analyse des embeddings de mots
Pour analyser comment notre modèle apprend les significations des mots péjoratifs, on extrait et étudie les embeddings de mots qu'il utilise. Ces embeddings aident à représenter à quel point les mots sont étroitement liés en signification.
On examine spécifiquement la similarité moyennée entre nos termes péjoratifs et leurs mots ancrés neutres ou négatifs. Les résultats montrent une distinction claire dans la façon dont le modèle capture le contexte après le peaufiner-indiquant qu'il a effectivement appris à mieux comprendre le sens derrière ces mots.
Analyse des modèles de langage
Pour approfondir la compréhension autour des termes péjoratifs, on invite des modèles de langage populaires à clarifier les significations de ces mots dans le contexte sans aucune formation préalable.
Trois modèles open-source sont testés, et on constate que, bien qu'un modèle performe bien dans la compréhension des variations subtiles de signification, d'autres ont beaucoup de mal et fournissent souvent des réponses génériques qui ne clarifient pas les termes efficacement.
Cela révèle un écart dans la manière dont ces modèles saisissent les significations nuancées, suggérant que des développements et des formations supplémentaires pourraient donner de meilleurs résultats.
Conclusion
On a introduit une méthode pour désambiguïser les mots péjoratifs comme première étape dans la détection de la misogynie dans les tweets. En construisant une collection complète de mots polysémiques et un nouvel ensemble de données de tweets, on a montré que clarifier les significations des mots peut améliorer les efforts de détection.
Les expériences soulignent la capacité de notre modèle à réduire les taux de mauvaise classification, et notre analyse des embeddings de mots illustre une meilleure compréhension des significations nuancées après le peaufiner.
Enfin, on a découvert que d'autres modèles de langue ont encore une marge d'amélioration en ce qui concerne la désambiguïsation des termes péjoratifs. Les efforts futurs pourraient inclure l'expansion de ce travail à d'autres langues et cultures, ce qui permettrait d'avoir une perspective plus large sur la façon dont le langage façonne les perceptions du genre.
Considérations éthiques
On a veillé à respecter les directives de Twitter concernant l'utilisation des données tout en collectant notre ensemble de données à partir de tweets publiquement disponibles. L'anonymat des individus mentionnés dans notre travail est strictement maintenu.
Bien que notre recherche se concentre sur la langue italienne, les résultats laissent entrevoir le potentiel d'étendre cette approche à d'autres langues. Cela fournirait des informations supplémentaires sur l'utilisation des termes péjoratifs et leurs implications dans différents contextes culturels.
Bien que nos résultats soient précieux, on reconnaît les limites de la perspective d'un seul annotateur et les défis introduits par les substitutions de mots qui peuvent ne pas toujours porter la même signification.
À l'avenir, intégrer une gamme plus large de modèles et s'attaquer aux limitations mentionnées précédemment renforcera notre compréhension du langage dans le contexte de la détection de la misogynie.
Titre: PejorativITy: Disambiguating Pejorative Epithets to Improve Misogyny Detection in Italian Tweets
Résumé: Misogyny is often expressed through figurative language. Some neutral words can assume a negative connotation when functioning as pejorative epithets. Disambiguating the meaning of such terms might help the detection of misogyny. In order to address such task, we present PejorativITy, a novel corpus of 1,200 manually annotated Italian tweets for pejorative language at the word level and misogyny at the sentence level. We evaluate the impact of injecting information about disambiguated words into a model targeting misogyny detection. In particular, we explore two different approaches for injection: concatenation of pejorative information and substitution of ambiguous words with univocal terms. Our experimental results, both on our corpus and on two popular benchmarks on Italian tweets, show that both approaches lead to a major classification improvement, indicating that word sense disambiguation is a promising preliminary step for misogyny detection. Furthermore, we investigate LLMs' understanding of pejorative epithets by means of contextual word embeddings analysis and prompting.
Auteurs: Arianna Muti, Federico Ruggeri, Cagri Toraman, Lorenzo Musetti, Samuel Algherini, Silvia Ronchi, Gianmarco Saretto, Caterina Zapparoli, Alberto Barrón-Cedeño
Dernière mise à jour: 2024-04-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.02681
Source PDF: https://arxiv.org/pdf/2404.02681
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.merriam-webster.com/dictionary/pejorative
- https://github.com/arimuti/PejorativITy
- https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words/tree/master
- https://twarc-project.readthedocs.io
- https://github.com/teelinsan/camoscio
- https://huggingface.co/meta-llama/Llama-2-7b-hf
- https://huggingface.co/mistralai