Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Apprentissage automatique# Réseaux sociaux et d'information

Améliorer la détection des discours de haine grâce à l'auto-formation

Cette recherche explore des méthodes d'auto-formation pour améliorer la détection de discours haineux sur les réseaux sociaux.

― 8 min lire


Détection de discoursDétection de discourshaineux amélioréedes commentaires nuisibles sur lesaméliorent la précision de détectionLes méthodes d'auto-formation
Table des matières

Les réseaux sociaux font partie intégrante de nos vies, mais c'est aussi un endroit où les gens publient des remarques blessantes et offensantes. Comme il y a tellement de nouveaux posts chaque seconde, c'est dur pour les humains de tous les surveiller. C'est pour ça qu'on a besoin de programmes informatiques pour repérer et signaler automatiquement ces commentaires nuisibles.

Créer un bon ensemble d'exemples étiquetés, où les commentaires nuisibles et inoffensifs sont clairement marqués, est important pour entraîner ces programmes. Cependant, c'est galère d'obtenir assez d'exemples étiquetés, car la plupart des posts ne sont pas offensants. Il y a beaucoup plus de commentaires inoffensifs que nuisibles. Heureusement, il y a plein de posts non marqués disponibles, ce qui rend leur utilisation pour l'entraînement beaucoup moins chère et plus facile.

Une façon de travailler avec ces posts non marqués, c'est une méthode appelée Auto-formation. Ça consiste à utiliser quelques exemples étiquetés pour aider à identifier et créer de nouveaux exemples. Certaines techniques récentes se concentrent sur l'auto-formation "bruyante", ce qui signifie qu'elles utilisent des méthodes pour ajouter de la variété aux données, garantissant que le programme apprend mieux face à des informations de qualité mixte. Ce papier examine combien l'auto-formation est efficace pour repérer les commentaires offensants, surtout quand elle est combinée avec des techniques de variété de données.

Le défi de la détection des discours de haine

Les plateformes de réseaux sociaux modernes peuvent être super utiles, mais elles amènent aussi pas mal de commentaires négatifs. L'anonymat des utilisateurs conduit souvent à une augmentation des remarques blessantes. Vérifier ces commentaires nuisibles manuellement n'est pas pratique à cause du nombre énorme de posts et de la pression mentale que ça met sur les modérateurs. Ça montre bien qu'il faut des moyens automatiques pour repérer les discours de haine.

Ces dernières années, les chercheurs ont beaucoup bossé pour trouver de nouvelles méthodes et ensembles de données pour identifier les commentaires offensants dans différentes langues et contextes. Cependant, la plupart des ensembles de données disponibles sont déséquilibrés ; ils contiennent beaucoup plus d'exemples non offensants que d'offensants.

Pour gérer ça, on utilise souvent des méthodes traditionnelles comme le sous-échantillonnage ou le sur-échantillonnage. Une autre façon d'aborder le problème, c'est d'appliquer des techniques semi-supervisées comme l'auto-formation, qui peuvent aider à élargir l'ensemble de données sans nécessiter trop d'étiquetage manuel.

Auto-formation expliquée

L'auto-formation est une façon d'apprendre aux machines avec des données étiquetées et non étiquetées. Ça commence par un modèle entraîné avec des exemples étiquetés. Après avoir appris, il essaie de deviner les étiquettes d'un ensemble de données non étiquetées, créant ce qu'on appelle un ensemble faiblement étiqueté. Le modèle combine ensuite les données étiquetées et faiblement étiquetées pour améliorer son entraînement. Ce processus est répété plusieurs fois jusqu'à ce que le modèle n'affiche plus d'améliorations.

L'auto-formation peut être vraiment utile quand il n'y a pas beaucoup d'exemples étiquetés. Ça a déjà montré du succès dans différents domaines comme la vision par ordinateur et le traitement du langage. Au fil des ans, plusieurs variantes de l'auto-formation ont été développées.

Une méthode populaire concerne le modèle enseignant-étudiant, où un modèle "enseignant" guide un modèle "étudiant" en partageant ses résultats. Parfois, un filtre est ajouté pour éliminer les exemples jugés trop incertains ou inutiles.

Approches d'auto-formation bruyante

Les méthodes d'auto-formation bruyante ajoutent de petits changements aux données d'entrée originales ou à ses caractéristiques pour aider le modèle à mieux apprendre. Ces changements, souvent appelés augmentations de données, sont couramment utilisés dans les tâches visuelles mais pas encore assez dans les tâches de langage naturel. Dans l'auto-formation bruyante, ces méthodes aident à s'assurer que le modèle peut gérer différentes variations de données et faire des prédictions précises.

Certaines recherches ont montré que l'efficacité de l'Augmentation de données peut dépendre de la tâche spécifique. Dans le domaine de la détection des discours de haine, des études antérieures ont trouvé des résultats mitigés en utilisant des techniques d'augmentation de données.

Il reste incertain si l'application de l'auto-formation bruyante avec des augmentations de données textuelles peut aider les tâches de Classification utilisant des modèles BERT avancés, qui sont connus pour leur capacité à gérer différents types de variations d'entrée. Le défi avec la détection des discours de haine, c'est qu'elle est très sensible à certains mots. Un petit changement dans un mot peut altérer le sens et donc affecter la classification.

Ce papier présente des expériences utilisant trois types différents d'enrichissement des données - la rétro-traduction, l'échange aléatoire de mots et la substitution aléatoire de synonymes - combinées avec l'auto-formation à travers cinq modèles BERT de tailles variées.

Conclusions clés des expériences

Les résultats des expériences montrent que l'auto-formation améliore la performance des modèles, que l'augmentation de données soit utilisée ou non. Cette amélioration peut atteindre un accroissement de 1,5 % de la performance sur deux ensembles de données. Cependant, lorsque l'auto-formation bruyante avec augmentations de données a été comparée à l'auto-formation standard, les résultats ont montré que l'auto-formation bruyante n'a pas conduit à de meilleures performances, ce qui contredit des findings dans d'autres domaines.

L'étude souligne aussi que certaines techniques d'augmentation de données, en particulier la rétro-traduction, n'ont pas amélioré les scores de classification. Ça suggère que la nature spécifique de la détection des discours de haine peut nécessiter des méthodes plus adaptées.

Une autre découverte importante est que le type de méthode d'augmentation affecte la manière dont les exemples sont classés. Notamment, la substitution de synonymes et l'échange aléatoire de mots ont mieux performé que la rétro-traduction dans de nombreux cas.

Comprendre l'augmentation de données

Les expériences ont examiné à quel point les méthodes d'augmentation étaient capables de générer de nouveaux exemples sans changer le sens du texte original. Le succès a été mesuré par combien de nouveaux mots uniques ont été introduits et si les changements ont entraîné des variations dans la classification des commentaires nuisibles par rapport aux inoffensifs.

Fait intéressant, la rétro-traduction a introduit le plus de nouveaux mots mais a également conduit au plus grand nombre de cas de mauvaise classification-où un commentaire a changé de non-offensif à offensif ou vice versa.

Dans le cas de la substitution de synonymes et de l'échange de mots, bien qu'ils aient produit moins de nouveaux mots, ils ont entraîné un changement plus faible dans la classification. Ça montre à quel point la classification peut être sensible à ce qui peut sembler être des ajustements mineurs dans le texte.

Conclusion

Cette analyse a démontré que l'auto-formation peut améliorer significativement la détection de discours nuisibles à travers différentes tailles de modèles et ensembles de données. Bien que l'auto-formation ait été trouvée bénéfique en général, ajouter du bruit aux données à travers des augmentations comme la rétro-traduction n'a pas conduit aux bénéfices attendus, révélant les défis uniques de la classification des discours de haine.

Les différentes stratégies d'augmentation de données utilisées ont montré des résultats distincts, soulignant la nécessité d'une approche réfléchie dans la conception de méthodes destinées aux tâches de classification impliquant du contenu sensible comme les discours de haine. Les travaux futurs pourraient se concentrer sur le développement de techniques d'augmentation qui respectent les nuances du langage offensant, ainsi que sur l'évaluation de l'efficacité de modèles de langage plus grands dans ce contexte.

Directions futures

Pour faire avancer cette recherche, des efforts peuvent être faits pour créer des techniques d'augmentation de données plus nuancées qui préservent le sens central des mots sensibles sans introduire de variations trompeuses. Des aperçus précieux pourraient être tirés des grands modèles de langage qui peuvent offrir des modifications de texte plus spécialisées tout en restant contextuellement pertinentes.

Avec les développements en cours dans ce domaine de recherche, il y a un potentiel pour des méthodes plus efficaces pour améliorer les modèles d'apprentissage machine visant à identifier et atténuer le contenu nuisible sur les plateformes de réseaux sociaux.

Source originale

Titre: Noisy Self-Training with Data Augmentations for Offensive and Hate Speech Detection Tasks

Résumé: Online social media is rife with offensive and hateful comments, prompting the need for their automatic detection given the sheer amount of posts created every second. Creating high-quality human-labelled datasets for this task is difficult and costly, especially because non-offensive posts are significantly more frequent than offensive ones. However, unlabelled data is abundant, easier, and cheaper to obtain. In this scenario, self-training methods, using weakly-labelled examples to increase the amount of training data, can be employed. Recent "noisy" self-training approaches incorporate data augmentation techniques to ensure prediction consistency and increase robustness against noisy data and adversarial attacks. In this paper, we experiment with default and noisy self-training using three different textual data augmentation techniques across five different pre-trained BERT architectures varying in size. We evaluate our experiments on two offensive/hate-speech datasets and demonstrate that (i) self-training consistently improves performance regardless of model size, resulting in up to +1.5% F1-macro on both datasets, and (ii) noisy self-training with textual data augmentations, despite being successfully applied in similar settings, decreases performance on offensive and hate-speech domains when compared to the default method, even with state-of-the-art augmentations such as backtranslation.

Auteurs: João A. Leite, Carolina Scarton, Diego F. Silva

Dernière mise à jour: 2023-07-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.16609

Source PDF: https://arxiv.org/pdf/2307.16609

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires