GAHD : Lutter contre les discours de haine dans les textes allemands
Un nouveau jeu de données vise à améliorer les modèles de détection de discours haineux pour la langue allemande.
― 7 min lire
Table des matières
- Le défi des Jeux de données existants
- Introduction d'un nouveau jeu de données : GAHD
- Collection dynamique de données adversariales
- Le processus DADC
- L'importance du soutien des annotateurs
- Résultats de la collecte GAHD
- Évaluation des performances du modèle
- Impact de GAHD sur la robustesse du modèle
- Références par rapport à d'autres modèles
- Réflexions sur l'étude
- Conclusion et perspectives futures
- Source originale
- Liens de référence
Le Discours de haine est un problème sérieux qui peut causer du tort et du stress aux individus et aux communautés. Les plateformes en ligne sont souvent utilisées pour diffuser des messages haineux, il est donc important de développer des systèmes capables d'identifier et de gérer efficacement ce type de contenu. Les modèles de détection de discours de haine analysent le texte pour signaler un langage nuisible ciblant des groupes ou des individus spécifiques selon leurs caractéristiques, comme la race, la religion ou le genre.
Jeux de données existants
Le défi desBeaucoup de modèles de détection de discours de haine s'appuient sur des jeux de données collectés sur les réseaux sociaux ou dans les sections de commentaires. Cependant, ces jeux de données contiennent souvent des biais et des lacunes. Ces problèmes peuvent conduire à des modèles qui identifient mal le discours de haine ou qui échouent complètement à le reconnaître. Cela donne des modèles inefficaces qui peuvent ne pas bien fonctionner dans des situations réelles.
Pour résoudre ces problèmes, les chercheurs cherchent des méthodes pour créer de meilleurs jeux de données, notamment en collectant des Exemples adversariaux. Ce sont des exemples spécifiquement conçus pour défier les modèles en exploitant leurs faiblesses.
Introduction d'un nouveau jeu de données : GAHD
Dans ce contexte, un nouveau jeu de données appelé GAHD a été créé pour améliorer la détection du discours de haine spécifiquement pour la langue allemande. Ce jeu de données se compose d'environ 11 000 exemples de texte adversarial. Le processus de collecte a impliqué plusieurs tours de collecte de données, où les Annotateurs étaient chargés de créer des exemples qui confondraient les modèles existants.
Collection dynamique de données adversariales
La Collection dynamique de données adversariales (DADC) est la méthode utilisée pour rassembler les données pour GAHD. Elle implique plusieurs tours au cours desquels les annotateurs développent des textes qui trompent un modèle cible en le faisant faire des classifications incorrectes. Le modèle est ensuite réentraîné avec les nouveaux exemples collectés, ce qui améliore ses performances au fil du temps.
Le processus DADC
Tour 1 : Création libre d'exemples
Au premier tour, les annotateurs ont été invités à créer des exemples librement, essayant de tromper le modèle du mieux qu'ils pouvaient. Ce tour a produit un mélange d'exemples de discours de haine et de non-discours de haine, aidant à établir un jeu de données initial.Tour 2 : Validation des exemples traduits
Le deuxième tour a consisté à utiliser des exemples traduits d'un jeu de données anglais. Les annotateurs ont validé ces traductions et ont proposé de nouveaux exemples basés sur celles-ci, ce qui a conduit à un ensemble d'entrées plus diversifié.Tour 3 : Validation de journaux
Pour le troisième tour, des phrases provenant de journaux allemands ont été analysées. Toute phrase que le modèle a classée par erreur comme discours de haine a été examinée par les annotateurs. Étant donné que les articles de presse sont censés être factuels et neutres, beaucoup de ces erreurs de classification ont révélé des faiblesses potentielles dans le modèle.Tour 4 : Exemples contrastifs
Lors du dernier tour, les annotateurs ont créé des exemples contrastifs basés sur les entrées précédemment collectées. Ce processus a impliqué d'ajuster des exemples existants pour inverser leurs étiquettes, augmentant ainsi la variété et la complexité du jeu de données.
L'importance du soutien des annotateurs
La collecte de données peut être difficile et chronophage. Le succès du DADC dépend largement de la créativité et de l'effort des annotateurs. Pour améliorer leur efficacité, les chercheurs ont introduit diverses stratégies de soutien.
Ces méthodes de soutien ont inclus la fourniture de prompts d'exemple pour inspirer les annotateurs et les inciter à créer des entrées plus diverses. En offrant des conseils et des ressources, les annotateurs ont pu produire des exemples de meilleure qualité plus efficacement.
Résultats de la collecte GAHD
Le jeu de données final GAHD comprend un total de 10 996 exemples, dont environ 42,4 % classés comme discours de haine. Le processus de création a mis en évidence des améliorations significatives des performances des modèles après chaque tour de collecte de données. Les résultats ont montré que les modèles entraînés sur les données GAHD avaient nettement mieux performé, indiquant que la diversité et la nature adversariale du jeu de données contribuaient à une robustesse améliorée.
Évaluation des performances du modèle
Pour voir comment les modèles ont performé après leur entraînement sur GAHD, plusieurs méthodes d'évaluation ont été appliquées. La performance a été mesurée en utilisant différents ensembles de tests pour s'assurer que les modèles pouvaient gérer efficacement différents types de données.
Impact de GAHD sur la robustesse du modèle
L'entraînement avec les données GAHD a conduit à des améliorations notables dans la capacité des modèles à détecter le discours de haine. L'augmentation de performance variait entre 18 et 20 points de pourcentage dans différentes évaluations. Les améliorations ont été observées à travers divers indicateurs, suggérant que les modèles sont devenus meilleurs pour distinguer le discours de haine du non-discours de haine.
Références par rapport à d'autres modèles
En plus de tester les modèles entraînés sur GAHD, divers API commerciaux et grands modèles de langage ont été évalués à l'aide de ce jeu de données. Les résultats ont montré que la plupart de ces systèmes avaient du mal avec la complexité de GAHD, seuls quelques-uns atteignant des scores satisfaisants.
Réflexions sur l'étude
La création de GAHD illustre la nécessité de méthodes de collecte de données plus efficaces dans le traitement du langage. En employant des méthodes diverses pour impliquer les annotateurs, l'étude a pu rassembler un riche jeu de données qui améliore non seulement les modèles existants mais éclaire aussi les nuances impliquées dans la détection du discours de haine.
Les chercheurs ont conclu que fournir un soutien varié aux annotateurs est essentiel pour améliorer leur créativité et leur efficacité, menant à de meilleurs jeux de données pour former des modèles. Cela bénéficie non seulement à la détection du discours de haine mais peut aussi s'appliquer à d'autres domaines du traitement du langage naturel.
Conclusion et perspectives futures
GAHD représente une avancée significative dans le domaine de la détection du discours de haine. Ses stratégies de collecte innovantes et son processus d'évaluation approfondi servent de modèle pour de futures recherches dans ce domaine. Les résultats soulignent l'importance d'une amélioration continue de l'entraînement des modèles grâce à des jeux de données robustes.
À l'avenir, il y a plusieurs pistes prometteuses pour de nouvelles recherches. L'exploration de stratégies de soutien plus diversifiées pour les annotateurs, ainsi que l'exploitation des avancées dans le traitement du langage naturel comme les applications potentielles des grands modèles de langage, pourrait offrir des développements passionnants pour rendre la détection du discours de haine encore plus efficace.
Ce jeu de données et les enseignements tirés de sa création seront déterminants pour façonner des modèles plus résilients capables de relever les défis posés par le discours de haine en ligne.
Titre: Improving Adversarial Data Collection by Supporting Annotators: Lessons from GAHD, a German Hate Speech Dataset
Résumé: Hate speech detection models are only as good as the data they are trained on. Datasets sourced from social media suffer from systematic gaps and biases, leading to unreliable models with simplistic decision boundaries. Adversarial datasets, collected by exploiting model weaknesses, promise to fix this problem. However, adversarial data collection can be slow and costly, and individual annotators have limited creativity. In this paper, we introduce GAHD, a new German Adversarial Hate speech Dataset comprising ca.\ 11k examples. During data collection, we explore new strategies for supporting annotators, to create more diverse adversarial examples more efficiently and provide a manual analysis of annotator disagreements for each strategy. Our experiments show that the resulting dataset is challenging even for state-of-the-art hate speech detection models, and that training on GAHD clearly improves model robustness. Further, we find that mixing multiple support strategies is most advantageous. We make GAHD publicly available at https://github.com/jagol/gahd.
Auteurs: Janis Goldzycher, Paul Röttger, Gerold Schneider
Dernière mise à jour: 2024-03-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.19559
Source PDF: https://arxiv.org/pdf/2403.19559
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/jagol/gahd
- https://huggingface.co/deepset/gelectra-large
- https://translate.google.com
- https://wortschatz.uni-leipzig.de/de/download/German
- https://huggingface.co/sentence-transformers/all-mpnet-base-v2
- https://www.sbert.net/
- https://platform.openai.com/docs/models/gpt-3-5
- https://platform.openai.com/docs/models
- https://laion.ai/blog/leo-lm/
- https://www.perspectiveapi.com/
- https://platform.openai.com/docs/guides/moderation
- https://www.digitalreligions.uzh.ch/en.html
- https://creativecommons.org/licenses/by/4.0/
- https://platform.openai.com/docs/guides/text-generation/json-mode
- https://perspectiveapi.com/
- https://aclanthology.org/2021.acl-long.132.pdf