L'impact de la présentation sur les perceptions des discours de haine
Examiner comment les différents agencements affectent les opinions sur le discours de haine.
― 6 min lire
Table des matières
- L'étude et son but
- Normes dans les communautés en ligne
- Importance de l'interprétation
- Conception de l'étude
- Principales conclusions
- Familiarité des participants et idées préconçues
- Pas d'impact significatif des mises en page
- Insights qualitatifs
- Implications pour la recherche future
- Source originale
- Liens de référence
Cet article examine si différentes manières de présenter des informations sur les modèles d'Apprentissage automatique peuvent changer la façon dont les gens perçoivent des phrases qui peuvent contenir des discours de haine, en se concentrant spécifiquement sur la "Misogynie" et le "Racisme". Dans les discussions récentes, il y a eu des opinions variées sur la manière dont la présentation des informations sur l'apprentissage automatique peut influencer les évaluations des gens.
L'étude et son but
On a mené une étude où des Participants ont regardé des phrases qui pourraient être considérées comme offensantes. Ils ont vu ces phrases dans trois mises en page différentes qui expliquaient comment l'apprentissage automatique identifiait les discours de haine. L'objectif était de découvrir si ces mises en page changeaient la façon dont les participants évaluaient les phrases.
Pour explorer cette question, on a utilisé une approche de sondage où les participants devaient évaluer s'ils étaient d'accord ou pas avec une affirmation qualifiant une phrase de "Racisme" ou "Misogynie". On a utilisé une méthode d'analyse spécifique pour décomposer les résultats et voir si les mises en page avaient fait une différence.
Normes dans les communautés en ligne
Les groupes en ligne établissent des règles pour réguler comment les membres interagissent. Ces règles évoluent à mesure que les opinions des gens changent, ce qui rend difficile d'avoir une définition claire de ce qui est considéré comme une violation. Dans un travail précédent, on a suggéré un cadre d'apprentissage automatique qui aide ces groupes à apprendre ce qui compte comme un mauvais comportement basé sur les retours des membres. Ce cadre utilise des modèles avancés pour comprendre et catégoriser les actions dans des environnements comme Wikipedia.
Importance de l'interprétation
Dans nos discussions précédentes, on a noté qu'au-delà de juste repérer les violations des normes sur les discours de haine, il est essentiel pour ces systèmes d'expliquer les opinions diverses dans les groupes en ligne. Ça aide les gens à comprendre quels mots dans une phrase mènent à une classification par le modèle. Pour rendre ça plus clair, on a utilisé un algorithme spécifique qui aide à visualiser quels mots contribuent à identifier une phrase comme haineuse.
On a conçu trois mises en page pour présenter ces informations : une mise en page se concentrait sur les mots spécifiques d'une phrase qui influencent sa classification, une autre fournissait un résumé de la pertinence globale des mots dans un ensemble de données, et la troisième combinait les deux approches. Chaque mise en page visait à donner aux utilisateurs une perspective différente sur comment le modèle est arrivé à sa conclusion.
Conception de l'étude
Notre étude utilisateur a réuni des participants de divers horizons pour évaluer ces mises en page. Chaque participant a rempli un questionnaire où il a évalué des phrases deux fois : d'abord sans aucune information interprétative, puis à nouveau avec. Ça nous a permis de voir si fournir des données interprétatives changeait leurs opinions.
L'étude a été soigneusement structurée pour garantir qu'on recueillait des résultats significatifs. On a divisé les participants en trois groupes, chaque groupe évaluant différentes mises en page. Chaque participant a évalué 20 phrases, représentant également les deux catégories de discours de haine. On a utilisé une méthode statistique solide pour analyser leurs évaluations basées sur divers facteurs, y compris comment ils se définissaient en termes de genre et d'ethnicité.
Principales conclusions
Après avoir analysé les réponses, on a trouvé qu'aucune des mises en page d'interprétabilité n'avait significativement changé la façon dont les participants percevaient la misogynie et le racisme. En d'autres termes, la manière dont on a présenté l'information n'a pas influencé leurs évaluations. Cependant, les différences individuelles, comme les phrases spécifiques et les perspectives personnelles, ont affecté les notes.
Familiarité des participants et idées préconçues
Les participants ont montré qu'ils avaient une idée claire de ce qui constitue un discours de haine, alignant souvent leurs évaluations avec les résultats attendus du modèle. Beaucoup de commentaires ont indiqué que les données interprétatives confirmaient leurs croyances préexistantes concernant le discours de haine plutôt que de les changer.
La familiarité avec le sujet a conduit à des réponses plus directes. Les participants trouvaient souvent les termes dans les phrases assez clairs pour faire un jugement rapide sans avoir besoin d'explications détaillées des mises en page.
Pas d'impact significatif des mises en page
Quand on a comparé les résultats selon les différentes mises en page d'interprétabilité, on a constaté qu'aucune n'avait un impact plus significatif que les autres. Le genre et l'ethnicité n'ont pas non plus influencé les évaluations. Ça indique que les participants se fient surtout à leur compréhension et leurs perceptions du discours de haine, plutôt qu'à la manière dont l'information leur a été présentée.
Insights qualitatifs
Les participants ont fourni des commentaires précieux qui ont donné un aperçu de leurs expériences. Beaucoup ont exprimé des préoccupations quant à l'efficacité des mises en page d'interprétabilité. Certains ont remarqué que la pertinence mise en avant par les modèles ne semblait pas ciblée ou précise. Ça suggère que même si les modèles visent à apporter de la clarté, ils peuvent parfois avoir du mal à résonner avec la compréhension humaine.
Implications pour la recherche future
Le manque d'influence des mises en page d'interprétabilité dans cette étude suggère qu'il faut que la recherche future explore d'autres types de violations. Il pourrait y avoir des contextes différents où l'utilisation de mises en page d'interprétabilité peut mener à des résultats variés. Par exemple, dans d'autres domaines comme les réunions en ligne, les participants pourraient avoir moins de connaissances préconçues sur les règles, permettant à l'information interprétative d'être plus impactante.
En conclusion, même si l'interprétabilité reste un outil important en apprentissage automatique, son efficacité à changer les perceptions sur le discours de haine reste limitée. Les études futures devraient continuer à affiner ces approches et explorer des applications plus larges pour déterminer où elles peuvent être les plus bénéfiques.
Titre: Can Interpretability Layouts Influence Human Perception of Offensive Sentences?
Résumé: This paper conducts a user study to assess whether three machine learning (ML) interpretability layouts can influence participants' views when evaluating sentences containing hate speech, focusing on the "Misogyny" and "Racism" classes. Given the existence of divergent conclusions in the literature, we provide empirical evidence on using ML interpretability in online communities through statistical and qualitative analyses of questionnaire responses. The Generalized Additive Model estimates participants' ratings, incorporating within-subject and between-subject designs. While our statistical analysis indicates that none of the interpretability layouts significantly influences participants' views, our qualitative analysis demonstrates the advantages of ML interpretability: 1) triggering participants to provide corrective feedback in case of discrepancies between their views and the model, and 2) providing insights to evaluate a model's behavior beyond traditional performance metrics.
Auteurs: Thiago Freitas dos Santos, Nardine Osman, Marco Schorlemmer
Dernière mise à jour: 2024-03-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.05581
Source PDF: https://arxiv.org/pdf/2403.05581
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.