Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Ordinateurs et société# Interaction homme-machine# Réseaux sociaux et d'information

Le défi du contre-discours dans la modération en ligne

Examiner la distinction usage-mention dans le discours en ligne.

― 8 min lire


Contre-discours : unContre-discours : undilemme numériquesignificatives.des discussions en ligneLes erreurs de classification menacent
Table des matières

Dans nos conversations quotidiennes, on utilise souvent les mots de différentes manières. Parfois, on les utilise pour exprimer des idées directement, et d'autres fois, on en parle pour discuter de leur signification ou pour citer quelque chose que quelqu'un d'autre a dit. Ce concept s'appelle la Distinction usage-mention. Cette distinction est super importante, surtout quand on parle de discours nuisible en ligne, souvent appelé Contre-discours, qui vise à contester les messages négatifs ou trompeurs.

Qu'est-ce que le Contre-Discours ?

Le contre-discours est une réponse faite par des individus sur des plateformes en ligne pour contrer un discours nuisible. Ça peut inclure des Discours de haine ou de la Désinformation. Quand les gens s'engagent dans le contre-discours, ils peuvent faire référence ou citer du contenu problématique pour exprimer leur désapprobation ou donner un autre point de vue. Cependant, beaucoup de systèmes en ligne qui modèrent le contenu classifient souvent à tort ces efforts de contre-discours comme nuisibles, ce qui mène à une censure inutile.

Importance de Distinguer Usage et Mention

La différence entre utiliser un mot et le mentionner est importante pour comprendre l'intention de l'orateur. Par exemple, dire "Les bananes sont jaunes" utilise le mot "bananes" pour transmettre une information. En revanche, dire "'Bananes' est un mot avec sept lettres" mentionne seulement le terme sans l'utiliser pour exprimer une idée. Quand les algorithmes ne peuvent pas faire la différence entre ces deux usages, ils peuvent classifier à tort des mentions inoffensives de termes nuisibles comme nuisibles elles-mêmes.

Défis Rencontrés par les Systèmes de PLN

Les systèmes de Traitement du Langage Naturel (PLN), qui alimentent de nombreux outils de modération en ligne, ont souvent du mal avec cette distinction. Ils peuvent mal interpréter une mention d'un terme nuisible dans un contexte de contre-discours comme un soutien à cette idée nuisible. Cela conduit à ce que de nombreuses conversations productives soient supprimées. Par exemple, si quelqu'un dit "Nous devons aborder les fausses affirmations sur les vaccins", le système pourrait voir le mot "vaccins" et étiqueter à tort cette déclaration comme nuisible.

La Nécessité d'une Classification Précise

Une mauvaise classification du contre-discours non seulement fait taire les voix qui remettent en question les récits nuisibles, mais peut aussi propager de la désinformation en supprimant des dialogues constructifs. Cela peut nuire aux personnes déjà affectées par un discours négatif, car cela enlève des opportunités de rectifier des malentendus ou des croyances nuisibles.

Problèmes Clés avec les Modèles de PLN Actuels

  1. Manque de Données d'Entraînement : Beaucoup de modèles de PLN n'ont pas suffisamment d'exemples pour apprendre à distinguer efficacement entre usage et mention, ce qui conduit à des erreurs.

  2. Contextes Informels : Comme le contre-discours se produit souvent dans des discussions informelles, il peut manquer des marqueurs formels qui indiquent habituellement quand quelque chose est cité. Par exemple, des guillemets ou des italique peuvent manquer dans les conversations en ligne quotidiennes.

  3. Mentions Moins Fréquentes : Les mentions de contenu nuisible sont moins courantes que les usages directs, ce qui amène les chercheurs à négliger leur importance dans l'analyse du discours en ligne.

L'Impact des Classifications Erronées

Quand les modèles de PLN se trompent, les conséquences peuvent être significatives. Par exemple, des systèmes qui classifient mal le contre-discours peuvent conduire à ce que du contenu soit injustement signalé ou supprimé, effaçant ainsi la chance pour les individus de contester des récits nuisibles. Cela peut perpétuer les problèmes que le contre-discours cherche à résoudre.

Comprendre la Distinction Usage-Mention

Pour relever ces défis, les chercheurs ont formulé plusieurs hypothèses concernant la distinction usage-mention. Ils se sont concentrés sur deux tâches principales :

  1. Tâche de Classification : La première tâche est de déterminer si une déclaration utilise un langage nuisible ou en parle simplement.

  2. Tâche En Aval : La deuxième tâche concerne la manière dont ces classifications affectent des processus en aval comme la détection des discours de haine et la détection de la désinformation.

Grâce à ces hypothèses, les chercheurs ont mené plusieurs expériences pour explorer à quel point les systèmes de PLN pouvaient distinguer entre usage et mention.

Analyser les Erreurs de Classification

Après avoir testé divers modèles, les chercheurs ont constaté que les taux d'erreur pour reconnaître l'usage par rapport à la mention étaient assez élevés. Par exemple, de nombreux systèmes ont identifié des mentions décontractées de termes nuisibles comme nuisibles elles-mêmes. Cela montre un écart clair dans l'efficacité des modèles de PLN actuels.

Exemples de Mauvaises Classifications

  • Détection de Discours de Haine : Quand les outils de PLN classifient mal le contre-discours comme discours de haine, cela entraîne souvent des taux de faux positifs élevés, ce qui signifie qu'ils identifient à tort du contenu non nuisible comme nuisible.
  • Détection de Désinformation : De même, classer mal le contre-discours comme désinformation conduit à une censure inutile, limitant les discussions constructives.

Facteurs Contribuant aux Mauvaises Classifications

  1. Termes Identitaires : La présence de termes liés à l'identité peut fortement influencer les décisions prises par les systèmes de PLN. Si un contre-discours mentionne une identité spécifique, il peut être signalé comme nuisible malgré son intention de contrer le discours de haine.

  2. Sujets Controversés : Certains termes associés à des sujets sensibles, comme les vaccins pendant la pandémie de COVID-19, peuvent déclencher des mauvaises classifications à cause de la sensibilité accrue dans les systèmes de PLN.

  3. Langage de Citation : Les textes qui utilisent des guillemets sont souvent classés incorrectement plus fréquemment parce que le système peut percevoir une citation directe comme nuisible, au lieu de la reconnaître comme une référence.

Solutions Possibles pour l'Amélioration

Pour améliorer la manière dont les systèmes de PLN gèrent le contre-discours, les chercheurs ont proposé plusieurs stratégies :

  1. Enseigner la Distinction : En incorporant des définitions explicites d'usage et de mention dans les données d'entraînement, les modèles de PLN peuvent mieux apprendre à différencier les usages nuisibles des mentions inoffensives.

  2. Techniques de Suggestion : Une stratégie efficace consiste à utiliser des suggestions spécifiques qui encouragent les modèles à réfléchir de manière critique à savoir si une déclaration utilise ou mentionne un langage.

  3. Essais de Réduction des Erreurs : En testant différentes approches et en évaluant leurs résultats, les chercheurs peuvent affiner des techniques qui aident les systèmes à distinguer plus précisément entre usage et mention, réduisant ainsi les erreurs en aval.

Implications pour la Modération de Contenu

Alors que la modération de contenu devient de plus en plus vitale dans les espaces en ligne, comprendre la distinction usage-mention est essentiel. De nombreuses plateformes reconnaissent la valeur du contre-discours et établissent des lignes directrices explicites pour encourager le débat constructif. Pourtant, sans des modèles rigoureux qui classifient avec précision le langage, les politiques de modération peuvent involontairement faire taire des voix précieuses.

L'Importance des Considérations Éthiques

Alors que nous travaillons à améliorer les systèmes de PLN, il est crucial de prendre en compte les implications éthiques de leur fonctionnement. La mauvaise classification de mentions peut nuire non seulement à ceux qui s'engagent dans le contre-discours, mais aussi à ceux qui peuvent être indirectement affectés par le processus de modération de contenu. De plus, le contre-discours peut parfois être utilisé comme une arme pour harceler ou faire taire des individus ayant des opinions opposées, nécessitant une prudence dans le déploiement de tels systèmes.

Directions Futures pour la Recherche

Les études futures devraient élargir l'analyse du langage de mention dans divers contextes, y compris les classes, les discussions juridiques et la communication interpersonnelle. L'exploration de la manière dont la mention impacte la compréhension dans ces domaines peut fournir des aperçus plus profonds sur le langage du discours en ligne.

En plus, les discussions continues devraient examiner les complexités de savoir si certaines mentions sont effectivement nuisibles ou constructives, en tenant compte des dynamiques sociales et du contexte.

Conclusion

La distinction usage-mention est un domaine vital d'étude pour le PLN et la modération de contenu en ligne. En améliorant la capacité des systèmes à reconnaître cette distinction, on peut favoriser un environnement en ligne plus sûr et plus constructif. De plus, alors que nous continuons à peaufiner notre approche, nous devons rester attentifs aux implications éthiques et aux valeurs sociétales en jeu dans le développement de ces technologies. Assurer que le contre-discours reste protégé tout en abordant les défis du discours nuisible est un équilibre délicat qui nécessite une attention et une innovation continues.

Source originale

Titre: NLP Systems That Can't Tell Use from Mention Censor Counterspeech, but Teaching the Distinction Helps

Résumé: The use of words to convey speaker's intent is traditionally distinguished from the `mention' of words for quoting what someone said, or pointing out properties of a word. Here we show that computationally modeling this use-mention distinction is crucial for dealing with counterspeech online. Counterspeech that refutes problematic content often mentions harmful language but is not harmful itself (e.g., calling a vaccine dangerous is not the same as expressing disapproval of someone for calling vaccines dangerous). We show that even recent language models fail at distinguishing use from mention, and that this failure propagates to two key downstream tasks: misinformation and hate speech detection, resulting in censorship of counterspeech. We introduce prompting mitigations that teach the use-mention distinction, and show they reduce these errors. Our work highlights the importance of the use-mention distinction for NLP and CSS and offers ways to address it.

Auteurs: Kristina Gligoric, Myra Cheng, Lucia Zheng, Esin Durmus, Dan Jurafsky

Dernière mise à jour: 2024-04-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.01651

Source PDF: https://arxiv.org/pdf/2404.01651

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires