Contrôle des utilisateurs dans la modération des modèles de langage
Nouvelle approche donne aux utilisateurs leur mot à dire sur la gestion du langage toxique.
― 8 min lire
Table des matières
Les chatbots et les modèles de langage, comme ceux qu'on utilise aujourd'hui, sont super pour nous aider à trouver des infos, à assister au service client, et même à créer du contenu. Mais parfois, ils peuvent balancer des réponses qui peuvent être perçues comme offensantes ou nuisibles. Pour gérer ce souci, les développeurs utilisent un truc appelé "score de toxicité." Ce score essaie d'identifier le langage qui pourrait déranger ou offenser les gens. Même si ça semble utile, ça peut aussi freiner des conversations importantes et rendre difficile pour les groupes marginalisés de reprendre et redéfinir leur langue.
Dans ce travail, on propose une nouvelle méthode pour donner aux utilisateurs plus de contrôle sur la manière dont ces modèles de langage gèrent le langage toxique. Au lieu d'avoir un ensemble de règles strictes que tout le monde doit suivre, on suggère de laisser les utilisateurs définir leurs propres standards. Comme ça, les gens peuvent interagir avec le langage d'une manière qui leur convient.
Le Défi de la Modération
Les plateformes en ligne comme les réseaux sociaux doivent souvent gérer ce que les utilisateurs peuvent poster. Ils font ça pour éviter de causer du tort, comme de la détresse ou des problèmes juridiques. Il y a deux façons principales de modérer le contenu : en utilisant des modérateurs humains ou des systèmes automatisés. Tandis que les modérateurs humains peuvent comprendre le contexte et les nuances, ils peuvent aussi se fatiguer et faire des erreurs. D'un autre côté, les systèmes automatisés peuvent agir rapidement et gérer de grandes quantités de contenu, mais ils peuvent passer à côté, surtout avec le langage des groupes marginalisés.
Le score de toxicité est une manière pour les plateformes d'automatiser la modération. Il attribue un score à des mots et des phrases selon leur probabilité de déranger quelqu'un. Par exemple, l'API Perspective est un outil bien connu qui évalue le texte pour du contenu potentiellement nuisible. Si un message obtient un score trop élevé, il peut être supprimé ou signalé.
Cependant, ces systèmes de scoring peuvent être biaisés contre certaines langues ou identités, entraînant un traitement injuste. Par exemple, quand le langage des communautés marginalisées est évalué, il peut souvent être mal étiqueté comme nuisible. Cela peut mener à une suppression excessive de contenu ou à des restrictions de compte pour ces utilisateurs.
Modèles de langage génératifs
Le Rôle desLes Modèles de Langage Génératifs (MLG) deviennent de plus en plus populaires. Ils peuvent produire du texte basé sur des prompts et ont été intégrés dans de nombreux produits et services. Cependant, comme beaucoup d'autres technologies, ils peuvent aussi générer du contenu offensant ou mal compris. À cause de ça, de nombreux développeurs recommandent d'utiliser le score de toxicité pour filtrer les sorties de ces modèles.
Malheureusement, les problèmes observés avec les systèmes de scoring s'appliquent aussi ici. Quand les MLG sont trop filtrés à cause du score de toxicité, les utilisateurs peuvent passer à côté d'infos pertinentes et utiles. Ce problème devient particulièrement vrai dans des conversations qui touchent à des sujets d'identité, où comprendre et reprendre le langage est important.
La reprise du langage, c'est comment les communautés récupèrent des mots qui ont été utilisés contre elles et les redéfinissent de manière positive. Ce processus est essentiel pour l'autonomisation, mais le score de toxicité peut se mettre en travers de cette reprise.
Présentation du Recours Algorithmiqu
Pour aborder certains de ces défis, on propose un concept appelé Recours Algorithmique. Cette idée permet aux utilisateurs d'avoir leur mot à dire dans le processus de modération. En donnant aux utilisateurs la possibilité de définir leurs propres seuils de toxicité, on les autonomise. Au lieu que les plateformes décident ce qui est acceptable, les utilisateurs peuvent contrôler leur expérience linguistique.
Notre système fonctionne en laissant les utilisateurs spécifier leur propre tolérance au langage potentiellement toxique. Ça veut dire qu'ils peuvent choisir de voir du contenu même s'il a un score élevé en toxicité. Si un utilisateur estime que le langage est acceptable, il peut ajuster les paramètres pour les interactions futures. Cette fonctionnalité dynamique vise à équilibrer la sécurité et le contrôle des utilisateurs, leur permettant de prendre en charge leurs propres conversations.
Étude Pilote
On a mené une étude pilote pour voir si cette méthode pouvait fonctionner. Les participants ont interagi avec un MLG sur des sujets liés à l'identité, et on a testé à la fois une approche de scoring traditionnelle et notre nouveau système de seuil dynamique. L'objectif était de voir si notre système de recours améliorait l'expérience des utilisateurs et rendait les interactions plus fluides.
Conception de l'Étude
Dans la première partie de l'étude, les participants utilisaient un système de scoring de toxicité conventionnel où un seul seuil était appliqué. Dans la deuxième partie, avec notre nouvelle approche, les participants pouvaient ajuster dynamiquement les seuils pour leurs conversations. Ça leur donnait plus de contrôle sur quel contenu ils pouvaient engager.
On a collecté à la fois des données quantitatives et qualitatives pour voir à quel point notre méthode proposée était efficace. Les participants ont donné des retours sur l'utilisabilité et les expériences globales après leurs conversations.
Questions de Recherche
Pendant l'étude, on a voulu répondre à deux questions clés :
- Est-ce que le recours algorithmique peut aider à améliorer l'expérience des utilisateurs avec les MLG ?
- Quels thèmes et problèmes émergent des expériences des participants lorsqu'ils utilisent l'option de recours ?
Résultats
Les résultats de notre étude pilote ont fourni des aperçus encourageants. Les participants ont largement choisi d'utiliser davantage l'option de recours quand on leur en a donné l'occasion. Beaucoup ont trouvé que personnaliser les seuils améliorait grandement leurs interactions avec le chatbot.
Expérience Utilisateur
Les participants ont trouvé qu'être capable d'ajuster les paramètres de toxicité rendait le chatbot plus facile à utiliser. Les retours de l'étude ont indiqué que permettre aux utilisateurs de définir leur propre tolérance menait à un plus grand sentiment de contrôle pendant les conversations. Les utilisateurs ont rapporté se sentir plus autonomes dans leurs interactions.
Malgré certains retours positifs, de nombreux participants ont eu du mal à utiliser le système efficacement. Ils ont exprimé de la confusion sur comment ajuster les réponses du MLG. Bien que le système de recours leur ait offert la possibilité de modifier ce qu'ils voyaient, beaucoup se sont sentis dépassés ou incertains s'ils l'utilisaient correctement.
Thèmes de Feedback
Trois thèmes principaux ont émergé des retours des participants :
- Compréhension du Système : Beaucoup de participants ne comprenaient pas vraiment comment le filtrage de toxicité fonctionnait. Ce manque de clarté signifiait qu'ils essayaient parfois de trouver des solutions de contournement, ce qui entraînait de la frustration.
- Limitations des Réponses : Les participants avaient souvent l'impression que le MLG avait du mal à suivre leurs demandes, ce qui entraînait une insatisfaction vis-à-vis du flux de la conversation.
- Biais dans le Scoring : Les utilisateurs ont souligné des incohérences dans le fonctionnement de l'algorithme de scoring de toxicité. Cette préoccupation a mis en lumière la nécessité d'un raffinement supplémentaire des systèmes de scoring.
L'Importance d'une Communication Claire
Un point crucial à retenir de cette étude est la nécessité de clarté et d'éducation autour du fonctionnement du scoring de toxicité et du filtrage. Fournir des infos claires aux utilisateurs peut les aider à mieux comprendre comment interagir avec les MLG et mener à des interactions plus significatives.
Conclusion
Notre exploration du recours algorithmique montre un potentiel pour améliorer les expériences des utilisateurs avec les modèles de langage. En permettant aux utilisateurs de définir leurs propres seuils de toxicité, on peut favoriser un environnement plus inclusif où les groupes marginalisés peuvent reprendre leur langue.
Cependant, il reste encore de nombreux défis à relever. Les recherches futures devraient se concentrer sur le perfectionnement des mécanismes de recours et s'assurer qu'ils sont conviviaux. Il est essentiel de collecter plus de données auprès de communautés diverses pour mieux comprendre leurs besoins.
Le recours algorithmique peut jouer un rôle dans l'alignement de l'IA avec les valeurs humaines, en fournissant aux utilisateurs des outils pratiques pour gérer leurs interactions. En donnant plus de contrôle aux utilisateurs sur leurs expériences, on ouvre la voie à une relation plus collaborative et respectueuse avec les modèles de langage génératifs.
Titre: Recourse for reclamation: Chatting with generative language models
Résumé: Researchers and developers increasingly rely on toxicity scoring to moderate generative language model outputs, in settings such as customer service, information retrieval, and content generation. However, toxicity scoring may render pertinent information inaccessible, rigidify or "value-lock" cultural norms, and prevent language reclamation processes, particularly for marginalized people. In this work, we extend the concept of algorithmic recourse to generative language models: we provide users a novel mechanism to achieve their desired prediction by dynamically setting thresholds for toxicity filtering. Users thereby exercise increased agency relative to interactions with the baseline system. A pilot study ($n = 30$) supports the potential of our proposed recourse mechanism, indicating improvements in usability compared to fixed-threshold toxicity-filtering of model outputs. Future work should explore the intersection of toxicity scoring, model controllability, user agency, and language reclamation processes -- particularly with regard to the bias that many communities encounter when interacting with generative language models.
Auteurs: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
Dernière mise à jour: 2024-04-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.14467
Source PDF: https://arxiv.org/pdf/2403.14467
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.