Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Ordinateurs et société# Interaction homme-machine

Modération de contenu et suppression de discours d'identité

Examiner l'impact de la modération automatisée sur les discours liés aux groupes d'identité.

Oghenefejiro Isaacs Anigboro, Charlie M. Crawford, Danaë Metaxa, Sorelle A. Friedler

― 11 min lire


Discours sur l'identitéDiscours sur l'identitésous attaquenuisent aux voix diverses.Les systèmes de modération automatisés
Table des matières

Ces dernières années, la Modération de contenu automatisée est devenue un outil commun utilisé pour filtrer les matériels indésirables ou nuisibles en ligne. Ce procédé fonctionne en identifiant et en supprimant les contenus violents, haineux ou inappropriés. Avec l'essor des systèmes d'IA générative qui créent du texte, ces outils de modération sont maintenant appliqués aux contenus générés par ces systèmes d'IA. Cela soulève des questions importantes sur qui peut partager ses histoires et qui pourrait être réduit au silence par ces technologies.

Cet article examine de près comment ces outils de modération de contenu pourraient par erreur signaler ou supprimer des discours liés à certains groupes d'identité. Nous nous concentrons sur la façon dont ces systèmes gèrent les discours liés à l'identité et s'ils ont tendance à cibler injustement les groupes marginalisés. Nous explorons également comment différentes API (Interfaces de Programmation d'Applications) utilisées pour la modération de contenu fonctionnent en termes de suppression de discours liés à l'identité.

L'Importance de la Modération de Contenu

La modération de contenu vise à maintenir un environnement en ligne sûr en filtrant les contenus nuisibles. Les sites web et les plateformes de médias sociaux utilisent des systèmes automatisés pour identifier et signaler les contenus qui violent leurs politiques. Ces systèmes peuvent évaluer une large gamme de contenus, y compris des commentaires, des images et des vidéos. Cependant, le processus n'est pas parfait et peut mener à des biais, surtout envers les identités marginalisées. En gros, certains groupes peuvent voir leurs voix réduites au silence plus souvent que d'autres à cause du fonctionnement de ces systèmes.

Alors que la technologie de l'IA progresse, ces systèmes de modération sont de plus en plus utilisés pour vérifier les entrées et sorties textuelles de l'IA générative. C'est particulièrement pertinent dans des domaines créatifs comme l'écriture de scénarios ou d'articles, où les histoires produites peuvent refléter des perspectives diverses ou risquer d'être éclipsées par des biais.

Définir la Suppression de Discours

La suppression de discours fait référence au marquage incorrect d'un texte comme inapproprié ou violant le contenu. Les contenus qui ne devraient pas être filtrés sont parfois signalés, entraînant une perte d'opportunités de discours pour certains groupes d'identité. Nous nous concentrons sur l'identification des instances où le discours qui ne mérite pas d'être signalé est tout de même supprimé.

Pour évaluer la suppression de discours, nous comparons à quelle fréquence le discours lié à l'identité est incorrectement signalé par rapport à la fréquence à laquelle d'autres types de discours le sont. Essentiellement, nous voulons comprendre si certains groupes d'identité, en particulier ceux issus de milieux marginalisés, font face à des défis plus importants pour se faire entendre.

Recherche Existante et Méthodologie

Les études antérieures sur la modération de contenu s'appuyaient souvent sur des ensembles de données composés de contenus générés par les utilisateurs comme des tweets ou des commentaires. Ces ensembles de données aident les chercheurs à évaluer la performance des systèmes de modération. Cependant, ils couvrent principalement des publications courtes et manquent des récits plus longs que l'IA générative produit souvent.

Dans notre recherche, nous avons réalisé une analyse de plusieurs systèmes de modération de contenu pour identifier à quelle fréquence le discours lié à l'identité est supprimé. Nous avons créé de nouveaux ensembles de données axés sur des formes de contenu créatif plus longues, y compris des synopsis d'émissions de télévision et de films, pour évaluer la suppression de discours dans ces contextes.

Notre analyse a inclus divers services de modération de contenu qui évaluent les textes pour un contenu nuisible ou inapproprié. À travers une approche systématique, nous avons cherché à quantifier comment ces systèmes traitent le discours lié à différents groupes d'identité.

Aperçus de l'Audit

Notre audit a impliqué le test de cinq API de modération de contenu populaires. Nous avons cherché à comprendre l'efficacité de ces systèmes à modérer le discours lié à neuf catégories d'identité. Nos résultats ont révélé une tendance préoccupante : le discours lié à des groupes d'identité spécifiques est plus susceptible d'être supprimé que le discours non lié à l'identité.

Résultats Clés :

  1. Différence de Traitement : Parmi les API testées, le discours lié à l'identité était plus souvent supprimé que d'autres types de discours. Les seules exceptions étaient pour les groupes d'identité chrétienne et hétérosexuelle, qui ont subi moins de suppression.

  2. Impact sur les Groupes d'Identité : L'audit a mis en évidence que la suppression de discours lié à l'identité est marquée pour divers groupes marginalisés. En revanche, les groupes non marginalisés ont souvent rencontré moins de problèmes concernant le signalement de leur discours.

  3. Performance des API : Différentes API de modération ont montré des degrés d'efficacité variés dans la gestion du contenu généré par l'IA par rapport aux textes générés par les utilisateurs traditionnels. Certains systèmes ont mieux performé sur des données traditionnelles, tandis que d'autres ont montré moins de suppression pour certains groupes d'identité dans les ensembles de données générés par l'IA.

Ensembles de Données et Catégorisation d'Identité

Pour mener notre analyse, nous avons utilisé plusieurs ensembles de données, chacun contenant des instances de texte qui pouvaient être signalées pour modération. Nous avons catégorisé ces textes en fonction des groupes d'identité, ce qui nous a permis de suivre et de mesurer les taux de suppression.

Les ensembles de données comprenaient des sources traditionnelles comme des tweets et des commentaires, ainsi que des contenus plus longs tels que des synopsis d'émissions de télévision et de films. En taguant chaque texte avec des attributs d'identité pertinents, nous avons obtenu de meilleures indications sur la façon dont les systèmes de modération de contenu interagissent avec différentes voix.

Création de Nouveaux Ensembles de Données

Nous avons introduit de nouveaux ensembles de données spécifiquement destinés à comprendre le contenu créatif. Ces ensembles comprenaient des intrigues de films et d'émissions de télévision et étaient dotés d'étiquettes de modération liées à l'identité. Cette dimension ajoutée nous a permis d'évaluer comment ces systèmes gèrent des formes de discours plus longues et plus complexes.

Pour identifier quels groupes d'identité étaient représentés dans les ensembles de données, nous avons utilisé une combinaison de méthodes automatisées et de vérifications manuelles. Nous avons identifié à la fois des références explicites aux groupes d'identité et des catégorisations plus larges pour obtenir une représentation précise de la façon dont le contenu lié à différentes identités était traité.

Résultats de la Suppression de Discours

En analysant les résultats de nos API de modération de contenu, nous avons trouvé des preuves claires de suppression de discours lié à l'identité. Chaque API a montré des taux de suppression variés parmi les neuf groupes d'identité examinés.

  1. Tendances Générales de Suppression de Discours : La plupart des groupes d'identité ont subi un certain niveau de suppression lorsque leur discours était examiné par les API. Cependant, le niveau d'impact variait entre les API, certains groupes subissant des taux de suppression significativement plus élevés que d'autres.

  2. Comparaison Entre Données Traditionnelles et IA Générative : Le traitement du discours lié à l'identité différait souvent lorsque l'on comparait les données traditionnelles en courts extraits au contenu généré par l'IA. Certaines API affichaient moins de suppression dans des contextes génératifs, tandis que d'autres montraient de plus grands défis à modérer ce type de contenu avec précision.

  3. Groupes Marginalisés : Notre évaluation a révélé que les groupes d'identité marginalisés, dans l'ensemble, étaient plus susceptibles de voir leur discours supprimé par rapport aux groupes dominants.

Un Regard Approfondi sur les Différences des API

Nous avons examiné comment chacune des cinq API de modération de contenu a performé en termes de suppression de discours. Chaque API a des caractéristiques uniques, ce qui peut influencer la façon dont elles identifient et signalent le contenu.

  1. OpenAI : Cette API a montré à la fois des forces et des faiblesses dans la gestion du discours lié à l'identité. Bien qu'elle ait bien performé dans certains contextes, elle a également signalé de nombreux textes liés à l'identité de manière incorrecte.

  2. Google : L'API de modération de Google a affiché des résultats mitigés. Dans certains cas, elle était efficace pour signaler du contenu inapproprié, mais elle a également eu des difficultés avec certains discours liés à l'identité, montrant un biais contre les groupes non chrétiens.

  3. API Perspective de Jigsaw : Cet outil, conçu pour la détection de toxicité, a étonnamment signalé plus de discours de groupes marginalisés de manière incorrecte lors de l'examen de données traditionnelles.

  4. Llama Guard et Anthropic : Ces API ont proposé différentes approches pour la modération de contenu et ont montré une efficacité variée dans la gestion de la suppression liée à l'identité. Les modèles de suppression différaient selon la nature du texte.

Résultats de l'Analyse de Régression

Pour approfondir les résultats, nous avons utilisé des modèles de régression pour prédire à quelle fréquence les systèmes de modération de contenu signalaient ou évaluaient différentes types de discours.

  1. Étiquettes d'Identité : Nos modèles ont montré que le contenu des groupes d'identité marginalisés est plus susceptible d'être marqué incorrectement que le contenu des groupes dominants.

  2. Contenu de l'IA Générative : Il est à noter que le texte généré dans des contextes créatifs avait un profil différent en termes de taux d'erreur. Le texte généré par l'IA était souvent signalé moins fréquemment, bien que les raisons de cette différence nécessitent une exploration plus approfondie.

  3. Influence de la Longueur du Texte : La longueur du texte a également joué un rôle, les contenus plus longs faisant parfois face à moins de suppression. Cependant, ce n'était pas la seule raison des différents taux de suppression observés.

Discussion sur les Résultats

Notre audit souligne des problèmes significatifs concernant la modération du discours lié à l'identité dans le contexte de l'IA générative. Les implications de ces résultats sont cruciales pour comprendre les dangers potentiels posés par la modération de contenu automatisée.

  1. Expression Créative en Danger : À mesure que l'IA générative est de plus en plus utilisée dans la narration et l'écriture créative, le biais affiché par les systèmes de modération de contenu pourrait limiter quelles histoires sont racontées. Si certaines identités sont systématiquement signalées, leurs récits pourraient être réduits au silence dans la sphère créative.

  2. Besoin d'une Meilleure Surveillance : Une surveillance continue des systèmes de modération de contenu est essentielle pour améliorer la façon dont ils traitent le discours divers. L'audit régulier de ces systèmes aidera à suivre les améliorations ou les déclins de performance concernant le contenu lié à l'identité.

  3. Implications pour l'Expérience Utilisateur : Les résultats de notre analyse soulèvent des inquiétudes concernant l'expérience utilisateur sur les plateformes qui déploient ces systèmes de modération. Les utilisateurs issus d'identités marginalisées peuvent se sentir moins bienvenus si leur discours est constamment signalé ou supprimé.

  4. Directions pour de Futures Recherches : Des études plus complètes sont nécessaires pour explorer les raisons sous-jacentes aux biais dans les systèmes de modération de contenu, en particulier en ce qui concerne l'identité. Cela aiderait à affiner ces systèmes pour qu'ils soient plus justes et équitables.

Conclusion

Les résultats de cette analyse mettent en lumière les défis auxquels le discours lié à l'identité est confronté dans le contexte de la modération de contenu automatisée. À mesure que les technologies d'IA générative deviennent plus répandues, il est vital de s'assurer que ces systèmes peuvent modérer le discours de manière précise et équitable à travers différents groupes d'identité.

Comprendre les dynamiques de la suppression de discours est crucial pour créer un espace numérique plus inclusif où toutes les voix peuvent être entendues. Grâce à des recherches continues et au développement de meilleures directives de modération, nous pouvons œuvrer vers un avenir où la modération de contenu soutient plutôt que freine l'expression des identités diverses.

Source originale

Titre: Identity-related Speech Suppression in Generative AI Content Moderation

Résumé: Automated content moderation has long been used to help identify and filter undesired user-generated content online. Generative AI systems now use such filters to keep undesired generated content from being created by or shown to users. From classrooms to Hollywood, as generative AI is increasingly used for creative or expressive text generation, whose stories will these technologies allow to be told, and whose will they suppress? In this paper, we define and introduce measures of speech suppression, focusing on speech related to different identity groups incorrectly filtered by a range of content moderation APIs. Using both short-form, user-generated datasets traditional in content moderation and longer generative AI-focused data, including two datasets we introduce in this work, we create a benchmark for measurement of speech suppression for nine identity groups. Across one traditional and four generative AI-focused automated content moderation services tested, we find that identity-related speech is more likely to be incorrectly suppressed than other speech except in the cases of a few non-marginalized groups. Additionally, we find differences between APIs in their abilities to correctly moderate generative AI content.

Auteurs: Oghenefejiro Isaacs Anigboro, Charlie M. Crawford, Danaë Metaxa, Sorelle A. Friedler

Dernière mise à jour: 2024-09-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.13725

Source PDF: https://arxiv.org/pdf/2409.13725

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Articles similaires