Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Apprentissage automatique

Évaluer l'impact de l'IA sur les communautés marginalisées

Cette étude examine le rôle de l'IA dans la détection des discours de haine et son impact sur les groupes marginalisés.

― 7 min lire


Les dégâts de l'IA dansLes dégâts de l'IA dansles communautésmarginaliséesbiais contre les groupes vulnérables.Les systèmes d'IA peuvent aggraver les
Table des matières

Cet article parle de l'impact de l'intelligence artificielle (IA) sur les communautés marginalisées en ce qui concerne la détection de contenu nuisible comme les discours de haine et la toxicité. Les méthodes traditionnelles se concentrent sur les différences de Performance de l'IA entre des groupes spécifiques, mais cela peut cacher des schémas de préjudice, surtout pour ceux qui ont des identités mixtes. Pour améliorer ça, on s'inspire des études sur le handicap pour mieux identifier ces groupes vulnérables.

Le Problème avec les Méthodes Actuelles

Les approches actuelles classifient souvent les gens selon des étiquettes Démographiques larges, comme la race ou le genre. Même si ça donne quelques idées, ça peut passer à côté de problèmes importants rencontrés par les identités qui se chevauchent. Par exemple, se concentrer sur des groupes raciaux individuels peut ignorer les défis que vivent les personnes multiraciales.

En plus, quand on considère de nombreuses catégories démographiques, comme la race, le genre et le handicap, le nombre potentiel de sous-groupes devient énorme. Ça peut faire que des problèmes cruciaux passent inaperçus, surtout pour les plus petits groupes intersectionnels qui ne rentrent pas dans les grandes catégories.

Méthode Proposée

Pour s'attaquer à ces défis, on propose d'utiliser la Détection des valeurs aberrantes. Cette méthode aide à identifier les individus dont les caractéristiques diffèrent significativement de la majorité dans le jeu de données. En se concentrant sur ces valeurs aberrantes, on peut révéler les erreurs de modèle qui affectent principalement les groupes marginalisés.

Contributions de la Recherche

Cet article présente trois découvertes principales :

  1. Nouvelle Approche : On introduit une méthode qui utilise des techniques de détection des valeurs aberrantes pour identifier les groupes à risque de préjudice lié à l'IA. Ça déplace le focus des simples catégories démographiques vers ceux qui sont considérés comme hors norme.

  2. Disparités Notables : On découvre que l'analyse des valeurs aberrantes révèle de plus grandes disparités dans la performance de l'IA par rapport aux analyses basées sur des données démographiques traditionnelles. Ça montre que notre méthode peut déceler des problèmes plus sérieux affectant ces groupes.

  3. Attention aux Détails : Nos résultats montrent que certaines Toxicités, comme la toxicité sévère et les attaques sur l'identité, sont plus répandues parmi les valeurs aberrantes. Ça met en lumière comment les personnes marginalisées sont plus susceptibles de faire face aux pires formes de discours de haine.

Contexte

L'Impact de l'IA sur les Groupes Marginalisés

Les modèles d'IA reflètent souvent les biais sociétaux. Quand ces modèles sont principalement formés sur des données de groupes majoritaires, ils sont moins efficaces pour identifier les contenus nuisibles ciblant les valeurs aberrantes ou les groupes marginalisés. Ça fait que ces individus risquent davantage à cause des algorithmes utilisés pour réguler le contenu en ligne.

Insights des Études sur le Handicap

Les études sur le handicap offrent une perspective pour comprendre les expériences de ceux qui ne correspondent pas au moule "normal". En appliquant ces idées à l'IA, on peut mieux saisir comment les normes sociétales influencent la technologie et aggravent les défis rencontrés par les communautés marginalisées.

L'Importance de la Détection des Valeurs Aberrantes

La détection des valeurs aberrantes vise à identifier des points de données qui diffèrent significativement de la norme. Pour cette étude, on a examiné différents types de valeurs aberrantes, y compris celles basées sur des textes, des étiquettes démographiques et des désaccords d'annotateurs. Ce processus nous aide à identifier des schémas de préjudice que les méthodes traditionnelles pourraient manquer.

Analyse des Valeurs Aberrantes

En analysant différentes sortes de valeurs aberrantes, on s'attend à voir qu'elles représentent des individus dont les expériences sont moins capturées dans les données d'entraînement. Cela peut inclure un langage atypique ou des commentaires qui parlent de diverses identités démographiques. En se concentrant sur ces valeurs aberrantes, on peut identifier quels groupes sont particulièrement désavantagés par les systèmes d'IA.

Ensemble de Données et Méthodologie

Dans cette étude, on a utilisé trois outils d'IA disponibles au public pour la détection de toxicité. Ces outils mesurent différents types de contenu toxique, y compris les discours de haine. On a spécifiquement sélectionné un ensemble de données qui inclut des annotations démographiques détaillées pour comprendre l'impact de diverses identités sur la détection de la toxicité.

Sélection des Données

L'ensemble de données qu'on a choisi contient des commentaires qui ont été collectés et annotés en fonction de caractéristiques démographiques. Ça nous permet d'explorer comment différents groupes vivent la toxicité en ligne. À partir de cet ensemble, on a pris un échantillon représentatif pour analyser la performance du modèle concernant les valeurs aberrantes.

Résultats sur la Performance du Modèle

Disparités de Performance

Notre analyse révèle des différences significatives dans la façon dont les modèles d'IA performent pour les groupes aberrants par rapport aux non-aberrants. Par exemple, on a trouvé que les valeurs aberrantes démographiques subissaient jusqu'à 70,4 % d'erreurs en plus entre aberrants et non-aberrants. De même, les valeurs aberrantes textuelles ont connu une chute de performance allant jusqu'à 68,4 %. Ces disparités sont critiques car elles indiquent un échec des modèles à identifier avec précision un langage nuisible dirigé vers les communautés marginalisées.

Types de Toxicité Analysés

En examinant les différents types de toxicité présents dans l'ensemble de données, on a constaté que les attaques sur l'identité et la toxicité sévère étaient particulièrement répandues parmi les valeurs aberrantes démographiques et textuelles. Comprendre ces différences est essentiel pour améliorer les outils d'IA et s'assurer qu'ils ne perpétuent pas le préjudice.

Implications pour l'IA et la Société

Ces résultats soulignent la nécessité d'évaluer de manière critique comment l'IA est appliquée, en particulier concernant les communautés marginalisées. Quand les systèmes d'IA sont mal conçus ou mal formés, ils peuvent aggraver les biais et inégalités existants plutôt que de les atténuer.

Audit Algorithmique

L'audit algorithmique examine comment les modèles d'IA fonctionnent et identifie les biais potentiels. Notre travail met en avant l'importance d'incorporer l'analyse des valeurs aberrantes dans ces évaluations. Ça aidera à garantir que les systèmes d'IA sont plus équitables et ne nuisent pas involontairement aux individus marginalisés.

Directives Futures

Alors qu'on continue d'explorer les implications de nos résultats, on reconnaît le besoin de recherches supplémentaires sur comment la détection des valeurs aberrantes peut identifier des groupes largement touchés, même dans des ensembles de données manquant de données démographiques explicites. Ça pourrait améliorer les efforts pour l'équité dans les modèles d'IA dans diverses applications.

Conclusion

Pour conclure, notre recherche met en avant l'importance de considérer les valeurs aberrantes lorsqu'on évalue l'impact de l'IA sur les groupes marginalisés. En se concentrant sur ceux qui sont souvent négligés, on peut obtenir des idées sur les biais intégrés dans les systèmes d'IA et travailler à créer des technologies plus inclusives. Ces résultats ouvrent la voie à des discussions significatives sur l'équité, la représentation et le rôle de l'IA dans la société.

Source originale

Titre: Centering the Margins: Outlier-Based Identification of Harmed Populations in Toxicity Detection

Résumé: The impact of AI models on marginalized communities has traditionally been measured by identifying performance differences between specified demographic subgroups. Though this approach aims to center vulnerable groups, it risks obscuring patterns of harm faced by intersectional subgroups or shared across multiple groups. To address this, we draw on theories of marginalization from disability studies and related disciplines, which state that people farther from the norm face greater adversity, to consider the "margins" in the domain of toxicity detection. We operationalize the "margins" of a dataset by employing outlier detection to identify text about people with demographic attributes distant from the "norm". We find that model performance is consistently worse for demographic outliers, with mean squared error (MSE) between outliers and non-outliers up to 70.4% worse across toxicity types. It is also worse for text outliers, with a MSE up to 68.4% higher for outliers than non-outliers. We also find text and demographic outliers to be particularly susceptible to errors in the classification of severe toxicity and identity attacks. Compared to analysis of disparities using traditional demographic breakdowns, we find that our outlier analysis frequently surfaces greater harms faced by a larger, more intersectional group, which suggests that outlier analysis is particularly beneficial for identifying harms against those groups.

Auteurs: Vyoma Raman, Eve Fleisig, Dan Klein

Dernière mise à jour: 2023-12-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.14735

Source PDF: https://arxiv.org/pdf/2305.14735

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires