Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Interaction homme-machine

Repenser les stéréotypes dans la société diverse de l'Inde

Examiner comment les stéréotypes façonnent les interactions et les opportunités en Inde.

― 9 min lire


Stéréotypes et IA en IndeStéréotypes et IA en Indel'engagement communautaire.S'attaquer aux biais dans l'IA grâce à
Table des matières

Les Stéréotypes, c’est des idées ou des croyances simplifiées sur certains groupes de personnes. Ça peut être basé sur le genre, la race, la caste et d'autres identités. En Inde, avec sa riche diversité, les stéréotypes affectent pas seulement comment les gens sont perçus mais influencent aussi les interactions sociales et l’accès aux opportunités. Avec la montée de la technologie et des modèles de langage génératifs, comprendre ces stéréotypes est devenu super important pour s’assurer que les applis ne renforcent pas les biais.

L’importance de comprendre le contexte

Quand on évalue les modèles de langage, c’est essentiel de considérer le contexte local. Beaucoup de modèles actuels réagissent sur la base de données des sociétés occidentales, ce qui fait qu’ils prennent pas en compte les normes culturelles et expériences uniques qu'on trouve en Inde. Ça peut mener à des gros manques dans la compréhension des stéréotypes présents dans la société indienne. Donc, les chercheurs doivent s'engager avec les communautés locales pour rassembler des infos plus précises.

Le besoin de ressources d’évaluation inclusives

Les ressources existantes pour évaluer les stéréotypes sont souvent limitées. Elles représentent pas la large gamme d'identités et d'expériences qu’on trouve dans la société. En bossant avec des communautés diverses, les chercheurs peuvent créer des outils d'évaluation plus inclusifs. C’est particulièrement important dans un pays comme l’Inde, qui a une multitude de langues, religions et structures sociales.

Engagement communautaire : un pas en avant

Créer des ressources qui reflètent précisément les stéréotypes nécessite de travailler directement avec les communautés. Une méthode efficace, c’est d’utiliser des enquêtes. Les enquêtes peuvent collecter des infos d’un groupe diversifié d'individus, permettant une compréhension plus large des stéréotypes qu'ils rencontrent. L’objectif, c’est de créer une base de données plus complète qui reflète la vraie nature des stéréotypes dans la société indienne.

Le jeu de données SPICE

Le jeu de données Stereotype Pooling in India through Community Engagement (SPICE) a été créé pour rassembler des stéréotypes divers de différentes parties de l'Inde. En utilisant des enquêtes ouvertes, les chercheurs pouvaient collecter un large éventail de stéréotypes que les gens rapportent. Un aspect clé de ce jeu de données, c’est qu’il se concentre sur les termes d’identité et les attributs associatifs, permettant une compréhension plus riche des vues sociétales.

Méthodologie de l’enquête

Pour créer le jeu de données SPICE, les chercheurs ont conçu une enquête qui incluait des questions sur la démographie des participants et leur connaissance des stéréotypes. Les participants étaient encouragés à donner des exemples de stéréotypes qu’ils connaissaient, sans aucune suggestion. Cette approche ouverte permettait une réflexion plus naturelle et personnelle sur les vues sociétales.

Démographie

L’enquête visait à rassembler une variété de réponses en incluant des participants de différents horizons. Des infos comme le genre, la caste et la région étaient collectées pour assurer une représentation diversifiée. C’était crucial pour comprendre comment différentes identités sociales perçoivent les stéréotypes.

Structure de l’enquête

L’enquête était divisée en trois parties principales. La première partie collectait des détails Démographiques. La deuxième partie expliquait ce qu'est un stéréotype et fournissait des exemples. La dernière partie demandait aux répondants de partager tous les stéréotypes qu'ils connaissaient. Les participants pouvaient soumettre plusieurs réponses, enrichissant ainsi le jeu de données.

Distribution de l’enquête

Pour toucher un large public, les enquêtes ont été distribuées à des étudiants d'universités publiques dans divers États de l’Inde. Cette approche a tiré parti de la diversité présente dans les institutions d’éducation publique, où des étudiants de différents horizons interagissent. En se concentrant sur des lieux urbains et suburbains, les chercheurs cherchaient à capturer un large éventail de perspectives.

Nettoyage et traitement des données

Une fois les enquêtes collectées, la prochaine étape a été le nettoyage des données. Ce processus impliquait de passer en revue les réponses pour corriger les erreurs et s’assurer qu’elles étaient bien formatées. C’était essentiel de standardiser les réponses pour créer un jeu de données cohérent. Les chercheurs ont veillé à régler des problèmes comme les fautes d'orthographe et les variations dans la façon dont les termes d'identité étaient présentés.

L’analyse des stéréotypes

Avec les données nettoyées, les chercheurs pouvaient analyser les stéréotypes présents dans le jeu de données SPICE. En identifiant la démographie des participants, ils pouvaient discerner des schémas dans les stéréotypes partagés. Ces insights éclairent comment différentes communautés perçoivent divers groupes d'identité et quels stéréotypes sont les plus répandus.

Diversité des stéréotypes

Le jeu de données a révélé un nombre impressionnant de stéréotypes présents dans la société indienne. Beaucoup de ces stéréotypes étaient nouveaux et n’avaient pas été documentés dans les recherches précédentes. Cette expansion des connaissances est vitale pour comprendre le tissu culturel de l'Inde et comment il influence les comportements et les attitudes.

Identités intersectionnelles

Le jeu de données SPICE a aussi pris en compte les identités intersectionnelles, qui reflètent les manières complexes dont diverses formes d’identité peuvent se chevaucher. Par exemple, un stéréotype pourrait impliquer l'intersection du genre et de la caste, fournissant un aperçu sur comment les identités combinées affrontent des défis uniques. Comprendre ces intersections aide à dépeindre une image plus précise des vues sociétales.

Évaluer les modèles de langage

Les résultats du jeu de données SPICE peuvent être utilisés pour évaluer les modèles de langage génératifs. Comme ces modèles sont intégrés dans diverses applications, il est crucial d’évaluer comment ils gèrent les stéréotypes. En utilisant le jeu de données, les chercheurs peuvent identifier si les modèles de langage renforcent les stéréotypes existants ou s’ils peuvent présenter une perspective plus équilibrée.

Évaluations de référence

En utilisant les stéréotypes du jeu de données SPICE, les chercheurs peuvent mener une série d’évaluations. En employant des tâches comme l'inférence de langage naturel (NLI), ils peuvent mesurer à quel point les modèles de langage interprètent et répondent aux associations stéréotypées. Par exemple, si un modèle classe un stéréotype comme "entaillement", ça indique que le modèle perpétue des stéréotypes. D'un autre côté, une classification comme "neutre" suggère que le modèle n’a pas de vues biaisées.

Insights des résultats

L’analyse des modèles de langage utilisant le jeu de données SPICE a conduit à plusieurs insights importants. Par exemple, certains stéréotypes se sont avérés plus répandus dans des régions spécifiques, indiquant que l’emplacement joue un rôle crucial dans la formation des perceptions. Ça met en lumière le besoin pour les modèles de langage d’être sensibles au niveau régional dans leurs évaluations.

Défis avec les modèles actuels

Malgré ces insights, des défis subsistent. Beaucoup de modèles existants continuent de s'appuyer sur des biais occidentaux, limitant leur capacité à évaluer avec précision les stéréotypes dans des contextes divers comme l’Inde. Il y a un besoin pressant pour les modèles d'incorporer une vue plus complète des perspectives globales.

Avancer : Aborder les stéréotypes dans l’IA

Le développement des technologies d'IA doit prioriser la responsabilité sociale. Les chercheurs et développeurs devraient s’engager avec les communautés pour s'assurer que les outils créés ne perpétuent pas des stéréotypes nuisibles. Utiliser des Jeux de données comme SPICE peut servir de base pour des systèmes d'IA plus équitables et représentatifs.

Importance de l'engagement multilingue

Étant donné la diversité linguistique de l'Inde, s'engager avec les communautés dans plusieurs langues est essentiel. Beaucoup de stéréotypes peuvent pas bien se traduire en anglais, et leur compréhension peut se perdre dans la traduction. Des approches multilingues peuvent élargir la participation et s’assurer qu’une plus large gamme de perspectives est incluse.

Engagement communautaire pour des insights

L'engagement communautaire reste un outil puissant pour recueillir des insights. En favorisant le dialogue avec divers groupes, les chercheurs peuvent obtenir une compréhension plus approfondie des stéréotypes qui persistent dans la société. Ça peut aider à informer comment les systèmes d'IA sont formés et évalués, réduisant le risque de perpétuer des biais.

Conclusion

Comprendre les stéréotypes est crucial dans le paysage évolutif de l’IA et de l’apprentissage automatique. Avec l'aide d'initiatives comme le jeu de données SPICE, les chercheurs peuvent aborder les lacunes existantes dans les connaissances et l'évaluation. L'objectif, c'est de créer un environnement plus inclusif où la technologie sert à élever tous les individus, peu importe leurs identités.

Appel à l'action

Alors qu’on continue à explorer les implications de l’IA, il est vital de rester engagé avec des communautés diverses. En incluant une variété de perspectives, on peut travailler vers des pratiques d'IA plus responsables et équitables. Le chemin pour éliminer le biais dans la technologie est en cours, mais avec collaboration et sensibilisation, le progrès est réalisable.

Source originale

Titre: Building Socio-culturally Inclusive Stereotype Resources with Community Engagement

Résumé: With rapid development and deployment of generative language models in global settings, there is an urgent need to also scale our measurements of harm, not just in the number and types of harms covered, but also how well they account for local cultural contexts, including marginalized identities and the social biases experienced by them. Current evaluation paradigms are limited in their abilities to address this, as they are not representative of diverse, locally situated but global, socio-cultural perspectives. It is imperative that our evaluation resources are enhanced and calibrated by including people and experiences from different cultures and societies worldwide, in order to prevent gross underestimations or skews in measurements of harm. In this work, we demonstrate a socio-culturally aware expansion of evaluation resources in the Indian societal context, specifically for the harm of stereotyping. We devise a community engaged effort to build a resource which contains stereotypes for axes of disparity that are uniquely present in India. The resultant resource increases the number of stereotypes known for and in the Indian context by over 1000 stereotypes across many unique identities. We also demonstrate the utility and effectiveness of such expanded resources for evaluations of language models. CONTENT WARNING: This paper contains examples of stereotypes that may be offensive.

Auteurs: Sunipa Dev, Jaya Goyal, Dinesh Tewari, Shachi Dave, Vinodkumar Prabhakaran

Dernière mise à jour: 2023-07-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2307.10514

Source PDF: https://arxiv.org/pdf/2307.10514

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires