Examiner le biais WEIRD dans la recherche en informatique sociale
Une étude met en avant l'accent mis sur les populations WEIRD dans la recherche sur l'informatique sociale.
― 7 min lire
Table des matières
La recherche en informatique sociale regarde souvent les données provenant des plateformes de médias sociaux. Un problème avec cette recherche, c'est qu'elle sur-représente souvent un groupe spécifique de personnes connu sous le nom de WEIRD (Western, Educated, Industrialized, Rich, and Democratic). Ça veut dire que les études peuvent ne pas refléter les expériences de personnes venant d'horizons ou de pays différents. Le but de cette recherche, c'est de voir à quel point les études en informatique sociale se concentrent sur les populations WEIRD en examinant les papiers présentés à la conférence ICWSM, un endroit clé pour ce genre de recherche.
C'est quoi WEIRD ?
WEIRD fait référence à un groupe de pays qui inclut les États-Unis, le Canada, l'Europe de l'Ouest et l'Australie. Ces pays sont souvent le centre d'attention des études académiques, surtout en psychologie et en sciences sociales. La recherche qui repose beaucoup sur les populations WEIRD peut créer une vision étroite du comportement humain et des expériences. Par exemple, si la plupart des études sont basées sur des personnes des États-Unis, les résultats peuvent ne pas s'appliquer à des personnes d'autres cultures ou origines.
Diversité
L'importance de laLa diversité dans la recherche est importante parce qu'elle aide à couvrir un éventail plus large d'expériences humaines. Si la recherche se concentre uniquement sur les populations WEIRD, on rate des perspectives précieuses venant d'autres parties du monde. Par exemple, une étude qui regarde le comportement sur les médias sociaux peut trouver des modèles différents en incluant des données d'utilisateurs en Afrique, en Asie ou en Amérique du Sud. Des ensembles de données diversifiés aident à construire une compréhension plus complète du comportement social à travers différentes cultures.
Analyse des papiers ICWSM
Pour voir à quel point les papiers ICWSM se concentrent sur les WEIRD, les chercheurs ont examiné 494 papiers publiés de 2018 à 2022. Après avoir filtré les papiers qui ne donnaient pas d'infos claires sur les pays concernés, ils se sont concentrés sur 420 papiers. Ils voulaient voir combien de ces papiers utilisaient des données provenant de pays WEIRD et s'ils les comparaient à d'autres pays.
Les résultats ont montré que 37 % des papiers analysés à ICWSM se concentraient exclusivement sur des données provenant de pays occidentaux. C'est moins que d'autres conférences, comme CHI et FAccT, où la concentration sur les pays occidentaux était aussi élevée que 76 % et 84 %, respectivement. Ces chiffres suggèrent qu'ICWSM fait mieux en termes d'inclusion de ensembles de données diversifiés par rapport à ces autres conférences.
Cependant, même au sein d'ICWSM, la plupart des études penchaient encore vers des données provenant de pays plus éduqués, riches et industrialisés. Cela suggère que, même si la conférence est plus inclusive que d'autres, il reste encore du chemin à parcourir.
Le rôle des données des médias sociaux
Les médias sociaux servent de source critique de données dans la recherche en informatique sociale. Des plateformes comme Twitter et Reddit offrent une mine d'infos sur les interactions et comportements des utilisateurs. Cependant, utiliser des données de ces plateformes peut introduire des biais, surtout si les données proviennent principalement d'utilisateurs dans des pays WEIRD. Par exemple, si une étude analyse des tweets provenant majoritairement des États-Unis, elle pourrait rater des nuances culturelles importantes pour comprendre la dynamique des médias sociaux dans d'autres régions.
La recherche a montré que beaucoup d'études en psychologie tirent principalement de populations WEIRD, qui ne représentent qu'environ 12 % de la population mondiale. Cette situation est similaire dans le domaine de l'informatique et des sciences sociales, où une grande quantité de recherche est centrée sur l'Occident.
Méthodologie de l'étude
Les chercheurs ont utilisé une approche de crowdsourcing pour collecter des données des papiers ICWSM. Ils ont recruté 188 participants pour extraire des informations des papiers sélectionnés concernant l'origine des données et qui étaient les participants. Cette méthode leur a permis de calculer ce qu'ils appelaient des "scores WEIRD" pour les papiers analysés.
Les participants ont suivi un processus structuré, où ils ont été montrés des papiers exemple pour les aider à comprendre quelles données ils devaient extraire. Ils se sont concentrés sur des variables comme le nombre de participants et les pays d'où ils venaient. Ce processus de collecte de données minutieux a aidé à garantir des résultats précis.
Résultats
Après avoir analysé les papiers, les chercheurs ont trouvé des tendances notables. Une partie significative des études (51 %) a examiné des données incluant des pays occidentaux et non occidentaux. Cela indique que les chercheurs d'ICWSM commencent à incorporer une gamme plus équilibrée d'ensembles de données.
De plus, l'étude a révélé que les papiers de jeu de données et les posters avaient des scores plus bas dans les catégories "EIRD" (Éduqué, Industrialisé, Riche et Démocratique) par rapport aux papiers de recherche complets. Cette découverte suggère que ces types de papiers impliquent plus souvent des échantillons provenant de pays moins éduqués et moins démocratiques.
Auteurs internationaux
L'étude a également exploré comment la diversité des affiliations des auteurs impactait les ensembles de données utilisés dans les papiers de recherche. Les chercheurs ont regardé si les papiers avec des auteurs provenant de plusieurs pays avaient tendance à se concentrer sur des échantillons moins WEIRD. Les résultats indiquaient une corrélation négative, ce qui signifie que les papiers co-écrits par des chercheurs de différents pays étaient moins susceptibles de se concentrer sur des échantillons WEIRD.
Cela souligne l'importance de la collaboration mondiale dans le travail académique. Quand des chercheurs de différentes régions travaillent ensemble, ils peuvent apporter des perspectives et des sources de données diverses qui enrichissent la recherche et la rendent plus représentative de la population mondiale.
Implications pour la recherche future
Les résultats de cette étude fournissent des informations critiques sur comment la recherche en informatique sociale peut devenir plus inclusive. Il y a plusieurs implications et recommandations pour les études futures :
Élargir la diversité des ensembles de données : Les chercheurs devraient s'efforcer d'inclure plus de données provenant de régions sous-représentées, afin que leurs études reflètent une perspective globale.
Listes de vérification pour les papiers : Inclure des questions dans les formulaires de soumission de recherche sur la diversité géographique des ensembles de données peut aider à augmenter la sensibilisation sur les biais WEIRD.
Déclarations sur l'IA responsable : Les papiers pourraient bénéficier d'incorporer des déclarations sur l'impact potentiel de leurs ensembles de données, surtout si elles proviennent de régions spécifiques connues pour certains biais.
Favoriser la diversité des auteurs : Des initiatives pour promouvoir la diversité parmi les auteurs peuvent conduire à des collaborations plus solides qui transcendent différents horizons et pays, réduisant potentiellement l'accent sur les échantillons WEIRD.
Traiter les limitations : Les études futures devraient être conscientes de leurs limites, particulièrement dans la façon dont elles définissent et mesurent la diversité. Explorer des métriques et des cadres alternatifs peut fournir une compréhension plus nuancée des perspectives mondiales.
Conclusion
La recherche en informatique sociale a encore du chemin à faire pour devenir plus représentative de la population mondiale. Bien que les résultats récents d'ICWSM indiquent des progrès, il reste encore beaucoup à améliorer en termes d'inclusivité et de diversité dans les ensembles de données. En se concentrant sur l'élargissement des horizons de recherche et en adoptant une perspective plus globale, l'informatique sociale peut améliorer sa compréhension du comportement humain et des expériences uniques des individus à travers le monde.
Grâce à des méthodologies diversifiées et des efforts collaboratifs, les chercheurs peuvent espérer atteindre une représentation plus équilibrée dans leurs études, garantissant que les voix de personnes venant de divers horizons soient entendues et valorisées dans la recherche en informatique sociale.
Titre: WEIRD ICWSM: How Western, Educated, Industrialized, Rich, and Democratic is Social Computing Research?
Résumé: Much of the research in social computing analyzes data from social media platforms, which may inherently carry biases. An overlooked source of such bias is the over-representation of WEIRD (Western, Educated, Industrialized, Rich, and Democratic) populations, which might not accurately mirror the global demographic diversity. We evaluated the dependence on WEIRD populations in research presented at the AAAI ICWSM conference; the only venue whose proceedings are fully dedicated to social computing research. We did so by analyzing 494 papers published from 2018 to 2022, which included full research papers, dataset papers and posters. After filtering out papers that analyze synthetic datasets or those lacking clear country of origin, we were left with 420 papers from which 188 participants in a crowdsourcing study with full manual validation extracted data for the WEIRD scores computation. This data was then used to adapt existing WEIRD metrics to be applicable for social media data. We found that 37% of these papers focused solely on data from Western countries. This percentage is significantly less than the percentages observed in research from CHI (76%) and FAccT (84%) conferences, suggesting a greater diversity of dataset origins within ICWSM. However, the studies at ICWSM still predominantly examine populations from countries that are more Educated, Industrialized, and Rich in comparison to those in FAccT, with a special note on the 'Democratic' variable reflecting political freedoms and rights. This points out the utility of social media data in shedding light on findings from countries with restricted political freedoms. Based on these insights, we recommend extensions of current "paper checklists" to include considerations about the WEIRD bias and call for the community to broaden research inclusivity by encouraging the use of diverse datasets from underrepresented regions.
Auteurs: Ali Akbar Septiandri, Marios Constantinides, Daniele Quercia
Dernière mise à jour: 2024-06-11 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.02090
Source PDF: https://arxiv.org/pdf/2406.02090
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.