Simple Science

La science de pointe expliquée simplement

# Informatique# Réseaux sociaux et d'information# Ordinateurs et société

Révision de la recherche sur l'identité avec des données des réseaux sociaux

Utiliser les réseaux sociaux pour mieux analyser et comprendre l'identité personnelle.

― 7 min lire


Repenser l'identité avecRepenser l'identité avecl'analyse des donnéesréseaux sociaux.l'identité grâce aux données desNouvelles méthodes pour étudier
Table des matières

L'identité est un sujet clé en sciences sociales, influençant comment on se voit et comment on se relie aux autres. Les gens réfléchissent à l'identité de plusieurs manières, dont des traits personnels, des croyances et des appartenances à des groupes. Malgré beaucoup de recherches, plein de questions restent sans réponses sur comment mesurer et comprendre l'identité, ce qui montre qu'il faut de nouvelles manières de l'étudier.

Le défi de mesurer l'identité

Traditionnellement, mesurer l'identité repose sur des enquêtes et des évaluations d'experts, ce qui peut être long et nécessite des pros formés. Un exemple est une méthode qui utilise des tâches de complétion de phrases pour évaluer comment les gens voient leur propre développement. Bien que ces méthodes puissent être efficaces, elles posent aussi des défis, comme le besoin d'une formation spécialisée pour ceux qui analysent les réponses.

Avec l'essor des Réseaux sociaux, les chercheurs commencent à explorer de nouvelles façons de regarder l'identité. En analysant les énormes quantités de données partagées sur des plateformes comme Facebook, Twitter et VK, les chercheurs peuvent trouver des insights sur comment les gens expriment leur identité au quotidien. Cette approche pourrait donner une nouvelle perspective sur l'identité qui est plus difficile à saisir avec les méthodes d'enquête traditionnelles.

Les embeddings de mots et leur rôle dans la compréhension de l'identité

Une des techniques innovantes utilisées dans la recherche sur l'identité est les embeddings de mots, qui sont des façons de représenter les mots dans un espace qui capture leurs significations. Ces embeddings aident les chercheurs à trouver des motifs sur la façon dont les mots se rapportent les uns aux autres. Par exemple, certains mots associés à des Genres ou à des professions spécifiques peuvent révéler des stéréotypes sous-jacents dans la pensée des gens.

La pratique courante est de créer un modèle basé sur une collection spécifique de textes. Dans ce modèle, la distance entre un mot représentant un groupe social (comme "mécanicien" pour les hommes ou "infirmière" pour les femmes) et d'autres mots peut montrer à quel point les concepts sont liés dans l'esprit des gens. Les chercheurs peuvent suivre comment ces relations changent au fil du temps, offrant des insights sur les changements sociaux et les biais.

Présentation des embeddings de mots améliorés

Dans cette nouvelle approche, les chercheurs améliorent les embeddings de mots en ajoutant des informations socio-démographiques, comme l'âge et le genre, pour explorer plus en profondeur l'identité individuelle. En remplaçant les occurrences du mot "je" dans les publications sur les réseaux sociaux par des tokens qui incluent des informations sur le genre et l'âge, les chercheurs peuvent créer une image plus détaillée de la façon dont les gens s'expriment.

Cette méthode permet aux chercheurs de regarder l'identité sans diviser les données en différents groupes, ce qui est un inconvénient courant dans les études traditionnelles. En gardant les données intactes, les chercheurs peuvent analyser un plus grand ensemble d'informations et identifier les différences entre les groupes sociaux plus efficacement.

Méthodologie et sources de données

Pour tester cette approche, les chercheurs ont rassemblé un grand ensemble de données de publications de la plateforme sociale VK, qui oblige les utilisateurs à partager leur genre et leur âge. Ces données ont fourni une riche source d'informations pour analyser l'identité. En normalisant le texte pour la précision grammaticale, les chercheurs ont assuré que les mots étaient placés correctement dans l'espace d'embeddings de mots.

Une fois l'ensemble de données préparé, les chercheurs ont entraîné un modèle pour comprendre comment les tokens améliorés se rapportaient les uns aux autres. En examinant comment ces tokens exprimaient différents aspects de l'identité, les chercheurs pouvaient vérifier si leur méthode produisait des résultats fiables.

Validation des découvertes sur les auto-représentations genrées

Pour vérifier l'efficacité de la méthode améliorée, les chercheurs ont comparé leurs résultats avec des découvertes établies sur les auto-représentations genrées. Ils ont regardé les traits communs associés aux hommes et aux femmes, comme "courageux" pour les hommes et "sensible" pour les femmes. En construisant un axe sémantique qui capture ces traits de genre, ils pouvaient voir si leur méthode reflétait avec précision la recherche existante.

Les résultats ont montré que les tokens améliorés s'alignaient bien avec les stéréotypes connus liés au genre, confirmant que la méthode pouvait capturer efficacement ces aspects de l'identité. De plus, les chercheurs ont remarqué que la façon dont les gens exprimaient leur identité changeait avec l'âge, fournissant de nouveaux insights qui pourraient façonner les futures études.

Analyse de la robustesse et de la sensibilité

Les chercheurs ont aussi vérifié à quel point leurs résultats étaient sensibles à différentes spécifications du modèle. Ils ont trouvé qu'après avoir formé le modèle seulement un court moment, ils pouvaient encore reproduire des résultats significatifs. La taille de l'ensemble de données et le choix de la structure du modèle ne semblaient pas beaucoup affecter les résultats principaux, ce qui est prometteur pour les futures applications de cette approche.

Applications au-delà des réseaux sociaux

Cette nouvelle méthodologie est polyvalente et peut être appliquée à diverses sources de données au-delà des réseaux sociaux. Par exemple, elle peut être utilisée pour analyser des scripts de télévision ou même d'autres plateformes de médias sociaux qui partagent des informations démographiques similaires. En utilisant des données publiques sur les professions ou les parcours éducatifs, les chercheurs peuvent examiner comment les différentes origines influencent l'identité et la perception de soi.

Aller de l'avant avec la recherche sur l'identité

Les résultats de cette recherche mettent en lumière le potentiel de nouvelles façons d'examiner l'identité à travers le prisme de la technologie et des réseaux sociaux. En se concentrant sur des données naturalistes plutôt qu'en s'appuyant uniquement sur des enquêtes, les chercheurs peuvent avoir une vision plus claire de la façon dont les gens s'identifient et s'expriment dans la vie réelle.

Bien que l'approche ait ses limites - comme le fait de s'appuyer sur des données auto-déclarées - elle ouvre encore beaucoup de possibilités pour les futures études sur l'identité. Les chercheurs peuvent appliquer cette méthodologie pour comprendre divers phénomènes et examiner comment les tendances sociales façonnent les Identités individuelles.

Conclusion

En résumé, l'introduction d'embeddings de mots améliorés pour étudier l'identité reflète un paysage en évolution dans la recherche en sciences sociales. À mesure que la technologie avance, les opportunités de comprendre des comportements humains complexes augmentent aussi. En tirant parti des données des réseaux sociaux, les chercheurs peuvent capturer les nuances de l'identité de manière que les méthodes traditionnelles ne permettent peut-être pas, ouvrant la voie à des insights plus riches sur l'expérience humaine. Cette approche non seulement valide les théories établies, mais a aussi le potentiel de découvrir de nouvelles dimensions de l'identité alors que la société continue de changer.

Source originale

Titre: The Echoes of the 'I': Tracing Identity with Demographically Enhanced Word Embeddings

Résumé: Identity is one of the most commonly studied constructs in social science. However, despite extensive theoretical work on identity, there remains a need for additional empirical data to validate and refine existing theories. This paper introduces a novel approach to studying identity by enhancing word embeddings with socio-demographic information. As a proof of concept, we demonstrate that our approach successfully reproduces and extends established findings regarding gendered self-views. Our methodology can be applied in a wide variety of settings, allowing researchers to tap into a vast pool of naturally occurring data, such as social media posts. Unlike similar methods already introduced in computer science, our approach allows for the study of differences between social groups. This could be particularly appealing to social scientists and may encourage the faster adoption of computational methods in the field.

Auteurs: Ivan Smirnov

Dernière mise à jour: 2024-06-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.00340

Source PDF: https://arxiv.org/pdf/2407.00340

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus de l'auteur

Articles similaires