Comprendre les patterns de langage grâce aux données des smartphones
Analyser comment les gens communiquent avec leurs smartphones tout en respectant leur vie privée.
― 8 min lire
Table des matières
Les smartphones font partie intégrante de notre quotidien, et ils ont plein d'infos sur notre façon de communiquer. Quand on tape des messages ou des posts sur nos téléphones, on ne partage pas juste des mots ; on balance aussi une partie de nos pensées et de nos émotions. Cet article va se concentrer sur comment mieux comprendre ce que les gens veulent dire quand ils tapent sur leurs smartphones tout en étant prudents concernant leur vie privée.
La langue et nos pensées
La langue est un moyen clé pour nous d'exprimer ce qu'on pense et ce qu'on ressent. Quand on envoie des messages ou qu'on poste en ligne, on crée une trace numérique qui peut en dire beaucoup sur notre personnalité, notre humeur, ou notre état d'esprit. Par exemple, les posts d'une personne sur les réseaux sociaux peuvent indiquer ses traits de personnalité ou même des signes de dépression. Les chercheurs veulent étudier comment la langue est utilisée dans différents contextes et ce que ça signifie pour notre comportement et nos interactions.
Méthodes actuelles et leurs limites
Aujourd'hui, les chercheurs collectent des données sur l'utilisation de la langue de deux manières principales. Souvent, ils regardent les posts sur les réseaux sociaux parce que c'est facile à trouver. Cependant, cette méthode a ses inconvénients. Les gens ne sont peut-être pas totalement honnêtes sur leurs pensées et sentiments sur les réseaux sociaux, ce qui peut créer des lacunes dans les données.
Une autre source de données linguistiques, ce sont les applis de Messagerie instantanée, comme WhatsApp ou Signal. Par contre, récolter des données de ces applis est difficile parce que les chercheurs ne peuvent pas facilement accéder à ces conversations privées. Ils demandent souvent aux participants de partager leurs messages, mais ça peut mener à des données biaisées ou incomplètes.
Une nouvelle approche
Pour résoudre ces problèmes, on propose une nouvelle manière de collecter des données sur les smartphones qui respecte la vie privée des utilisateurs. Au lieu de juste regarder quelles applis les gens utilisent, on se concentre sur ce qu'ils tapent vraiment et pourquoi ils le tapent. On pense qu'en examinant de plus près le contexte de la saisie, les chercheurs peuvent mieux comprendre les intentions et les pensées des utilisateurs.
Notre méthode utilisera une technique appelée enregistrement de frappes enrichies par le contexte. Ça veut dire qu'on veut collecter des données d'une manière qui prend en compte le but de chaque type de message. Par exemple, on peut distinguer entre une requête de recherche, un post sur les réseaux sociaux, ou un message privé. Ce genre d'approche peut aider les chercheurs à obtenir une image plus précise de l'utilisation du langage.
L'importance du contexte
Comprendre le contexte du langage est crucial. Les mêmes mots peuvent avoir des significations différentes selon où et comment ils sont utilisés. Par exemple, un message tapé dans une appli de réseaux sociaux pourrait être destiné à être partagé avec des amis, tandis qu'un message tapé dans une appli de messagerie pourrait être plus personnel. En se concentrant sur le contexte, les chercheurs peuvent collecter des données qui sont plus pertinentes pour leurs études, au lieu de se fier au type d'appli utilisée.
Quand on collecte des données en se basant sur le type d'entrée-comme identifier si quelqu'un poste une histoire ou envoie un message-on peut filtrer et analyser plus efficacement. Ce filtrage permet aux chercheurs d'éviter les données qui ne servent pas leur but, ce qui aide aussi à protéger la vie privée des utilisateurs.
L'étude
Pour tester notre nouvelle méthode, on a mené une grande étude où on a demandé aux participants d'utiliser une appli sur leurs smartphones pendant qu'on collectait des données sur leur comportement de saisie pendant plusieurs mois. Les participants ont tapé des messages, cherché des infos, et rempli des formulaires, et on a enregistré les types d'entrées qu'ils faisaient.
L'étude a impliqué 624 utilisateurs et a duré six mois. En analysant les données, on a pu voir des motifs dans la façon dont les gens utilisaient le langage dans différentes situations. On a aussi regardé combien de mots étaient utilisés, quels types de phrases étaient courantes, et comment les différents contextes influençaient l'utilisation du langage.
Processus de collecte de données
Les participants devaient installer notre appli de recherche, qui collectait des données sur leurs saisies de texte. L'appli fonctionnait en arrière-plan, donc les participants pouvaient vaquer à leurs occupations quotidiennes sans se sentir dérangés. On a veillé à suivre des directives strictes sur la vie privée, s'assurant qu'aucune donnée textuelle brute n'était stockée ou partagée sans consentement.
L'appli suivait quand les utilisateurs tapaient, ce qu'ils tapent, et le contexte fourni par les textes d'entrée. Ce contexte nous aidait à catégoriser les entrées selon leurs motivations. Par exemple, on pouvait identifier les entrées liées à la messagerie, à la recherche, ou à la publication sur les réseaux sociaux.
Motivations d'entrée
On a identifié plusieurs types de motivations d'entrée basées sur ce que les utilisateurs tapaient. Ça incluait :
- Messagerie : Messages privés envoyés à des personnes spécifiques.
- Publication : Messages destinés à un public plus large, comme des posts sur les réseaux sociaux.
- Commentaire : Réponses à des posts existants.
- Recherche : Requêtes faites pour trouver des infos sur internet.
- Saisie de données : Infos entrées dans des formulaires, comme des adresses email.
On a aussi catégorisé certaines entrées comme "Autres", pour celles qui ne rentraient pas dans les principales catégories, ou "Ambiguës", pour les entrées qui n'étaient pas claires.
Analyse des données
Après avoir collecté les données, on a analysé les motifs linguistiques pour voir comment les différentes motivations d'entrée influençaient les types de mots que les gens utilisaient. Par exemple, on a constaté que les messages adressés à d'autres personnes avaient tendance à être plus longs et contenaient plus de mots que les requêtes de recherche ou les saisies de données, qui étaient généralement plus courtes.
En comprenant ces différences, les chercheurs peuvent obtenir des idées sur la façon dont les gens communiquent selon leurs situations. Par exemple, les gens ont tendance à utiliser un langage plus décontracté quand ils envoient des messages à des amis par rapport à un langage plus formel dans des requêtes de recherche.
Considérations sur la vie privée
Bien que la collecte de données linguistiques puisse fournir des insights précieux, il est important de garantir la vie privée des participants. On a pris des mesures pour limiter la quantité d'infos identifiables collectées. L'appli ne stockait pas de texte brut mais se concentrait plutôt sur des résumés qui catégorisaient les motivations d'entrée sans révéler de contenu sensible.
Notre approche soutient l'idée de minimisation des données, ce qui signifie qu'on collecte seulement les données nécessaires pour les besoins de recherche. C'est particulièrement important quand il s'agit d'infos personnelles et potentiellement sensibles.
Directions futures
En regardant vers l'avenir, il y a plein de possibilités excitantes pour des Recherches supplémentaires utilisant notre approche enrichie par le contexte. Les chercheurs peuvent explorer divers aspects de l'utilisation de la langue-comme comment différentes démographies peuvent communiquer différemment, comment la langue évolue, et comment la langue impacte la santé mentale.
Il y a un besoin de développer des outils et des méthodes qui peuvent continuer à évoluer avec les technologies changeantes et les comportements des utilisateurs. Les études futures pourraient élargir nos résultats en explorant d'autres facteurs psychologiques et sociologiques, ou même en analysant comment l'utilisation de la langue change avec le temps.
Conclusion
En résumé, les smartphones fournissent une riche source de données linguistiques qui peuvent nous aider à mieux comprendre la communication humaine. En se concentrant sur le contexte dans lequel la langue est utilisée, les chercheurs peuvent obtenir des insights plus profonds sur les pensées et les sentiments des gens tout en respectant leur vie privée.
Cette nouvelle approche de collecte de données peut aider à combler le fossé entre la technologie et le comportement humain, permettant des recherches significatives qui capturent les nuances de notre communication quotidienne. Alors qu'on continue à développer et affiner ces méthodes, on peut espérer une meilleure compréhension de la relation complexe entre la langue, la technologie et l'esprit humain.
Titre: Putting Language into Context Using Smartphone-Based Keyboard Logging
Résumé: While the study of language as typed on smartphones offers valuable insights, existing data collection methods often fall short in providing contextual information and ensuring user privacy. We present a privacy-respectful approach - context-enriched keyboard logging - that allows for the extraction of contextual information on the user's input motive, which is meaningful for linguistics, psychology, and behavioral sciences. In particular, with our approach, we enable distinguishing language contents by their channel (i.e., comments, messaging, search inputs). Filtering by channel allows for better pre-selection of data, which is in the interest of researchers and improves users' privacy. We demonstrate our approach on a large-scale six-month user study (N=624) of language use in smartphone interactions in the wild. Finally, we highlight the implications for research on language use in human-computer interaction and interdisciplinary contexts.
Auteurs: Florian Bemmann, Timo Koch, Maximilian Bergmann, Clemens Stachl, Daniel Buschek, Ramona Schoedel, Sven Mayer
Dernière mise à jour: 2024-03-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.05180
Source PDF: https://arxiv.org/pdf/2403.05180
Licence: https://creativecommons.org/licenses/by-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://tex.stackexchange.com/questions/28465/multiple-footnotes-at-one-point
- https://dl.acm.org/ccs.cfm
- https://play.google.com/store/apps/details?id=com.zhiliaoapp.musically
- https://developer.apple.com/documentation/uikit/keyboards_and_input/creating_a_custom_keyboard
- https://developer.android.com/guide/topics/text/creating-input-method
- https://developers.google.com/location-context/fused-location-provider
- https://developer.apple.com/documentation/corelocation
- https://developer.android.com/reference/android/app/usage/UsageStatsManager
- https://developer.android.com/reference/android/accessibilityservice/AccessibilityService
- https://awareframework.com/keyboard/
- https://developer.android.com/reference/android/view/accessibility/AccessibilityEvent
- https://developer.android.com/reference/android/widget/EditText
- https://developer.android.com/guide/topics/ui/accessibility/service
- https://www.destatis.de/EN/Home/_node.html
- https://www.r-project.org/
- https://support.google.com/googleplay/android-developer/answer/9888170?hl=en&ref_topic=9877467
- https://support.google.com/googleplay/android-developer/answer/9214102