Simple Science

La science de pointe expliquée simplement

# Statistiques # Applications # Apprentissage automatique # Apprentissage automatique

Prédire les non-réponses dans l'étude ELSA COVID-19

Utiliser l'apprentissage automatique pour analyser les non-réponses aux sondages chez les personnes âgées pendant la pandémie.

Marjan Qazvini

― 7 min lire


Prédictions de Prédictions de non-réponse de l'étude ELSA des méthodes de données avancées. Analyser les abandons d'enquête avec
Table des matières

Chaque année, les organisations dépensent beaucoup de temps et d'argent pour collecter des infos via des enquêtes. Parfois, les gens ne participent pas aux enquêtes de suivi. Pourquoi ? Eh bien, ça peut être à cause d'un déménagement, de problèmes de santé, ou même de ne plus être là. Dans cet article, on se concentre sur une étude spécifique appelée l'étude anglaise longitudinale sur le vieillissement, le sous-étude COVID-19. Cette étude a rassemblé des infos pendant la pandémie, mais certains participants de la première vague n'étaient pas présents pour la seconde. Notre objectif ? Comprendre qui pourrait ne pas répondre selon différents facteurs en utilisant des techniques de machine learning.

Comprendre l'étude

Le sous-étude ELSA COVID-19 a été menée en deux vagues pendant la pandémie. La première a eu lieu de juin à juillet 2020, et la seconde de novembre à décembre de la même année. Depuis, pas mal de chercheurs ont plongé dans les données collectées. On cherche à prédire qui pourrait ne pas répondre à la seconde vague en utilisant des méthodes de machine learning comme les K-plus proches voisins, la forêt aléatoire, la Régression Logistique, et plus encore.

Pourquoi c'est important

Quand les organisations peuvent identifier les gens qui pourraient ne pas répondre aux enquêtes, elles peuvent économiser des ressources. Par exemple, au Royaume-Uni, l'Office for National Statistics utilise la régression logistique pour essayer de prédire la probabilité que les gens répondent. En 2012, une initiative aux États-Unis a même organisé un concours pour développer un modèle prédictif pour les non-réponses, soulignant l'importance d'utiliser des méthodes avancées.

Enquête sur les non-réponses

On se concentre sur la deuxième vague de l'étude ELSA. Beaucoup de recherches ont été faites sur les données, mais les études explorant spécifiquement les non-réponses sont rares. On veut changer ça. Contrairement aux vagues précédentes d'ELSA, il n'y a pas eu d'étude pour fournir des preuves sur le fait de ne pas participer. Donc, on vise à identifier les facteurs qui ont déterminé qui n'a pas répondu à la seconde vague.

Quel est le jeu de données ?

L'étude ELSA est une enquête auto-rapportée qui a lieu tous les deux ans. Elle représente des individus de 50 ans et plus. L'échantillon original était tiré de ménages ayant participé à des enquêtes de santé précédentes. Avec neuf vagues complètes jusqu'à présent, une nouvelle étude a été créée pendant le COVID-19 pour examiner son impact sur les personnes âgées concernant la santé, la démographie et l'emploi.

Pour notre analyse, on considère les membres principaux – ceux qui répondent aux critères d'âge et qui avaient participé à des enquêtes précédentes. Cependant, on a remarqué une chute notable des réponses de la première à la seconde vague.

Analyse des réponses

La plupart de nos participants viennent de la première cohorte. Fait intéressant, beaucoup ont préféré être interviewés en ligne plutôt qu'au téléphone. On a aussi remarqué quelque chose d'important – l'endroit où les individus vivaient pendant la pandémie a affecté leurs réponses. La majorité est restée à leur résidence habituelle, tandis que certains étaient dans des maisons de retraite. Des facteurs comme les problèmes de santé, les changements d'emploi et la démographie ont joué un rôle significatif dans la détermination de qui a répondu.

Modèles de machine learning utilisés

Pour résoudre notre problème, on a utilisé différents modèles de machine learning.

K-plus proches voisins (KNN)

Ce modèle regarde les données les plus proches pour prédire les résultats. C'est comme demander à tes voisins ce qu'ils pensent d'un film avant de le voir. Si tes amis les plus proches l'ont adoré, tu pourrais lui donner une chance aussi !

Arbres de décision

Imagine dessiner un organigramme. À chaque point, tu décides quelle direction prendre selon ce que tu sais. Ces arbres aident à classifier les données et sont faciles à comprendre.

Forêt aléatoire

Pense à ça comme une forêt entière d'arbres de décision. Chaque arbre vote sur le résultat, et la majorité gagne. C'est comme demander à un groupe d'amis où aller dîner et aller au choix le plus populaire.

Régression logistique

C'est une méthode statistique pour prédire les chances qu'un résultat se produise. C'est surtout utile pour des résultats binaires, comme si quelqu'un va répondre ou pas.

Réseaux neuronaux

Ceux-ci s'inspirent du cerveau humain et consistent en unités ou neurones interconnectés. Ils fonctionnent bien pour des données complexes mais peuvent être un peu plus difficiles à interpréter comparés aux arbres.

Classificateurs de vecteurs de support (SVC)

Le SVC aide à trouver la meilleure ligne qui sépare différentes classes dans nos données. Pense à ça comme un videur dans un club qui s'assure que seules certaines personnes entrent.

Méthodes d'ensemble

Ces méthodes combinent plusieurs modèles pour améliorer les performances. C'est comme rassembler une équipe avec différents talents pour obtenir un meilleur résultat.

Évaluation des modèles

Après avoir entraîné nos modèles, on doit évaluer leur performance. On se concentre sur la précision et d'autres métriques comme la précision et le rappel. La précision compte, mais ce n'est pas la seule chose. Parfois, trouver les vrais positifs (ceux qui n'ont pas répondu) est beaucoup plus important que la précision globale, surtout dans des ensembles de données déséquilibrés.

Résultats et observations

En analysant les données, on a trouvé que le modèle de forêt aléatoire a globalement mieux fonctionné, tandis que KNN était excellent pour prédire les vrais positifs. Cependant, SVC et les réseaux neuronaux ont rencontré un peu de difficultés.

Les modèles ont identifié plusieurs facteurs significatifs influençant les réponses. Fait intéressant, le mode d'interview s'est avéré être un facteur crucial. Plus de gens interviewés en ligne n'ont pas participé à la seconde vague comparé à ceux interviewés par téléphone.

Santé et autres influences

Des problèmes de santé sont également apparus comme un facteur clé. On dirait que les zones les plus touchées par le COVID-19 ont connu des non-réponses plus élevées. Les niveaux d'activité physique des gens pendant la pandémie ont aussi joué un rôle – ceux qui étaient moins actifs semblaient plus enclins à abandonner.

Ce que tout ça signifie

Prédire qui pourrait ne pas répondre aux enquêtes est vital pour les organisations. En comprenant les facteurs qui mènent aux non-réponses, elles peuvent mieux planifier pour les futures enquêtes. Les trouvailles ici ne sont pas seulement utiles pour l'étude ELSA mais peuvent aussi être appliquées à diverses enquêtes et études.

Conclusion

Dans cette analyse du jeu de données ELSA COVID-19, on a exploré la prédiction des non-réponses et mis en avant des facteurs importants qui ont influencé les décisions des participants. Bien que la forêt aléatoire et KNN se soient démarqués, la régression logistique a montré des capacités de généralisation remarquables.

En identifiant ces facteurs, il est clair que les organisations peuvent prendre des décisions éclairées et économiser du temps et des ressources pour les futures enquêtes !

Espérons que nos prédictions aident à améliorer ces taux de réponse la prochaine fois – parce qu'après tout, qui ne voudrait pas faire partie d'une étude qui leur donne une voix ?

Source originale

Titre: Analysis of ELSA COVID-19 Substudy response rate using machine learning algorithms

Résumé: National Statistical Organisations every year spend time and money to collect information through surveys. Some of these surveys include follow-up studies, and usually, some participants due to factors such as death, immigration, change of employment, health, etc, do not participate in future surveys. In this study, we focus on the English Longitudinal Study of Ageing (ELSA) COVID-19 Substudy, which was carried out during the COVID-19 pandemic in two waves. In this substudy, some participants from wave 1 did not participate in wave 2. Our purpose is to predict non-responses using Machine Learning (ML) algorithms such as K-nearest neighbours (KNN), random forest (RF), AdaBoost, logistic regression, neural networks (NN), and support vector classifier (SVC). We find that RF outperforms other models in terms of balanced accuracy, KNN in terms of precision and test accuracy, and logistics regressions in terms of the area under the receiver operating characteristic curve (ROC), i.e. AUC.

Auteurs: Marjan Qazvini

Dernière mise à jour: 2024-10-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2411.00297

Source PDF: https://arxiv.org/pdf/2411.00297

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus de l'auteur

Articles similaires