Fusionner des enquêtes pour de meilleures analyses sociales
fusionACS combine des données d'enquêtes ménagères pour des analyses de recherche plus poussées.
― 9 min lire
Table des matières
- Le Besoin de Données Complètes
- Le Processus Derrière fusionACS
- Création d'un Nouvel Ensemble de Données
- Étapes du Processus de Fusion
- Appariement Statistique
- Un Outil de Fusion Flexible
- Gestion des Variables Continues et Catégorielles
- Incorporation de Variables Spatiales
- Validation des Données Fusionnées
- Comprendre l'Incertitude
- Applications Réelles
- Conclusion
- Source originale
- Liens de référence
De nombreuses études en sciences sociales utilisent des enquêtes pour recueillir des informations sur les foyers et les individus. Aux États-Unis, il y a plein d'enquêtes gérées par le gouvernement, mais elles fonctionnent souvent indépendamment et posent des questions différentes. Ça peut limiter la profondeur de la recherche, car les chercheurs ne peuvent pas facilement combiner les infos de ces enquêtes. Le projet fusionACS vise à changer ça en fusionnant des données provenant de différentes enquêtes de ménages aux États-Unis. En combinant ces données, les chercheurs peuvent poser de nouvelles questions et obtenir des infos qui étaient auparavant impossibles à avoir.
Le Besoin de Données Complètes
Les chercheurs espèrent avoir une enquête unique et complète avec un grand groupe de participants qui couvre plein de sujets. Une telle enquête leur permettrait d'analyser les différences entre divers groupes et les relations entre différents aspects de la vie. Cependant, créer une enquête vraiment complète n'est pas faisable à cause des contraintes budgétaires et de la complexité des problèmes sociaux. Au lieu de ça, il existe une variété d'enquêtes, chacune couvrant différents aspects et ayant des objectifs différents.
Les chercheurs essaient souvent de combler les lacunes en devinant ou en prédisant certaines infos d'un ensemble de données en utilisant un autre. Cette approche "au petit bonheur" est courante dans la recherche mais n'est pas toujours idéale. Le projet fusionACS cherche à combiner systématiquement deux ensembles de données séparés en un seul ensemble cohérent, permettant une meilleure analyse.
Le Processus Derrière fusionACS
Le but principal du projet fusionACS est de maximiser la valeur des enquêtes existantes aux États-Unis. Pour cela, il fusionne diverses enquêtes afin de simuler un ensemble de données plus complet. L'American Community Survey (ACS) est la base de ce processus car c'est la plus grande enquête de ménages aux États-Unis.
En intégrant les Variables des enquêtes "donatrices" dans les données de l'ACS, le projet peut créer des estimations sur la façon dont les répondants de l'ACS auraient pu répondre aux enquêtes donatrices. Ça se fait en utilisant des caractéristiques communes des répondants, comme le revenu et la localisation. Des techniques d'apprentissage automatique aident à modéliser les résultats des variables donatrices.
Création d'un Nouvel Ensemble de Données
Le projet fusionACS génère un ensemble de données qui combine les données de l'ACS avec des variables d'autres enquêtes. Ça veut dire que chaque répondant dans l'ensemble de données de l'ACS a une réponse simulée basée sur les informations des enquêtes donatrices. Ce nouvel ensemble de données peut être analysé de manière similaire aux données d'enquête traditionnelles, mais offre plus d'opportunités pour explorer les relations à travers plusieurs sources d'information.
L'avantage de ce processus, c'est qu'il permet aux chercheurs de faire des estimations pour des zones géographiques plus petites, ce qui n'est généralement pas possible avec la plupart des enquêtes donatrices. En fait, ça peut même produire des estimations pour de toutes petites zones, comme des quartiers.
Étapes du Processus de Fusion
Le projet fusionACS se compose de plusieurs étapes pour créer un ensemble de données utilisable :
- Les données brutes des enquêtes sont traitées pour créer des microdonnées standardisées.
- Les variables des enquêtes donatrices sont appariées et harmonisées avec des variables similaires dans l'ACS.
- Les données nettoyées sont structurées et organisées pour l'analyse.
- Des modèles d'apprentissage automatique sont entraînés sur les données donatrices.
- Des variables uniques de l'enquête donatrice sont ajoutées aux microdonnées de l'ACS.
- Les données fusionnées sont validées pour vérifier la qualité du processus de fusion.
- Enfin, les données fusionnées sont analysées pour produire des estimations.
Ce processus peut fonctionner avec n'importe quelle enquête américaine depuis environ 2005, même si les enquêtes avec des tailles d'échantillons plus grandes et des caractéristiques qui se chevauchent avec l'ACS sont des candidats idéaux.
Appariement Statistique
Le processus de fusion peut être vu comme un problème "d'appariement statistique". Ici, l'ACS est l'ensemble de données principal, et les enquêtes donatrices fournissent des infos supplémentaires. Le but est d'apparier les enregistrements de l'enquête donatrice avec des enregistrements similaires dans l'ACS. En utilisant des variables communes, telles que la taille du ménage et le revenu, les chercheurs peuvent identifier des enregistrements comparables dans les deux ensembles de données. Les variables donatrices uniques sont ensuite ajoutées aux enregistrements de l'ACS.
Dans certains cas, des enregistrements complets sont appariés, ce qui peut introduire un risque de répétition des observations donatrices dans l'ensemble de données fusionné. Cela pourrait mener à une sous-représentation de la variance du monde réel. Le projet fusionACS utilise une approche plus flexible pour créer des estimations réalistes sans se fier uniquement à des appariements complets.
Un Outil de Fusion Flexible
Les méthodes du projet fusionACS combinent des idées d'appariement statistique, d'imputation et de synthèse de données. Elles créent un outil polyvalent qui peut gérer différents types et tailles d'ensembles de données, garantissant des estimations précises et significatives.
Le but est de créer un système qui peut accueillir des ensembles de données de tailles variées, gérer différents types de variables et fournir des résultats réalistes pour les variables examinées. Il vise aussi à offrir une approche de modélisation des données qui ne suppose pas certaines distributions statistiques, ce qui est souvent le cas avec les méthodes traditionnelles.
Gestion des Variables Continues et Catégorielles
Quand on traite différents types de données, comme des variables catégorielles ou continues, fusionACS a des stratégies spécifiques. Pour les variables catégorielles, le processus implique d'ajuster un modèle aux données donatrices pour prédire les probabilités conditionnelles pour chaque enregistrement dans l'ACS. Ça aide à simuler des réponses pour les variables donatrices ajoutées.
Pour les variables continues, plusieurs modèles sont utilisés pour estimer la distribution conditionnelle. Cela peut inclure l'estimation de moyennes et de percentiles. Le projet fusionACS utilise un processus qui permet une prédiction plus flexible sans des hypothèses strictes sur la distribution sous-jacente des données.
Incorporation de Variables Spatiales
Le processus de fusion prend aussi en compte des variables spatiales pour élargir les informations disponibles pour l'analyse. Ces variables décrivent l'environnement où se trouve un ménage et peuvent fournir des aperçus précieux. Par exemple, les données de densité de population peuvent aider à expliquer des motifs dans les variables fusionnées qui ne seraient pas évidents avec les caractéristiques personnelles seule.
Les données spatiales peuvent provenir de sources déclarées ou être collectées auprès de ensembles de données de tiers. Le projet fusionACS se concentre sur des ensembles de données utiles qui sont susceptibles d'améliorer la compréhension des problèmes socio-économiques. Les variables spatiales sont intégrées au niveau individuel, garantissant qu'elles améliorent l'analyse.
Validation des Données Fusionnées
Les utilisateurs de fusionACS doivent savoir la qualité des données fusionnées. Il est crucial d'évaluer si l'ensemble de données combiné est utile pour l'analyse. Les estimations ponctuelles et les marges d'erreur doivent être prises en compte pour déterminer si les résultats sont satisfaisants pour les fins de recherche.
Pour valider l'efficacité du processus de fusion, deux types de validation peuvent être effectués : interne et externe. La validation interne vérifie à quel point les données fusionnées correspondent aux données donatrices originales. Cela implique de comparer les estimations de l'ensemble de données fusionné avec celles des données donatrices pour voir si elles sont cohérentes.
La validation externe implique de comparer les résultats des données fusionnées avec des sources de données indépendantes. Cela fournit l'assurance que les données fusionnées donnent des résultats précis et significatifs.
Comprendre l'Incertitude
Le processus de fusion génère des réponses simulées pour chaque variable, ce qui signifie qu'il y a une incertitude inhérente dans les résultats. Pour y faire face, le projet fusionACS crée plusieurs "implicates", ou versions de l'ensemble de données. Chaque implicate représente un ensemble unique de résultats simulés, permettant aux chercheurs de tenir compte de l'incertitude lors de l'analyse des données.
L'analyse de plusieurs implicates aide à fournir des estimations impartiales et offre aussi un aperçu du niveau d'incertitude associé aux résultats. Les analystes peuvent ensuite utiliser ces estimations pour prendre des décisions éclairées sur la fiabilité de leurs conclusions.
Applications Réelles
Les données produites par fusionACS peuvent avoir un impact significatif sur la recherche sur divers problèmes sociaux, y compris les aspects multidimensionnels de la pauvreté et l'élaboration de politiques qui s'attaquent aux inégalités. En fournissant une vue plus détaillée et granulaire des ménages, les chercheurs peuvent mieux comprendre les complexités des conditions de vie et du bien-être.
L'initiative Justice40 de l'administration Biden vise à soutenir les communautés mal desservies. Le projet fusionACS peut aider à identifier les communautés défavorisées en fournissant une compréhension plus nuancée des défis sociaux et environnementaux auxquels ces communautés font face. Il offre une variété d'indicateurs qui peuvent informer des interventions et des investissements ciblés.
Conclusion
Le projet fusionACS représente une avancée significative dans la façon dont les chercheurs peuvent utiliser les données d'enquête sur les ménages aux États-Unis. En fusionnant divers ensembles de données, il crée une vue plus complète du bien-être multidimensionnel et des conditions de vie. Cette intégration des données améliore notre capacité à analyser des problèmes sociaux complexes et informe une meilleure conception des politiques. Les applications potentielles sont vastes, allant de la compréhension de la pauvreté à l'identification des vulnérabilités dans les communautés et à la prise de décisions politiques éclairées qui répondent vraiment aux besoins de populations diverses.
Titre: Multidimensional well-being of US households at a fine spatial scale using fused household surveys: fusionACS
Résumé: Social science often relies on surveys of households and individuals. Dozens of such surveys are regularly administered by the U.S. government. However, they field independent, unconnected samples with specialized questions, limiting research questions to those that can be answered by a single survey. The fusionACS project seeks to integrate data from multiple U.S. household surveys by statistically "fusing" variables from "donor" surveys onto American Community Survey (ACS) microdata. This results in an integrated microdataset of household attributes and well-being dimensions that can be analyzed to address research questions in ways that are not currently possible. The presented data comprise the fusion onto the ACS of select donor variables from the Residential Energy Consumption Survey (RECS) of 2015, the National Household Transportation Survey (NHTS) of 2017, the American Housing Survey (AHS) of 2019, and the Consumer Expenditure Survey - Interview (CEI) for the years 2015-2019. The underlying statistical techniques are included in an open-source $R$ package, fusionModel, that provides generic tools for the creation, analysis, and validation of fused microdata.
Auteurs: Kevin Ummel, Miguel Poblete-Cazenave, Karthik Akkiraju, Nick Graetz, Hero Ashman, Cora Kingdon, Steven Herrera Tenorio, Aaryaman "Sunny" Singhal, Daniel Aldana Cohen, Narasimha D. Rao
Dernière mise à jour: 2023-09-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.11512
Source PDF: https://arxiv.org/pdf/2309.11512
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.census.gov/programs-surveys/acs/microdata.html
- https://www.census.gov/programs-surveys/acs/data/summary-file.html
- https://www.eia.gov/state/seds/
- https://www.epa.gov/smartgrowth/smart-location-mapping
- https://www.irs.gov/statistics/soi-tax-stats-statistics-of-income
- https://apps.openei.org/USURDB/