Simple Science

La science de pointe expliquée simplement

# Informatique# Ordinateurs et société# Intelligence artificielle# Apprentissage automatique

Analyse des communautés défavorisées pour une distribution juste des ressources

Utiliser des données et l'apprentissage automatique pour comprendre et soutenir les DAC.

― 9 min lire


Aperçus sur lesAperçus sur lescommunautés défavoriséesdans les DACs grâce aux données.Examiner les défis et les changements
Table des matières

Les communautés défavorisées (DAC) sont des zones où les résidents font face à des défis liés au changement climatique et aux investissements en énergie. Ces communautés sont identifiées par un programme appelé Justice40, lancé par le Département de l'Énergie. Le but de ce programme est de s'assurer qu'une part significative des bénéfices des investissements fédéraux, comme l'énergie propre et le logement, soit dirigée vers ces communautés. Identifier les DAC est important pour garantir une distribution équitable des ressources.

Pour classifier ces communautés, il faut des informations détaillées sur leurs démographies et leurs évolutions au fil du temps. Ça implique d'analyser les changements de la composition communautaire sur plusieurs années. Cependant, un problème majeur est le manque de données précises pour les années passées. Beaucoup de facteurs importants qui définissent les DAC ne sont souvent pas enregistrés de manière cohérente au fil du temps.

L'Initiative Justice40

En 2020, l'initiative Justice40 a été créée pour aborder ces problèmes. Le programme vise à diriger 40 % des bénéfices de certains investissements fédéraux vers les DAC. Ces investissements incluent des projets d'énergie propre, des logements abordables, et des améliorations des services publics comme l'eau potable. L'initiative a établi une méthode pour classifier les zones de recensement en tant que DAC en fonction de divers indicateurs recueillis à partir de différentes sources de données.

Actuellement, il y a plus de 15 000 DAC identifiées à travers les États-Unis, avec plusieurs centaines localisées dans l'État de Washington, qui est la zone d'étude de nombreux recherches. Comprendre ces communautés est crucial pour développer des politiques justes qui les bénéficient.

Défis pour Comprendre les DAC

Pour concevoir des politiques efficaces pour les DAC, il ne suffit pas de connaître les démographies actuelles ; il est aussi essentiel de comprendre comment ces communautés ont changé au fil du temps. Cette perspective historique aide à identifier quels facteurs contribuent à devenir une DAC.

Malheureusement, beaucoup d'études existantes se concentrent principalement sur la manière de répondre aux besoins des DAC dans le présent. Elles explorent divers programmes et initiatives visant à améliorer l'emploi, les ressources et l'interaction sociale dans ces communautés. Cependant, il manque de recherches axées sur l'évolution du statut des DAC au fil des ans et sur ce qui a influencé ces changements.

Utiliser la Technologie pour Analyser les DAC

Pour combler cette lacune, des modèles d'apprentissage automatique sont utilisés. Ces modèles peuvent analyser différents ensembles de données pour prédire le statut DAC des communautés basé sur des données historiques. En faisant cela, les chercheurs peuvent identifier des tendances et des transformations au sein de ces communautés au fil du temps.

Le processus implique de collecter des données à partir de plusieurs sources, y compris des statistiques d'emploi et des enquêtes communautaires. En entraînant des modèles d'apprentissage automatique sur ces données, les chercheurs peuvent classifier des zones de recensement et déterminer leur statut DAC.

Collecter et Préparer les Données

Pour une analyse réussie, les données sont collectées à partir de trois sources principales :

  1. Statistiques d'emploi Origine-Destination LEHD (LODES) : Ces données fournissent des statistiques d'emploi à un niveau détaillé basé sur où les gens vivent et travaillent.
  2. Enquête sur la Communauté Américaine (ACS) : Cette enquête recueille des informations démographiques sur divers facteurs, tels que l'éducation, le revenu et le logement.
  3. Données DAC Justice40 du DOE : Ce dataset décrit des indicateurs spécifiques qui définissent les DAC.

Les modèles visent à identifier des caractéristiques clés qui peuvent différencier les DAC des non-DAC. Par exemple, des facteurs comme le niveau d'éducation, les niveaux de revenu, et la proximité de dangers environnementaux peuvent jouer un rôle important dans la détermination du statut DAC.

Analyser les Indicateurs Clés

Parmi les différents indicateurs considérés, certains des plus significatifs incluent :

  • Niveau d'Éducation : Les zones avec un pourcentage élevé d'adultes sans diplôme de lycée sont plus susceptibles d'être classées comme DAC.
  • Niveaux de Revenu : Une grande partie de la population dans les DAC vit en dessous de certains seuils de revenu, soulignant des luttes économiques.
  • Proximité des Sources de Pollution : Les communautés près de dangers environnementaux font face à des défis supplémentaires, affectant leur bien-être global.

Comprendre ces indicateurs donne un aperçu des raisons pour lesquelles certaines zones luttent plus que d'autres.

Entraîner des Modèles d'Apprentissage Automatique

Une fois les données préparées, des modèles d'apprentissage automatique sont entraînés pour évaluer le statut DAC en fonction des indicateurs collectés. Différents modèles sont testés pour déterminer lequel fonctionne le mieux. Le processus de formation implique d'utiliser une partie des données pour construire le modèle et une autre partie pour évaluer sa précision.

Plusieurs types de modèles sont utilisés, y compris :

  • Forêts Aléatoires : Ce modèle utilise divers arbres de décision pour prédire des résultats.
  • Machines à Gradient Boosting (GBM) : Ce modèle se concentre sur l'optimisation du processus de classification en combinant des modèles de prédiction faibles.
  • Modèles d'Apprentissage Profond : Ceux-ci utilisent des réseaux de neurones pour analyser des modèles de données complexes.

En comparant la précision de ces modèles, les chercheurs peuvent choisir le meilleur pour la tâche.

Résultats et Conclusions

Les résultats ont montré que les modèles entraînés sur des caractéristiques résidentielles sont souvent meilleurs pour prédire le statut DAC que ceux utilisant des données liées au travail. En se concentrant sur où les gens vivent, le modèle peut évaluer plus précisément les besoins de la communauté.

Une découverte majeure était que les modèles s'appuyant sur des facteurs démographiques comme la race ou l'ethnicité entraînaient souvent des résultats biaisés. Pour minimiser ce biais, des modèles qui excluaient les données démographiques et s'appuyaient davantage sur des indicateurs d'emploi et de revenu ont montré une meilleure précision dans la classification des DAC.

Le modèle le plus performant a atteint un taux de précision de classification significatif tout en veillant à ce que les prédictions ne soient pas biaisées envers certaines communautés.

Évaluer les Changements au Fil du Temps

Combiner les données historiques permet aux chercheurs d'évaluer comment les DAC ont changé entre 2013 et 2017. L'analyse a montré que bien que la distribution globale des DAC soit restée stable, le nombre de DAC semblait diminuer.

Une baisse des ménages à faible revenu et une augmentation des groupes à revenu plus élevé ont été observées dans l'État de Washington durant cette période. Ces changements suggèrent une croissance économique dans certaines communautés, ce qui pourrait réduire le nombre de DAC. Cependant, il est essentiel de reconnaître que corrélation ne signifie pas causalité, et davantage d'investigations sont nécessaires pour comprendre les raisons sous-jacentes à ces changements.

Importance d'une Analyse Continue

Une analyse continue des DAC est vitale pour plusieurs raisons. Comprendre comment les changements démographiques, les conditions économiques et d'autres facteurs affectent le statut DAC peut aider les décideurs à concevoir de meilleurs systèmes de soutien.

Il y a aussi un besoin de réévaluation constante des définitions et des indicateurs utilisés pour classifier les DAC. À mesure que les conditions évoluent, les indicateurs doivent refléter les défis actuels et garantir que les communautés reçoivent le soutien dont elles ont besoin.

Directions Futures

Les travaux futurs se concentreront sur l'amélioration de la compréhension des DAC. Cela pourrait impliquer d'incorporer différentes sources de données, de raffiner les définitions utilisées pour les DAC, et d'explorer de nouvelles façons d'évaluer et d'adresser les besoins de ces communautés.

Les objectifs à long terme incluent l'établissement de relations causales entre les indicateurs identifiés et le statut DAC. Utiliser des techniques avancées en apprentissage automatique peut aider à expliquer les prédictions et les décisions prises par les modèles, offrant un aperçu plus clair des dynamiques affectant les communautés défavorisées.

L'objectif principal est de créer un cadre fiable qui puisse aider à identifier les DAC avec précision, même lorsque les données directes sont indisponibles. En recueillant des retours de la communauté et en affinant les approches, l'idée est de garantir que les résultats de telles études soient à la fois équitables et applicables.

Conclusion

Les communautés défavorisées font face à des défis uniques qui nécessitent une analyse et une compréhension approfondies. En utilisant l'apprentissage automatique et des sources de données robustes, nous pouvons obtenir des insights sur ces communautés et leur évolution au fil du temps. Ce travail est crucial pour informer des politiques visant à améliorer la vie des personnes dans les DAC et garantir que les ressources soient distribuées équitablement. À mesure que la recherche progresse, l'objectif sera de créer des modèles qui soient à la fois précis et non biaisés, fournissant une image plus claire des besoins et des changements au sein des communautés défavorisées.

Source originale

Titre: Training Machine Learning Models to Characterize Temporal Evolution of Disadvantaged Communities

Résumé: Disadvantaged communities (DAC), as defined by the Justice40 initiative of the Department of Energy (DOE), USA, identifies census tracts across the USA to determine where benefits of climate and energy investments are or are not currently accruing. The DAC status not only helps in determining the eligibility for future Justice40-related investments but is also critical for exploring ways to achieve equitable distribution of resources. However, designing inclusive and equitable strategies not just requires a good understanding of current demographics, but also a deeper analysis of the transformations that happened in those demographics over the years. In this paper, machine learning (ML) models are trained on publicly available census data from recent years to classify the DAC status at the census tracts level and then the trained model is used to classify DAC status for historical years. A detailed analysis of the feature and model selection along with the evolution of disadvantaged communities between 2013 and 2018 is presented in this study.

Auteurs: Milan Jain, Narmadha Meenu Mohankumar, Heng Wan, Sumitrra Ganguly, Kyle D Wilson, David M Anderson

Dernière mise à jour: 2023-03-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.03677

Source PDF: https://arxiv.org/pdf/2303.03677

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires