Utiliser l'apprentissage automatique pour mesurer la pauvreté aux Philippines

Table des matières

Le rôle du machine learning
Données et méthodes
Modèles de machine learning
Métriques de performance
Résultats
Conclusion
Source originale

Plus de 700 millions de personnes dans le monde vivent dans une Pauvreté extrême, se débrouillant avec moins de 2,15 (Php 125) par jour. Les gouvernements bossent dur pour atteindre l'Objectif de Développement Durable 1 (ODD), qui vise à mettre fin à la pauvreté sous toutes ses formes d'ici 2030. Cependant, les impacts de la pandémie de COVID-19 pourraient prolonger la pauvreté dans beaucoup de pays jusqu'à cette date. C'est encore plus crucial pour les gouvernements de savoir exactement combien de personnes vivent dans la pauvreté pour créer des politiques efficaces qui peuvent les aider.

La pauvreté peut se voir de différentes manières. On la mesure souvent de deux façons principales : monétaire et non monétaire. L'approche monétaire regarde le revenu ou les dépenses, ce qui est souvent la façon dont la pauvreté est mesurée aux Philippines. Ici, le revenu avant impôts est utilisé pour montrer comment va un ménage. Cependant, certains experts soutiennent que la pauvreté, c'est plus qu'un manque d'argent. Ils disent que ça inclut aussi d'autres domaines comme l'accès à l'éducation et aux soins de santé, ce qui en fait un problème multidimensionnel.

Les méthodes traditionnelles de mesure de la pauvreté simplifient souvent trop ce problème. Beaucoup de méthodes existantes se concentrent uniquement sur des indicateurs économiques, en ignorant des domaines clés comme la santé, la nutrition et l'éducation. Ces méthodes s'appuient généralement sur des facteurs connus, comme le revenu, ce qui pourrait faire manquer des relations importantes dans les Données. Donc, il est important de regarder divers aspects de la pauvreté pour créer des solutions efficaces.

Le rôle du machine learning

Les efforts récents pour améliorer la façon dont on mesure la pauvreté ont commencé à utiliser le machine learning, qui peut analyser différents types de données plus efficacement que les méthodes traditionnelles. Les Modèles de machine learning peuvent trouver des motifs dans les données, gérer une grande quantité d'informations rapidement, et réduire les biais humains. Ils peuvent identifier quels paramètres sont les plus importants, même quand les données montrent des motifs complexes ou cachés. Cela permet aux modèles de machine learning de prédire la pauvreté plus précisément.

Malgré les avantages, peu d'études ont utilisé des méthodes de machine learning pour étudier la pauvreté aux Philippines. Les recherches précédentes ont examiné des sources de données spécifiques, comme les données géospatiales, mais aucune n'a comparé diverses techniques de machine learning à grande échelle. Cette étude vise à changer cela en utilisant un ensemble de données plus large et en comparant cinq algorithmes spécifiques de machine learning connus sous le nom d'algorithmes de boosting.

Données et méthodes

Acquisition et nettoyage des données

L'étude a utilisé des données de l'Enquête Démographique et de Santé (DHS) de 2022 aux Philippines. L'ensemble de données original avait plus de 2 000 caractéristiques collectées auprès de plus de 30 000 ménages. Pour préparer les données, toutes les caractéristiques avec plus de 3 050 valeurs manquantes ont été supprimées, ainsi que les lignes incomplètes restantes. Ce nettoyage a donné un ensemble de données de 396 caractéristiques provenant d'environ 20 679 ménages.

Partition des données

Une fois les données nettoyées, elles ont été divisées en deux parties : 80 % pour entraîner les modèles et 20 % pour tester leur performance. De plus, 10 % des données d'entraînement ont été mises de côté pour optimiser les réglages du modèle, garantissant une évaluation fiable des résultats.

Normalisation des caractéristiques

Pour maintenir l'uniformité, différents types de caractéristiques ont été normalisés. Les caractéristiques binaires ont été laissées inchangées, tandis que les caractéristiques numériques ont été standardisées via une méthode appelée normalisation z-score. Cela a été fait pour garantir que toutes les données soient cohérentes entre les phases d'entraînement et de test.

Sélection des caractéristiques

Pour améliorer l'efficacité de l'analyse, une méthode appelée SelectFromModel a été utilisée pour sélectionner les caractéristiques les plus pertinentes pour chaque modèle. Cette méthode évalue quelles caractéristiques sont les plus importantes pour prédire la pauvreté. Après avoir analysé les résultats, 66 caractéristiques clés ont été sélectionnées pour les modèles finaux. Un contrôle statistique pour la multicolinéarité a été réalisé pour s'assurer que les caractéristiques sélectionnées n'étaient pas trop similaires, confirmant que les caractéristiques finales utilisées étaient suffisamment distinctes pour l'analyse.

Modèles de machine learning

Cinq algorithmes de boosting ont été sélectionnés pour cette étude : Adaptive Boosting (AdaBoost), CatBoost, Gradient Boosting Machine (GBM), Light Gradient Boosting Machine (LightGBM), et Extreme Gradient Boosting (XGBoost). Ces modèles ont été choisis parce qu'ils gèrent bien différents types de données, ce qui est important pour traiter la complexité de la pauvreté. Pour gérer tout déséquilibre de classe dans les données d'entraînement, une technique appelée Synthetic Minority Over-sampling Technique (SMOTE) a été appliquée.

Métriques de performance

Pour évaluer comment les algorithmes de machine learning ont prédit les niveaux de pauvreté, diverses métriques de performance ont été analysées. Les prédictions de chaque algorithme ont été comparées sur la base de :

Précision : Le ratio de bonnes prédictions par rapport au total des prédictions.
Précision : La proportion de ménages pauvres correctement prédits sur tous les ménages prédits comme pauvres.
Rappel : La proportion de ménages pauvres correctement prédits sur tous les vrais ménages pauvres.
Score F1 : La moyenne de la précision et du rappel pour donner une vue équilibrée de la performance.
AUC-ROC : Un score indiquant à quel point un modèle peut distinguer entre les classes.

En plus de ces métriques, l'étude a aussi examiné la rapidité à laquelle chaque modèle pouvait s'entraîner et tester, ainsi que leur utilisation de mémoire.

Résultats

Les résultats ont montré que CatBoost était le modèle le plus performant, atteignant la meilleure précision avec 90,93 %. XGBoost a suivi avec 89,41 %, puis GBM à 89,05 %, et LightGBM à 88,52 %. AdaBoost a présenté la plus faible performance sur toutes les métriques, atteignant seulement une précision de 80,39 %.

Pour distinguer les classes de pauvreté, CatBoost, GBM, LightGBM, et XGBoost ont obtenu d'excellents scores AUC-ROC, tandis qu'AdaBoost a été à la traîne. Cela a indiqué que, bien que CatBoost et des modèles similaires soient bons pour identifier différentes classes de pauvreté, AdaBoost avait des difficultés avec les classifications erronées.

Efficacité computationnelle

En termes d'efficacité computationnelle, AdaBoost était le plus rapide à s'entraîner, prenant environ 4,48 secondes. Cependant, il a été plus lent lors des tests, à 0,23 secondes. En revanche, CatBoost a pris le plus de temps à s'entraîner à 69,29 secondes mais était très rapide lors des tests, ne prenant que 0,01 seconde. GBM avait un temps d'entraînement modéré, tandis que LightGBM et XGBoost montraient un bon équilibre entre rapidité et taille, faisant d'eux de bons candidats pour une utilisation pratique.

Conclusion

Cette étude a clairement montré que le machine learning, en particulier les algorithmes de boosting comme CatBoost, peut prédire efficacement les niveaux de pauvreté aux Philippines. CatBoost a constamment montré les meilleures performances par rapport aux autres algorithmes, tandis qu'AdaBoost a affiché des performances inférieures. Les caractéristiques choisies ont également mis en évidence des domaines possibles d'intervention pour les décideurs politiques.

Les implications de cette recherche vont au-delà des Philippines, car les gouvernements du monde entier peuvent utiliser le machine learning pour mieux comprendre les dynamiques de la pauvreté. Cette compréhension pourrait aider à créer des interventions ciblées qui traitent efficacement différents aspects de la pauvreté. Cependant, des limites dans l'étude ont été reconnues, comme le fait de se fier uniquement aux données de la DHS et la nécessité de plus de tests avec d'autres sources de données.

À l'avenir, combiner différents types de données, comme les données d'enquête avec des informations GPS, pourrait encore améliorer la précision des prédictions de pauvreté. Dans l'ensemble, cette recherche contribue à des efforts visant à réduire la pauvreté en utilisant des méthodes avancées pour obtenir une vision plus claire de qui est touché et comment les aider.

Utiliser l'apprentissage automatique pour mesurer la pauvreté aux Philippines

Cette étude évalue des méthodes d'apprentissage automatique pour mesurer avec précision les niveaux de pauvreté.

Le rôle du machine learning

Données et méthodes

Acquisition et nettoyage des données

Partition des données

Normalisation des caractéristiques

Sélection des caractéristiques

Modèles de machine learning

Métriques de performance

Résultats

Efficacité computationnelle

Conclusion

Sujets référencés

Utiliser l'apprentissage automatique pour mesurer la pauvreté aux Philippines

Cette étude évalue des méthodes d'apprentissage automatique pour mesurer avec précision les niveaux de pauvreté.

#Le rôle du machine learning

#Données et méthodes

#Acquisition et nettoyage des données

#Partition des données

#Normalisation des caractéristiques

#Sélection des caractéristiques

#Modèles de machine learning

#Métriques de performance

#Résultats

#Efficacité computationnelle

#Conclusion

Sujets référencés

Le rôle du machine learning

Données et méthodes

Acquisition et nettoyage des données

Partition des données

Normalisation des caractéristiques

Sélection des caractéristiques

Modèles de machine learning

Métriques de performance

Résultats

Efficacité computationnelle

Conclusion