Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Informática y sociedad# Aprendizaje automático

Usando Aprendizaje Automático para Medir la Pobreza en Filipinas

Este estudio evalúa métodos de aprendizaje automático para medir con precisión los niveles de pobreza.

― 7 minilectura


El aprendizaje automáticoEl aprendizaje automáticopredice los niveles depobreza.la pobreza de manera efectiva.aprendizaje automático pueden evaluarUn estudio muestra que los modelos de
Tabla de contenidos

Más de 700 millones de personas en todo el mundo viven en Pobreza extrema, sobreviviendo con menos de 2.15 (Php 125) al día. Los gobiernos están trabajando duro para cumplir con el Objetivo de Desarrollo Sostenible 1 (ODS), que busca erradicar la pobreza en todas sus formas para 2030. Sin embargo, los efectos de la pandemia de COVID-19 podrían prolongar la pobreza en muchos países hasta entonces. Esta situación hace que sea aún más crucial para los gobiernos saber exactamente cuántas personas están viviendo en pobreza para crear políticas efectivas que puedan ayudarles.

La pobreza se puede ver de diferentes maneras. A menudo se mide de dos maneras principales: monetaria y no monetaria. El enfoque monetario mira el ingreso o el gasto, que es como generalmente se mide la pobreza en Filipinas. Aquí, el ingreso antes de impuestos se utiliza como un signo de lo bien que le va a un hogar. Sin embargo, algunos expertos argumentan que la pobreza es más que solo la falta de dinero. Dicen que también incluye otras áreas como el acceso a la educación y la atención médica, convirtiéndola en un problema multidimensional.

Los métodos tradicionales para medir la pobreza a menudo simplifican demasiado este problema. Muchos de los métodos existentes se enfocan solo en indicadores económicos, ignorando áreas clave como la salud, la nutrición y la educación. Estos métodos generalmente se basan en factores conocidos, como el ingreso, que podrían perder relaciones importantes en los Datos. Por lo tanto, es importante mirar varios aspectos de la pobreza para crear soluciones efectivas.

El papel del Aprendizaje automático

Los esfuerzos recientes para mejorar cómo medimos la pobreza han comenzado a usar aprendizaje automático, que puede analizar diferentes tipos de datos de manera más eficaz que los métodos tradicionales. Los Modelos de aprendizaje automático pueden encontrar patrones en los datos, manejar una gran cantidad de información rápidamente y reducir el sesgo humano. Pueden identificar qué variables son más importantes, incluso cuando los datos muestran patrones complejos o ocultos. Esto permite que los modelos de aprendizaje automático predigan la pobreza con más precisión.

A pesar de las ventajas, no muchos estudios han utilizado métodos de aprendizaje automático para estudiar la pobreza en Filipinas. Investigaciones anteriores han mirado fuentes de datos específicas, como datos geoespaciales, pero ninguna ha comparado varias técnicas de aprendizaje automático a gran escala. Este estudio busca cambiar eso utilizando un conjunto de datos más amplio y comparando cinco algoritmos de aprendizaje automático específicos conocidos como algoritmos de boosting.

Datos y métodos

Adquisición y limpieza de datos

El estudio utilizó datos de la Encuesta Demográfica y de Salud (DHS) de 2022 en Filipinas. El conjunto de datos original tenía más de 2,000 características recogidas de más de 30,000 hogares. Para preparar los datos, se eliminaron las características con más de 3,050 valores faltantes, junto con cualquier fila incompleta restante. Esta limpieza resultó en un conjunto de datos de 396 características de alrededor de 20,679 hogares.

Particionamiento de datos

Una vez que los datos fueron limpiados, se dividieron en dos partes: 80% para entrenar los modelos y 20% para probar su rendimiento. Además, se reservó el 10% de los datos de entrenamiento para optimizar la configuración del modelo, asegurando una evaluación confiable de los resultados.

Escalado de características

Para mantener la uniformidad, diferentes tipos de características fueron escaladas. Las características binarias se mantuvieron sin cambios, mientras que las características numéricas se estandarizaron utilizando un método llamado normalización de puntuación z. Esto se hizo para asegurar que todos los datos se mantuvieran consistentes entre las fases de entrenamiento y prueba.

Selección de características

Para mejorar la eficiencia en el análisis, se utilizó un método llamado SelectFromModel para elegir las características más relevantes para cada modelo. Este método evalúa cuáles características son más importantes para predecir la pobreza. Después de analizar los resultados, se seleccionaron 66 características clave para los modelos finales. Se realizó un chequeo estadístico para la multicolinealidad para asegurar que las características seleccionadas no fueran demasiado similares, confirmando que las características finales utilizadas eran lo suficientemente distintas para el análisis.

Modelos de aprendizaje automático

Se seleccionaron cinco algoritmos de boosting para este estudio: Adaptive Boosting (AdaBoost), CatBoost, Gradient Boosting Machine (GBM), Light Gradient Boosting Machine (LightGBM) y Extreme Gradient Boosting (XGBoost). Estos modelos fueron elegidos porque manejan bien diferentes tipos de datos, lo cual es importante para abordar la complejidad de la pobreza. Para manejar cualquier desbalanceo de clase en los datos de entrenamiento, se aplicó una técnica llamada Synthetic Minority Over-sampling Technique (SMOTE).

Métricas de rendimiento

Para evaluar qué tan bien los algoritmos de aprendizaje automático predijeron los niveles de pobreza, se analizaron varias métricas de rendimiento. Las predicciones de cada algoritmo se compararon en base a:

  • Precisión: La proporción de predicciones correctas sobre el total de predicciones.
  • Precisión: La proporción de hogares pobres correctamente predichos sobre todos los hogares predichos como pobres.
  • Recall: La proporción de hogares pobres correctamente predichos sobre todos los hogares pobres reales.
  • F1 Score: El promedio de precisión y recall para dar una visión equilibrada del rendimiento.
  • AUC-ROC: Una puntuación que indica qué tan bien un modelo puede distinguir entre clases.

Además de estas métricas, el estudio también observó qué tan rápido podía entrenar y probar cada modelo, así como su uso de memoria.

Resultados

Los hallazgos revelaron que CatBoost fue el modelo con mejor rendimiento, logrando la mayor precisión con un 90.93%. XGBoost le siguió con un 89.41%, luego GBM con un 89.05%, y LightGBM con un 88.52%. AdaBoost tuvo el peor rendimiento en todas las métricas, alcanzando solo un 80.39% de precisión.

Para distinguir las clases de pobreza, CatBoost, GBM, LightGBM y XGBoost lograron excelentes puntuaciones de AUC-ROC, mientras que AdaBoost quedó rezagado. Esto indicó que, aunque CatBoost y modelos similares fueron buenos identificando diferentes clases de pobreza, AdaBoost tuvo problemas con la clasificación errónea.

Eficiencia computacional

En términos de eficiencia computacional, AdaBoost fue el más rápido para entrenar, tardando aproximadamente 4.48 segundos. Sin embargo, fue más lento durante la prueba, con 0.23 segundos. Por otro lado, CatBoost tardó más en entrenarse, con 69.29 segundos, pero fue muy rápido en las pruebas, tardando solo 0.01 segundos. GBM tuvo un tiempo de entrenamiento moderado, mientras que LightGBM y XGBoost mostraron un buen equilibrio entre velocidad y tamaño, convirtiéndolos en fuertes candidatos para uso práctico.

Conclusión

Este estudio dejó claro que el aprendizaje automático, particularmente los algoritmos de boosting como CatBoost, pueden predecir efectivamente los niveles de pobreza en Filipinas. CatBoost consistentemente tuvo el mejor rendimiento en comparación con los otros algoritmos, mientras que AdaBoost mostró un rendimiento inferior. Las características elegidas también destacaron posibles áreas para intervención por parte de los formuladores de políticas.

Las implicaciones de esta investigación van más allá de Filipinas, ya que los gobiernos de todo el mundo pueden usar el aprendizaje automático para obtener mejores conocimientos sobre la dinámica de la pobreza. Este entendimiento puede ayudar a crear intervenciones específicas que aborden diferentes aspectos de la pobreza de manera efectiva. Sin embargo, se reconocieron limitaciones en el estudio, como depender solo de los datos de DHS y la necesidad de más pruebas con otras fuentes de datos.

En el futuro, combinar diferentes tipos de datos, como datos de encuestas con información GPS, podría mejorar aún más la precisión de las predicciones de pobreza. En general, esta investigación contribuye a los esfuerzos destinados a reducir la pobreza al utilizar métodos avanzados para obtener una imagen más clara de quiénes están afectados y cómo ayudarles.

Fuente original

Título: Use of Boosting Algorithms in Household-Level Poverty Measurement: A Machine Learning Approach to Predict and Classify Household Wealth Quintiles in the Philippines

Resumen: This study assessed the effectiveness of machine learning models in predicting poverty levels in the Philippines using five boosting algorithms: Adaptive Boosting (AdaBoost), CatBoosting (CatBoost), Gradient Boosting Machine (GBM), Light Gradient Boosting Machine (LightGBM), and Extreme Gradient Boosting (XGBoost). CatBoost emerged as the superior model and achieved the highest scores across accuracy, precision, recall, and F1-score at 91 percent, while XGBoost and GBM followed closely with 89 percent and 88 percent respectively. Additionally, the research examined the computational efficiency of these models to analyze the balance between training time, testing speed, and model size factors crucial for real-world applications. Despite its longer training duration, CatBoost demonstrated high testing efficiency. These results indicate that machine learning can aid in poverty prediction and in the development of targeted policy interventions. Future studies should focus on incorporating a wider variety of data to enhance the predictive accuracy and policy utility of these models.

Autores: Erika Lynet Salvador

Última actualización: 2024-05-27 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.13061

Fuente PDF: https://arxiv.org/pdf/2407.13061

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares