Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Computer e società# Apprendimento automatico

Usare il Machine Learning per misurare la povertà nelle Filippine

Questo studio valuta i metodi di machine learning per misurare con precisione i livelli di povertà.

― 6 leggere min


L'apprendimentoL'apprendimentoautomatico prevede ilivelli di povertàla povertà.machine learning valutano efficacementeUno studio mostra che i modelli di
Indice

Oltre 700 milioni di persone nel mondo vivono in estrema Povertà, tirando avanti con meno di 2,15 dollari (Php 125) al giorno. I governi stanno lavorando sodo per raggiungere l'Obiettivo di Sviluppo Sostenibile 1 (SDG), che mira a porre fine alla povertà in tutte le sue forme entro il 2030. Tuttavia, gli effetti della pandemia di COVID-19 potrebbero prolungare la povertà in molti paesi fino ad allora. Questa situazione rende ancora più cruciale per i governi sapere esattamente quante persone vivono in povertà, per creare politiche efficaci che possano aiutarle.

La povertà può essere vista in modi diversi. Di solito viene misurata in due modi principali: monetario e non monetario. L'approccio monetario guarda al reddito o alla spesa, che è come di solito viene misurata la povertà nelle Filippine. Qui, il reddito pre-tasse è usato come segno di quanto sta bene una famiglia. Tuttavia, alcuni esperti sostengono che la povertà sia più di una semplice mancanza di soldi. Dicono che include anche altre aree come l'accesso all'istruzione e alla salute, rendendola un problema multidimensionale.

I metodi tradizionali per misurare la povertà spesso semplificano troppo questo problema. Molti metodi esistenti si concentrano solo su indicatori economici, ignorando aree chiave come salute, nutrizione e istruzione. Questi metodi di solito si basano su fattori noti, come il reddito, che potrebbero trascurare relazioni importanti nei Dati. Pertanto, è importante considerare vari aspetti della povertà per creare soluzioni efficaci.

Il Ruolo del Machine Learning

I recenti sforzi per migliorare il modo in cui misuriamo la povertà hanno cominciato a utilizzare il machine learning, che può analizzare diversi tipi di dati in modo più efficace rispetto ai metodi tradizionali. I modelli di machine learning possono trovare schemi nei dati, gestire rapidamente una grande quantità di informazioni e ridurre il bias umano. Possono selezionare quali variabili sono più importanti, anche quando i dati mostrano schemi complessi o nascosti. Questo consente ai modelli di machine learning di prevedere la povertà in modo più accurato.

Nonostante i vantaggi, non molti studi hanno utilizzato metodi di machine learning per studiare la povertà nelle Filippine. Ricerche precedenti hanno esaminato fonti di dati specifiche, come i dati geospaziali, ma nessuna ha confrontato varie tecniche di machine learning su larga scala. Questo studio mira a cambiare le cose utilizzando un dataset più ampio e confrontando cinque specifici algoritmi di machine learning noti come algoritmi di boosting.

Dati e Metodi

Acquisizione e Pulizia dei Dati

Lo studio ha utilizzato dati dal Demographic and Health Survey (DHS) 2022 nelle Filippine. Il dataset originale aveva oltre 2.000 caratteristiche raccolte da più di 30.000 famiglie. Per preparare i dati, sono state rimosse le caratteristiche con oltre 3.050 valori mancanti, insieme a qualsiasi riga incompleta rimasta. Questa pulizia ha portato a un dataset di 396 caratteristiche da circa 20.679 famiglie.

Partizionamento dei Dati

Una volta puliti, i dati sono stati divisi in due parti: l'80% per addestrare i modelli e il 20% per testarne le prestazioni. Inoltre, il 10% dei dati di addestramento è stato messo da parte per ottimizzare le impostazioni del Modello, garantendo una valutazione affidabile dei risultati.

Scalatura delle Caratteristiche

Per mantenere uniformità, diversi tipi di caratteristiche sono stati scalati. Le caratteristiche binarie sono state mantenute invariate, mentre quelle numeriche sono state standardizzate usando un metodo chiamato normalizzazione z-score. Questo è stato fatto per garantire che tutti i dati rimanessero coerenti tra le fasi di addestramento e testing.

Selezione delle Caratteristiche

Per migliorare l'efficienza nell'analisi, è stato utilizzato un metodo chiamato SelectFromModel per selezionare le caratteristiche più rilevanti per ciascun modello. Questo metodo valuta quali caratteristiche sono più importanti per prevedere la povertà. Dopo aver analizzato i risultati, sono state selezionate 66 caratteristiche chiave per i modelli finali. È stato effettuato un controllo statistico per la multicollinearità per garantire che le caratteristiche selezionate non fossero troppo simili, confermando che le caratteristiche finali utilizzate fossero abbastanza distintive per l'analisi.

Modelli di Machine Learning

Cinque algoritmi di boosting sono stati selezionati per questo studio: Adaptive Boosting (AdaBoost), CatBoost, Gradient Boosting Machine (GBM), Light Gradient Boosting Machine (LightGBM) e Extreme Gradient Boosting (XGBoost). Questi modelli sono stati scelti perché gestiscono bene vari tipi di dati, il che è importante per affrontare la complessità della povertà. Per gestire eventuali squilibri di classe nei dati di addestramento, è stata applicata una tecnica chiamata Synthetic Minority Over-sampling Technique (SMOTE).

Metriche di Prestazione

Per valutare quanto bene gli algoritmi di machine learning abbiano previsto i livelli di povertà, sono state analizzate varie metriche di prestazione. Le previsioni di ciascun algoritmo sono state confrontate in base a:

  • Accuratezza: Il rapporto delle previsioni corrette sul totale delle previsioni.
  • Precisione: La proporzione delle famiglie povere correttamente previste su tutte le famiglie previste come povere.
  • Richiamo: La proporzione delle famiglie povere correttamente previste su tutte le famiglie povere reali.
  • F1 Score: La media di precisione e richiamo per dare una visione equilibrata delle prestazioni.
  • AUC-ROC: Un punteggio che indica quanto bene un modello può distinguere tra le classi.

Oltre a queste metriche, lo studio ha anche valutato la velocità con cui ciascun modello può essere addestrato e testato, così come il loro utilizzo di memoria.

Risultati

I risultati hanno rivelato che CatBoost è stato il miglior modello, raggiungendo la massima accuratezza con il 90,93%. XGBoost ha seguito con l'89,41%, poi GBM con l'89,05%, e LightGBM con l'88,52%. AdaBoost ha avuto la performance più bassa su tutte le metriche, raggiungendo solo un'accuratezza del 80,39%.

Per distinguere le classi di povertà, CatBoost, GBM, LightGBM e XGBoost hanno ottenuto eccellenti punteggi AUC-ROC, mentre AdaBoost è rimasto indietro. Questo ha indicato che mentre CatBoost e modelli simili erano bravi a identificare diverse classi di povertà, AdaBoost ha avuto difficoltà con le classificazioni errate.

Efficienza Computazionale

In termini di efficienza computazionale, AdaBoost è stato il più veloce da addestrare, impiegando circa 4,48 secondi. Tuttavia, è stato più lento durante il testing, a 0,23 secondi. D'altra parte, CatBoost ha impiegato il tempo più lungo per l'addestramento, a 69,29 secondi, ma è stato molto rapido nel testing, impiegando solo 0,01 secondi. GBM ha avuto un tempo di addestramento moderato, mentre LightGBM e XGBoost hanno mostrato un buon equilibrio di velocità e dimensioni, rendendoli forti candidati per un uso pratico.

Conclusione

Questo studio ha chiarito che il machine learning, in particolare gli algoritmi di boosting come CatBoost, possono prevedere efficacemente i livelli di povertà nelle Filippine. CatBoost ha costantemente performato meglio rispetto agli altri algoritmi, mentre AdaBoost ha mostrato prestazioni inferiori. Le caratteristiche scelte hanno anche evidenziato possibili aree di intervento per i decisori politici.

Le implicazioni di questa ricerca vanno oltre le Filippine, poiché i governi di tutto il mondo possono utilizzare il machine learning per ottenere migliori intuizioni sulle dinamiche della povertà. Questa comprensione potrebbe aiutare a creare interventi mirati che affrontano efficacemente diversi aspetti della povertà. Tuttavia, sono state riconosciute alcune limitazioni nello studio, come il fatto di basarsi solo sui dati DHS e la necessità di ulteriori test con altre fonti di dati.

In futuro, combinare diversi tipi di dati, come dati da survey con informazioni GPS, potrebbe migliorare ulteriormente la precisione delle previsioni sulla povertà. In generale, questa ricerca contribuisce agli sforzi volti a ridurre la povertà utilizzando metodi avanzati per ottenere un quadro più chiaro di chi è colpito e come aiutarli.

Fonte originale

Titolo: Use of Boosting Algorithms in Household-Level Poverty Measurement: A Machine Learning Approach to Predict and Classify Household Wealth Quintiles in the Philippines

Estratto: This study assessed the effectiveness of machine learning models in predicting poverty levels in the Philippines using five boosting algorithms: Adaptive Boosting (AdaBoost), CatBoosting (CatBoost), Gradient Boosting Machine (GBM), Light Gradient Boosting Machine (LightGBM), and Extreme Gradient Boosting (XGBoost). CatBoost emerged as the superior model and achieved the highest scores across accuracy, precision, recall, and F1-score at 91 percent, while XGBoost and GBM followed closely with 89 percent and 88 percent respectively. Additionally, the research examined the computational efficiency of these models to analyze the balance between training time, testing speed, and model size factors crucial for real-world applications. Despite its longer training duration, CatBoost demonstrated high testing efficiency. These results indicate that machine learning can aid in poverty prediction and in the development of targeted policy interventions. Future studies should focus on incorporating a wider variety of data to enhance the predictive accuracy and policy utility of these models.

Autori: Erika Lynet Salvador

Ultimo aggiornamento: 2024-05-27 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.13061

Fonte PDF: https://arxiv.org/pdf/2407.13061

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili