Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Computer e società

L'abuso dell'AUC nei modelli di valutazione del rischio

Esaminare i difetti dell'AUC nella valutazione degli strumenti di valutazione del rischio in diversi settori.

― 6 leggere min


AUC: Una MisuraAUC: Una MisuraImperfetta del Rischiodannose.portare a valutazioni del rischioLe miscalculazioni dell'AUC possono
Indice

Quando creiamo modelli di machine learning per valutare i rischi in settori come il credito, l'abitazione, la medicina e la giustizia penale, un modo comune per giudicare quanto siano efficaci questi modelli è usare qualcosa chiamato Area Sotto la Curva (AUC). Tuttavia, molti esperti sostengono che il modo in cui si utilizza oggi l'AUC non si allinei con il suo scopo originale e che questo malinteso possa portare a problemi seri.

Comprendere i Modelli di Valutazione dei Rischi

I modelli di valutazione dei rischi generano punteggi che aiutano a categorizzare le persone come "ad alto rischio" o "a basso rischio". Ad esempio, se qualcuno richiede un prestito, un modello di valutazione del rischio potrebbe produrre un punteggio che indica quanto è probabile che non riesca a ripagare quel prestito. In base a quel punteggio, le banche decidono se approvare il prestito. Allo stesso modo, nella giustizia penale, questi modelli possono prevedere se qualcuno possa recidivare.

Questi modelli di solito utilizzano due componenti importanti: una funzione di punteggio e una soglia. La funzione di punteggio fornisce un Punteggio di rischio numerico, mentre la soglia determina quali punteggi sono considerati ad alto rischio. Possono esserci più soglie per classificare i rischi in diverse categorie.

Il Ruolo dell'AUC nella Valutazione dei Modelli

L'AUC ha due scopi principali nella valutazione di questi modelli. Primo, agisce come una misura assoluta di qualità. Se l'AUC di un modello è sopra un certo numero, viene etichettato come accettabile. Secondo, l'AUC viene utilizzata per confrontare le prestazioni di diversi modelli. Un'AUC più alta suggerisce che un modello è migliore di un altro.

Tuttavia, l'AUC non è solo un numero; rappresenta le prestazioni del modello attraverso molte soglie possibili. Questo è importante perché diverse applicazioni possono necessitare di soglie diverse per riflettere rischi accettabili.

Problemi con l'AUC

Ci sono diversi problemi quando ci si affida all'AUC per i modelli di valutazione dei rischi:

  1. Interpretazione Errata dell'AUC: Molti pensano che un'AUC più alta significhi sempre prestazioni migliori, ma non è sempre così. Modelli diversi possono avere valori di AUC differenti ma produrre risultati simili riguardo le loro previsioni.

  2. Ignorare le Soglie Decisionali: L'AUC non tiene conto di come le diverse soglie decisionali possano influenzare i risultati nel mondo reale. Ad esempio, un modello può avere un'AUC alta ma funzionare male alla soglia specifica richiesta da una politica.

  3. Squilibrio di Classe: In molte situazioni nel mondo reale, i dati usati per addestrare questi modelli possono essere sbilanciati. Ad esempio, se solo una piccola percentuale di richiedenti prestiti non ripaga, un modello potrebbe raggiungere un buon punteggio di AUC semplicemente essendo di parte verso il gruppo di quelli che ripagano. Questo può portare a decisioni ingiuste che colpiscono in modo sproporzionato alcuni gruppi.

  4. Visibilità Limitata per Decisioni Politiche: In pratica, le scelte sulle soglie di rischio e su come usare i punteggi sono decisioni politiche importanti. Tuttavia, facendo affidamento solo sull'AUC, queste discussioni possono essere oscurate, facendo sembrare che le decisioni siano più obiettive e meno legate a implicazioni politiche.

  5. Inadeguato per Contesti Multi-Classe: Molte valutazioni del rischio coinvolgono la categorizzazione di individui in più di "alto" o "basso" rischio. L'AUC fatica a fornire indicazioni significative in questi casi, rendendola una scelta scadente per modelli che devono operare su più livelli di rischio.

Conseguenze nelle Applicazioni Reali

L'uso improprio dell'AUC nelle valutazioni dei rischi ha implicazioni significative nel mondo reale. Quando le agenzie governative si affidano all'AUC per giustificare l'uso di strumenti specifici, questo può impattare direttamente la vita delle persone, come nella giustizia penale, nei servizi sociali e nell'istruzione. Di seguito, diamo un'occhiata più da vicino a come questo si manifesta in diversi settori.

Giustizia Penale

Nel sistema di giustizia penale, gli strumenti di valutazione del rischio vengono utilizzati per informare le decisioni riguardanti la libertà provvisoria, la condanna e i servizi di riabilitazione. Un noto strumento usato in questo ambito è il tool PATTERN, che prevede se qualcuno potrebbe recidivare dopo essere stato rilasciato dal carcere.

Gli sviluppatori di PATTERN hanno spesso citato l'AUC per dimostrare l'efficacia dello strumento. Anche se l'AUC potrebbe suggerire che PATTERN ha un potere predittivo maggiore rispetto ad altri strumenti, non cattura completamente quanto bene PATTERN funzioni alle soglie decisionali effettive impostate per determinare i livelli di rischio.

In pratica, se l'AUC dello strumento è alta ma classifica in modo errato gli individui alle soglie utilizzate, questo può portare a risultati ingiusti. Ad esempio, qualcuno considerato "ad alto rischio" potrebbe vedersi negare la libertà su cauzione basandosi su una previsione errata, portando a detenzioni provvisorie non necessarie.

Benessere Infantile

Nei sistemi di benessere infantile, gli strumenti predittivi sono progettati per valutare il rischio di trascuratezza o abuso di minori. Ad esempio, alcuni sistemi in posti come la Contea di Los Angeles utilizzano l'AUC per misurare quanto bene i loro strumenti prevedono quali bambini sono a rischio di essere allontanati dalle loro famiglie.

Tuttavia, questi strumenti spesso si basano su dati che possono riflettere i pregiudizi esistenti nel sistema. Se l'AUC indica un alto livello di accuratezza, può mascherare gravi difetti nel processo decisionale, portando potenzialmente a interventi di parte contro certi gruppi razziali o economici.

Istruzione

Nell'istruzione, le scuole utilizzano sistemi di allerta precoce per identificare gli studenti a rischio di fallimento o abbandono. L'AUC è frequentemente impiegata per valutare quanto bene questi sistemi prevedono i risultati degli studenti.

Come in altri ambiti, affidarsi pesantemente all'AUC può portare a conclusioni fuorvianti sulle prestazioni degli studenti. Ad esempio, se un modello predittivo mostra un'AUC alta, le scuole potrebbero erroneamente presumere che lo strumento funzioni bene per tutti gli studenti, nonostante le differenze significative nei risultati reali per vari gruppi.

Punti Chiave

  1. Il Contesto Conta: L'applicazione dell'AUC nella valutazione dei modelli deve considerare il contesto specifico in cui un modello verrà utilizzato. Ciò che funziona in un dominio potrebbe non essere necessariamente appropriato in un altro.

  2. Le Metriche Devono Riflettere l'Impatto nel Mondo Reale: Usare l'AUC come misura unica per le prestazioni del modello spesso maschera sfumature critiche che influenzano gli individui. Dovrebbero essere considerate altre metriche per dare un quadro più completo di come un modello potrebbe influenzare gli esiti nel mondo reale.

  3. Coinvolgere gli Stakeholder: Le decisioni su come vengono effettuate le valutazioni del rischio dovrebbero coinvolgere coloro che ne sono colpiti. Coinvolgere membri della comunità, responsabili politici e esperti del settore può garantire che strumenti e soglie siano impostati con una visione globale dei loro impatti.

  4. Valutazione Continua: Una continua valutazione degli strumenti di valutazione del rischio, compresa la rivalutazione regolare delle metriche utilizzate, è essenziale. Questo consente aggiustamenti e miglioramenti basati sulle prestazioni e sugli impatti nel mondo reale.

Conclusione

L'uso improprio dell'AUC nelle valutazioni di rischio ad alto impatto mette in evidenza gravi difetti nel modo in cui questi strumenti vengono valutati e implementati. L'AUC, sebbene sia una misura comune, non cattura le complessità del processo decisionale nel mondo reale. Affrontare questi problemi richiede una rivalutazione di come vengono convalidati i modelli, un focus più forte sul contesto e un coinvolgimento attivo di tutti gli stakeholder interessati da queste valutazioni. Prendendo un approccio più riflessivo, possiamo lavorare verso strumenti di valutazione del rischio che servano davvero le esigenze degli individui e delle comunità, piuttosto che offrire semplicemente una validazione numerica che si ferma a un'analisi superficiale.

Fonte originale

Titolo: The Misuse of AUC: What High Impact Risk Assessment Gets Wrong

Estratto: When determining which machine learning model best performs some high impact risk assessment task, practitioners commonly use the Area under the Curve (AUC) to defend and validate their model choices. In this paper, we argue that the current use and understanding of AUC as a model performance metric misunderstands the way the metric was intended to be used. To this end, we characterize the misuse of AUC and illustrate how this misuse negatively manifests in the real world across several risk assessment domains. We locate this disconnect in the way the original interpretation of AUC has shifted over time to the point where issues pertaining to decision thresholds, class balance, statistical uncertainty, and protected groups remain unaddressed by AUC-based model comparisons, and where model choices that should be the purview of policymakers are hidden behind the veil of mathematical rigor. We conclude that current model validation practices involving AUC are not robust, and often invalid.

Autori: Kweku Kwegyir-Aggrey, Marissa Gerchick, Malika Mohan, Aaron Horowitz, Suresh Venkatasubramanian

Ultimo aggiornamento: 2023-05-29 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.18159

Fonte PDF: https://arxiv.org/pdf/2305.18159

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili