Simple Science

Scienza all'avanguardia spiegata semplicemente

# Statistica# Apprendimento automatico# Metodologia

Rivalutare le Metriche del Modello: AUPRC vs AUROC

Questo studio mette in discussione la preferenza per l'AUPRC rispetto all'AUROC nei dataset sbilanciati.

― 7 leggere min


AUPRC vs AUROC: UnoAUPRC vs AUROC: UnoSguardo Più Da Vicinosquilibrio di classe.di valutazione in situazioni diEsaminando le affermazioni sui metriche
Indice

Nel campo del machine learning, c'è un detto comune secondo cui l'area sotto la curva di precisione-richiamo (AUPRC) è un modo migliore per confrontare i modelli rispetto all'area sotto la curva ROC (AUROC) quando si affronta uno Sbilanciamento delle classi. Lo sbilanciamento delle classi si verifica quando una classe di dati è molto più comune di un'altra. Questo documento sfida quell'idea attraverso un'analisi matematica, dimostrando che AUROC e AUPRC sono collegate in modi chiari.

La convinzione che AUPRC sia migliore nei casi di sbilanciamento delle classi non è supportata da prove. Infatti, AUPRC può essere fuorviante perché tende a dare più peso ai miglioramenti in parti dei dati dove le etichette positive sono più frequenti. Questo può portare a differenze ingiuste nel modo in cui i modelli si comportano attraverso diversi gruppi nei dati.

Per indagare su questo argomento, gli autori hanno esaminato un gran numero di articoli della comunità di machine learning. Hanno usato modelli linguistici avanzati per analizzare oltre 1,5 milioni di articoli. L'obiettivo era vedere quanto spesso AUPRC venisse affermato come superiore e quanto fossero ben supportate queste affermazioni. I risultati hanno mostrato che c'è una grande mancanza di prove a sostegno di questa convinzione e hanno rivelato molte citazioni errate che l'hanno perpetuata.

Lo studio ha due impatti principali: migliora la nostra comprensione di come si comportano queste metriche e funge da avvertimento riguardo a ipotesi non esaminate nel campo del machine learning. Tutti gli esperimenti legati a questo studio possono essere consultati online.

Introduzione

Quando si lavora con il machine learning, soprattutto in settori critici come la sanità, è essenziale scegliere con attenzione le metriche di valutazione. Queste metriche aiutano a scegliere il modello giusto e a capire le misure di prestazione dettagliate. Questo documento si concentra su due metriche principali per i compiti di classificazione binaria: l'area sotto la curva di precisione-richiamo (AUPRC) e l'area sotto la curva ROC (AUROC).

La comunità di machine learning afferma spesso che AUPRC è una metrica migliore rispetto ad AUROC quando le istanze positive (quelle che stiamo cercando di prevedere) sono molto più rare rispetto a quelle negative. Vengono forniti diversi motivi per supportare questa affermazione, e molti di essi verranno messi in discussione qui:

  • Le curve di precisione-richiamo possono rappresentare meglio le necessità del mondo reale rispetto alle curve ROC.
  • AUPRC non è influenzato dall'alto numero di veri negativi, facendolo apparire meno ottimista rispetto ad AUROC.
  • Nei casi di bassa prevalenza, AUPRC tende a essere molto più basso rispetto ad AUROC.
  • La dipendenza di AUPRC dalla prevalenza è considerata una buona caratteristica.

Questo documento mostrerà, attraverso un ragionamento attento e esempi, che la convinzione nella superiorità di AUPRC è spesso scorretta o mal applicata in situazioni comuni di machine learning.

AUROC e AUPRC sono correlati

Innanzitutto, si sostiene che AUROC e AUPRC siano collegati in modo misurabile. Quando un modello assegna punteggi basati su etichette diverse (positive, negative o arbitrarie), AUROC e AUPRC differiscono principalmente nel modo in cui pesano i falsi positivi. AUROC tratta tutti i falsi positivi in modo uguale, mentre AUPRC li pesa in base a quanto sia probabile che il modello dia un punteggio superiore a una certa soglia.

Questo significa che AUROC migliora in modo uniforme per qualsiasi correzione apportata, indipendentemente da quali falsi positivi vengono sistemati. Tuttavia, AUPRC tende a migliorare di più quando si affrontano per primi gli errori con punteggi elevati.

Scegliere quali errori correggere

Data un modello e un dataset, sorge una domanda chiave: quali errori dovrebbero essere corretti per primi? Ci sono due strategie:

  1. Trattare ogni errore allo stesso modo; tutti i miglioramenti sono considerati di pari valore.
  2. Correggere gli errori in base ai punteggi assegnati.

La prima strategia è più utile per i compiti di classificazione, dove un utente deve decidere come agire in base a un campione specifico. La seconda strategia si adatta meglio in contesti di recupero dell'informazione, dove l'obiettivo è massimizzare il numero di campioni con il punteggio più alto, indipendentemente dall'appartenenza al gruppo. Tuttavia, se ci sono più gruppi nei dati, AUPRC potrebbe favorire il gruppo che ha campioni positivi più frequenti.

Comprendendo come vengono prioritizzati gli errori, possiamo vedere che correggere gli errori usando AUROC consente una valutazione più equa tra i diversi gruppi, mentre AUPRC può portare a bias.

AUPRC favorisce gruppi ad alta prevalenza

Un grande problema con AUPRC è che spesso dà preferenza a quei gruppi ad alta prevalenza quando si ottimizza la performance del modello. Se un dataset consiste di due sottopopolazioni con tassi di prevalenza significativamente diversi, un modello ben calibrato darà punteggi AUPRC migliori per il gruppo ad alta prevalenza, mentre AUROC bilancerà la performance tra entrambi i gruppi.

Questa preoccupazione è particolarmente seria in settori come la sanità, dove ci sforziamo per una performance equa del modello tra vari gruppi di pazienti. Fare affidamento esclusivamente su AUPRC in questi casi potrebbe portare a trattamenti disuguali e risultati parziali.

Attribuzioni errate nella letteratura

Gli autori hanno trovato numerose affermazioni mal citate nella letteratura accademica che sostenevano che AUPRC è superiore ad AUROC in dataset sbilanciati. Molti articoli facevano riferimento ad altri lavori che non sostenevano questa affermazione.

Questo mette in luce un problema più ampio all'interno della comunità di machine learning: c'è una preoccupante tendenza a fare affermazioni audaci senza citazioni appropriate. Molti articoli fanno riferimento a affermazioni che non hanno alcuna base nel lavoro originale.

Quando queste informazioni errate si diffondono, plasmano credenze diffuse che potrebbero non essere vere.

L'importanza dell'Equità nelle metriche

Uno dei vantaggi significativi dell'uso di AUROC è la sua capacità di fornire una valutazione imparziale della performance del modello su tutti i campioni, indipendentemente dalla prevalenza delle etichette positive. Questa flessibilità è cruciale, specialmente in settori come la sanità, dove garantire equità e trattamento equo tra diversi gruppi di pazienti è fondamentale.

Come emerge dallo studio, la tendenza di AUPRC a dare priorità a sottopopolazioni ad alta prevalenza può portare a seri problemi di equità. Questo potrebbe perpetuare disparità esistenti nei risultati sanitari e in altre applicazioni critiche.

Fondamenti teorici di AUROC e AUPRC

Il documento approfondisce gli aspetti teorici di AUROC e AUPRC. Sottolinea come comprendere quali errori le nostre metriche di valutazione prioritizzano possa far luce su ciò che quelle metriche promuoveranno durante l'ottimizzazione.

I risultati affermano che AUPRC potrebbe non essere così universalmente applicabile come si pensava. In contesti di recupero definiti dall'utente, dove un modello seleziona gli elementi migliori, ottimizzare AUPRC può migliorare la rilevanza. Ma per compiti di classificazione più standard, specialmente in ambiti a rischio come la sanità, usare AUROC è la scelta migliore.

Validazione sperimentale

Per dimostrare le loro affermazioni, gli autori hanno condotto una serie di esperimenti controllati. Questi includevano dataset sintetici dove hanno monitorato attentamente come si comportavano sia AUROC che AUPRC quando venivano utilizzati metodi diversi per ottimizzarli.

I risultati hanno indicato che AUPRC può portare a notevoli disparità tra gruppi, specialmente quando si ottimizza per sottopopolazioni ad alta prevalenza, mentre AUROC manteneva una performance più uniforme tra gruppi variabili.

Esaminare la letteratura

Nonostante le affermazioni che AUPRC è migliore di AUROC nei casi di sbilanciamento delle classi, una revisione approfondita della letteratura esistente ha rivelato difetti in questa credenza. Molti articoli hanno fatto questa affermazione senza alcuna citazione, indicando una comprensione fondamentale errata delle metriche coinvolte.

Questa mancanza di chiarezza e la tendenza a mal citare le fonti riflettono male sulla comunità di ricerca. Gli autori hanno messo in evidenza quanto sia importante affrontare queste valutazioni con spirito critico, assicurando che le affermazioni siano supportate da prove.

Conclusione

Questo studio mette in discussione la narrativa comune che AUPRC è migliore di AUROC per il confronto dei modelli in scenari con sbilanciamento delle classi. Gli autori sostengono che mentre AUPRC può essere utile in contesti di recupero specifici, non supera generalmente AUROC, specialmente quando l'equità tra diversi gruppi è una priorità.

Andando avanti, è necessario un approccio più equilibrato e contestuale alla selezione delle metriche di valutazione. Questo cambiamento contribuirà non solo a migliorare le Prestazioni del Modello, ma anche a promuovere l'equità e l'equità nelle applicazioni che dipendono da queste tecnologie.

In sintesi, si dimostra che AUROC è una metrica più affidabile in molti scenari, specialmente quando l'equità è una preoccupazione, e i ricercatori dovrebbero riconsiderare le affermazioni riguardanti AUPRC in dataset sbilanciati.

Fonte originale

Titolo: A Closer Look at AUROC and AUPRC under Class Imbalance

Estratto: In machine learning (ML), a widespread adage is that the area under the precision-recall curve (AUPRC) is a superior metric for model comparison to the area under the receiver operating characteristic (AUROC) for binary classification tasks with class imbalance. This paper challenges this notion through novel mathematical analysis, illustrating that AUROC and AUPRC can be concisely related in probabilistic terms. We demonstrate that AUPRC, contrary to popular belief, is not superior in cases of class imbalance and might even be a harmful metric, given its inclination to unduly favor model improvements in subpopulations with more frequent positive labels. This bias can inadvertently heighten algorithmic disparities. Prompted by these insights, a thorough review of existing ML literature was conducted, utilizing large language models to analyze over 1.5 million papers from arXiv. Our investigation focused on the prevalence and substantiation of the purported AUPRC superiority. The results expose a significant deficit in empirical backing and a trend of misattributions that have fuelled the widespread acceptance of AUPRC's supposed advantages. Our findings represent a dual contribution: a significant technical advancement in understanding metric behaviors and a stark warning about unchecked assumptions in the ML community. All experiments are accessible at https://github.com/mmcdermott/AUC_is_all_you_need.

Autori: Matthew B. A. McDermott, Lasse Hyldig Hansen, Haoran Zhang, Giovanni Angelotti, Jack Gallifant

Ultimo aggiornamento: 2024-04-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2401.06091

Fonte PDF: https://arxiv.org/pdf/2401.06091

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili