Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Aprendizagem de máquinas# Metodologia

Reavaliando Métricas de Modelo: AUPRC vs AUROC

Esse estudo questiona a preferência pelo AUPRC em vez do AUROC em conjuntos de dados desbalanceados.

― 8 min ler


AUPRC vs AUROC: UmaAUPRC vs AUROC: UmaOlhada Mais Próximadesbalanceamento de classe.de avaliação em situações deAnalisando as alegações sobre métricas
Índice

No campo de aprendizado de máquina, tem um ditado comum que diz que a área sob a curva de precisão-revocação (AUPRC) é uma forma melhor de comparar modelos do que a área sob a curva de características de operação do receptor (AUROC) quando se trata de desbalanceio de classes. Desbalanceio de classes acontece quando uma classe de dados é muito mais comum do que outra. Este artigo desafia essa ideia por meio de uma análise matemática, mostrando que AUROC e AUPRC estão ligados de maneiras claras.

A crença de que AUPRC é melhor em casos de desbalanceio de classes não é sustentada por evidências. Na verdade, AUPRC pode ser enganoso porque tende a dar mais peso a melhorias em partes dos dados onde os rótulos positivos são mais frequentes. Isso pode levar a diferenças injustas em como os modelos se saem entre diferentes grupos nos dados.

Para investigar esse assunto, os autores revisaram um grande número de artigos da comunidade de aprendizado de máquina. Eles usaram modelos de linguagem avançados para analisar mais de 1,5 milhão de artigos. O objetivo era ver com que frequência AUPRC era afirmado como superior e quão bem suportadas essas afirmações eram. Os resultados mostraram que há uma grande falta de evidências para essa crença e revelaram muitas citações incorretas que a perpetuaram.

O estudo tem dois impactos principais: melhora nossa compreensão sobre como essas métricas se comportam e serve como um aviso sobre suposições não examinadas no campo de aprendizado de máquina. Todos os experimentos relacionados a este estudo podem ser acessados online.

Introdução

Quando se trabalha com aprendizado de máquina, especialmente em áreas críticas como saúde, é essencial escolher cuidadosamente as métricas de avaliação. Essas métricas ajudam a escolher o modelo certo e a descobrir medidas de desempenho detalhadas. Este artigo foca em duas métricas principais para tarefas de classificação binária: a área sob a curva de precisão-revocação (AUPRC) e a área sob a curva de características de operação do receptor (AUROC).

A comunidade de aprendizado de máquina frequentemente afirma que AUPRC é uma métrica melhor do que AUROC quando as instâncias positivas (aquelas que estamos tentando prever) são muito mais raras do que as negativas. Várias razões são apresentadas para apoiar essa afirmação, e muitas delas serão questionadas aqui:

  • As curvas de precisão-revocação podem representar melhor as necessidades do mundo real do que as curvas de características de operação do receptor.
  • AUPRC não é afetada pelo grande número de verdadeiros negativos, fazendo com que pareça menos otimista do que AUROC.
  • Em casos de baixa prevalência, AUPRC tende a ser muito mais baixa em comparação com AUROC.
  • A dependência de AUPRC da prevalência é vista como uma boa característica.

Este artigo mostrará, por meio de raciocínio cuidadoso e exemplos, que a crença na superioridade do AUPRC é frequentemente incorreta ou mal aplicada em situações comuns de aprendizado de máquina.

AUROC e AUPRC Estão Relacionados

Primeiro, é feito o argumento de que AUROC e AUPRC estão ligados de uma maneira mensurável. Quando um modelo dá pontuações com base em diferentes rótulos (positivo, negativo ou arbitrário), AUROC e AUPRC diferem principalmente em como pesam os falsos positivos. AUROC trata todos os falsos positivos igualmente, enquanto AUPRC os pesa com base em quão provável é que o modelo dê uma pontuação maior que um determinado limite.

Isso significa que AUROC melhora igualmente para quaisquer correções feitas, independentemente de quais falsos positivos são corrigidos. No entanto, AUPRC tende a melhorar mais quando os erros de alta pontuação são corrigidos primeiro.

Escolhendo Quais Erros Corrigir

Dado um modelo e um conjunto de dados, surge uma pergunta chave: quais erros devem ser corrigidos primeiro? Existem duas estratégias:

  1. Tratar todos os erros igualmente; todas as melhorias são consideradas igualmente valiosas.
  2. Corrigir os erros na ordem de suas pontuações atribuídas.

A primeira estratégia é mais útil para tarefas de classificação, onde um usuário deve decidir como agir com base em uma amostra específica. A segunda estratégia se encaixa melhor em configurações de recuperação de informação, onde o objetivo é maximizar o número de amostras com pontuação alta, independentemente da afiliação a grupos. No entanto, se houver múltiplos grupos nos dados, AUPRC pode favorecer o grupo que tem amostras positivas mais frequentes.

Ao entender como os erros são priorizados, podemos ver que corrigir erros usando AUROC permite uma avaliação mais justa entre diferentes grupos, enquanto AUPRC pode levar a preconceitos.

AUPRC Favorece Grupos de Alta Prevalência

Um grande problema com AUPRC é que ele frequentemente dá preferência a esses grupos de alta prevalência ao otimizar o Desempenho do Modelo. Se um conjunto de dados consiste em duas subpopulações com taxas de prevalência significativamente diferentes, um modelo que é bem calibrado terá melhores pontuações de AUPRC para o grupo de alta prevalência, enquanto AUROC equilibrará o desempenho entre os dois grupos.

Essa preocupação é especialmente séria em domínios como saúde, onde nos esforçamos por um desempenho justo do modelo entre vários grupos de pacientes. Confiar exclusivamente em AUPRC nesses casos poderia resultar em tratamento desigual e resultados tendenciosos.

Atribuições Incorretas na Literatura

Os autores encontraram inúmeras afirmações mal citadas na literatura acadêmica que afirmavam que AUPRC é superior a AUROC em conjuntos de dados desbalanceados. Muitos artigos referenciaram outros trabalhos que não afirmavam essa alegação.

Isso destaca um problema mais amplo na comunidade de aprendizado de máquina: há uma tendência preocupante de fazer afirmações audaciosas sem citações adequadas. Muitos artigos referenciam afirmações que não têm base no trabalho original.

Quando essa informação incorreta se espalha, ela molda crenças amplas que podem não ser verdadeiras.

A Importância da Justiça nas Métricas

Uma das grandes vantagens de usar AUROC é sua capacidade de fornecer uma avaliação imparcial do desempenho do modelo em todas as amostras, independentemente da prevalência de rótulos positivos. Essa flexibilidade é crucial, especialmente em campos como saúde, onde garantir justiça e tratamento equitativo entre diferentes grupos de pacientes é vital.

Como o estudo encontrou, a tendência do AUPRC em priorizar subpopulações de alta prevalência pode levar a sérias preocupações de justiça. Isso poderia perpetuar disparidades existentes em resultados de saúde e outras aplicações críticas.

Fundamentos Teóricos de AUROC e AUPRC

O artigo mergulha mais fundo nos aspectos teóricos de AUROC e AUPRC. Ele enfatiza como entender quais erros nossas métricas de avaliação priorizam pode esclarecer o que essas métricas promoverão durante a otimização.

As descobertas afirmam que AUPRC pode não ser tão universalmente aplicável quanto se pensava. Em contextos de recuperação definidos pelo usuário, onde um modelo seleciona os itens de topo, otimizar AUPRC pode aumentar a relevância. Mas para tarefas de classificação mais padrão, especialmente em domínios arriscados como saúde, usar AUROC é a melhor escolha.

Validação Experimental

Para demonstrar suas alegações, os autores realizaram uma série de experimentos controlados. Esses incluíram conjuntos de dados sintéticos onde monitoraram de perto como tanto AUROC quanto AUPRC se comportaram quando diferentes métodos foram usados para otimizá-los.

Os resultados indicaram que AUPRC pode levar a disparidades marcadas entre grupos, especialmente ao otimizar para subpopulações de alta prevalência, enquanto AUROC manteve um desempenho mais uniforme entre grupos variados.

Examinando a Literatura

Apesar das afirmações de que AUPRC é melhor do que AUROC em casos de desbalanceio de classes, uma revisão completa da literatura existente revelou falhas nessa crença. Muitos artigos fizeram essa afirmação sem qualquer citação, indicando um entendimento fundamental errado das métricas envolvidas.

Essa falta de clareza e a tendência de fazer citações incorretas refletem mal sobre a comunidade de pesquisa. Os autores destacaram como é importante abordar essas avaliações com um olhar crítico, garantindo que as afirmações sejam respaldadas por evidências.

Conclusão

Este estudo coloca em questão a narrativa comum de que AUPRC é melhor do que AUROC para comparação de modelos em cenários com desbalanceio de classes. Os autores argumentam que, embora AUPRC possa ser útil em contextos específicos de recuperação, ele não supera geralmente AUROC, especialmente quando a justiça entre diferentes grupos é uma prioridade.

Avançando, é necessária uma abordagem mais equilibrada e contextual para selecionar métricas de avaliação. Essa mudança não só contribuirá para um melhor desempenho do modelo, mas também promoverá justiça e equidade em aplicações que dependem dessas tecnologias.

Resumindo, AUROC se mostra uma métrica mais confiável em muitos cenários, especialmente quando a justiça é uma preocupação, e os pesquisadores devem reconsiderar as alegações em torno de AUPRC em conjuntos de dados desbalanceados.

Fonte original

Título: A Closer Look at AUROC and AUPRC under Class Imbalance

Resumo: In machine learning (ML), a widespread adage is that the area under the precision-recall curve (AUPRC) is a superior metric for model comparison to the area under the receiver operating characteristic (AUROC) for binary classification tasks with class imbalance. This paper challenges this notion through novel mathematical analysis, illustrating that AUROC and AUPRC can be concisely related in probabilistic terms. We demonstrate that AUPRC, contrary to popular belief, is not superior in cases of class imbalance and might even be a harmful metric, given its inclination to unduly favor model improvements in subpopulations with more frequent positive labels. This bias can inadvertently heighten algorithmic disparities. Prompted by these insights, a thorough review of existing ML literature was conducted, utilizing large language models to analyze over 1.5 million papers from arXiv. Our investigation focused on the prevalence and substantiation of the purported AUPRC superiority. The results expose a significant deficit in empirical backing and a trend of misattributions that have fuelled the widespread acceptance of AUPRC's supposed advantages. Our findings represent a dual contribution: a significant technical advancement in understanding metric behaviors and a stark warning about unchecked assumptions in the ML community. All experiments are accessible at https://github.com/mmcdermott/AUC_is_all_you_need.

Autores: Matthew B. A. McDermott, Lasse Hyldig Hansen, Haoran Zhang, Giovanni Angelotti, Jack Gallifant

Última atualização: 2024-04-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.06091

Fonte PDF: https://arxiv.org/pdf/2401.06091

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes