Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computadores e sociedade

O Mau Uso da AUC em Modelos de Avaliação de Risco

Analisando as falhas da AUC na avaliação de ferramentas de avaliação de risco em diferentes setores.

― 7 min ler


AUC: Uma Medida de RiscoAUC: Uma Medida de RiscoDefeituosaavaliações de risco prejudiciais.Erros no cálculo da AUC podem levar a
Índice

Quando a gente cria modelos de aprendizado de máquina pra avaliar riscos em áreas como crédito, habitação, medicina e justiça criminal, uma forma comum de julgar o quão bem esses modelos funcionam é usar algo chamado Área Sob a Curva (AUC). Mas, muitos especialistas dizem que a forma como a AUC é usada hoje não combina com o que foi pensado originalmente, e essa confusão pode causar problemas sérios.

Entendendo Modelos de Avaliação de Risco

Modelos de avaliação de risco geram pontuações que ajudam a categorizar pessoas como "alto risco" ou "baixo risco." Por exemplo, se alguém pede um empréstimo, um modelo de avaliação pode dar uma pontuação que mostra quão provável é que a pessoa não pague. Com base nessa pontuação, os bancos decidem se aprovam ou não o empréstimo. Da mesma forma, na justiça criminal, esses modelos podem prever se alguém pode voltar a cometer crimes.

Esses modelos normalmente usam duas partes importantes: uma função de pontuação e um limite. A função de pontuação fornece uma pontuação numérica de risco, enquanto o limite determina quais pontuações são consideradas de alto risco. Pode ter vários Limites pra classificar os riscos em diferentes categorias.

O Papel da AUC na Avaliação de Modelos

A AUC tem dois propósitos principais na avaliação desses modelos. Primeiro, ela atua como uma medida absoluta de qualidade. Se a AUC de um modelo está acima de um certo número, ele é considerado aceitável. Em segundo lugar, a AUC é usada pra comparar o desempenho de diferentes modelos. Uma AUC mais alta sugere que um modelo é melhor que outro.

Mas, a AUC não é só um número; ela representa o desempenho do modelo em muitos limites possíveis. Isso é importante porque diferentes aplicações podem precisar de diferentes limites pra refletir riscos aceitáveis.

Problemas com a AUC

Alguns problemas aparecem quando a gente depende da AUC pra modelos de avaliação de risco:

  1. Interpretação Errada da AUC: Muita gente acha que uma AUC mais alta sempre significa um desempenho melhor, mas isso não é verdade. Diferentes modelos podem ter valores de AUC diferentes, mas ainda assim produzir resultados parecidos em relação às suas previsões.

  2. Ignorando Limites de Decisão: A AUC não leva em conta como diferentes limites de decisão podem afetar os resultados no mundo real. Por exemplo, um modelo pode ter uma AUC alta, mas se sair mal no limite específico que uma política exige.

  3. Desbalanceamento de Classes: Em muitas situações do mundo real, os dados usados pra treinar esses modelos podem estar desbalanceados. Por exemplo, se apenas uma pequena porcentagem de pessoas que pedem empréstimos não pagam, um modelo pode conseguir uma boa AUC simplesmente por ser tendencioso em relação ao grupo que não defaulta. Isso pode levar a decisões injustas que afetam desproporcionalmente certos grupos.

  4. Visão Limitada para Decisões Políticas: Na prática, as escolhas sobre limites de risco e como usar as pontuações são decisões políticas importantes. Mas, ao focar apenas na AUC, essas discussões podem ser ofuscadas, fazendo parecer que as decisões são mais objetivas e menos sobre implicações políticas.

  5. Inadequada para Cenários de Múltiplas Classes: Muitas avaliações de risco envolvem categorizar indivíduos em mais do que apenas "alto" ou "baixo" risco. A AUC tem dificuldades em fornecer insights significativos nesses casos, tornando-a uma escolha ruim para modelos que precisam operar em vários níveis de risco.

Consequências em Aplicações do Mundo Real

O uso inadequado da AUC em avaliações de risco tem implicações sérias no mundo real. Quando agências governamentais confiam na AUC pra justificar o uso de ferramentas específicas, isso pode impactar diretamente a vida das pessoas, como na justiça criminal, serviços sociais e educação. Vamos dar uma olhada mais de perto em como isso acontece em diferentes setores.

Justiça Criminal

No sistema de justiça criminal, ferramentas de avaliação de risco são usadas pra informar decisões sobre liberação pré-julgamento, sentence, e serviços de reabilitação. Uma ferramenta bem conhecida nesse domínio é a ferramenta PATTERN, que prevê se alguém vai cometer outro crime depois de sair da prisão.

Os desenvolvedores do PATTERN muitas vezes citam a AUC pra demonstrar a eficácia da ferramenta. Embora a AUC possa sugerir que o PATTERN tem maior poder preditivo do que outras ferramentas, ela não capta totalmente o quão bem o PATTERN se sai nos limites de decisão reais estabelecidos pra determinar os níveis de risco.

Na prática, se a AUC da ferramenta é alta, mas ela classifica mal indivíduos nos limites usados, isso pode levar a resultados injustos. Por exemplo, alguém considerado "alto risco" pode ter a fiança negada com base em uma previsão errada, resultando em detenção pré-julgamento desnecessária.

Bem-Estar Infantil

Nos sistemas de bem-estar infantil, ferramentas preditivas são projetadas pra avaliar o risco de negligência ou abuso infantil. Por exemplo, alguns sistemas em lugares como o Condado de Los Angeles usam AUC pra medir quão bem suas ferramentas preveem quais crianças estão em risco de serem tiradas de suas famílias.

No entanto, essas ferramentas muitas vezes dependem de dados que podem refletir preconceitos existentes no sistema. Se a AUC indica um alto nível de precisão, pode mascarar falhas sérias no processo de tomada de decisão, levando a intervenções tendenciosas contra certos grupos raciais ou econômicos.

Educação

Na educação, as escolas usam sistemas de alerta precoce pra identificar alunos em risco de falhar ou desistir. A AUC é frequentemente usada pra avaliar quão bem esses sistemas preveem os resultados dos alunos.

Assim como em outras áreas, depender muito da AUC pode levar a conclusões enganosas sobre o desempenho dos alunos. Por exemplo, se um modelo preditivo mostra uma AUC alta, as escolas podem supor erroneamente que a ferramenta funciona bem para todos os alunos, apesar das diferenças significativas nos resultados reais de vários grupos.

Principais Considerações

  1. O Contexto Importa: A aplicação da AUC na avaliação de modelos precisa considerar o contexto específico em que um modelo será usado. O que funciona em um domínio pode não ser apropriado em outro.

  2. Métricas Devem Refletir o Impacto Real: Usar a AUC como uma medida única pro desempenho do modelo muitas vezes oculta nuances críticas que afetam os indivíduos. Outras métricas devem ser consideradas pra dar uma visão mais completa de como um modelo pode impactar os resultados do mundo real.

  3. Envolver Stakeholders: As decisões sobre como as avaliações de risco são feitas devem envolver aqueles que são afetados por elas. Incluir membros da comunidade, formuladores de políticas e especialistas pode garantir que as ferramentas e limites sejam definidos com uma visão abrangente de seus impactos.

  4. Avaliação Contínua: A avaliação contínua das ferramentas de avaliação de risco, incluindo a reavaliação regular das métricas usadas, é essencial. Isso permite ajustes e melhorias com base no desempenho real e impacto.

Conclusão

O uso inadequado da AUC em avaliações de risco de alto impacto destaca falhas sérias em como essas ferramentas são avaliadas e implementadas. A AUC, embora uma medida comum, não captura as complexidades da tomada de decisão no mundo real. Resolver esses problemas requer uma reavaliação de como os modelos são validados, um foco maior no contexto e a participação ativa de todos os stakeholders afetados por essas avaliações. Adotando uma abordagem mais reflexiva, podemos trabalhar pra desenvolver ferramentas de avaliação de risco que realmente atendam às necessidades de indivíduos e comunidades, em vez de simplesmente oferecer uma validação numérica que fica na superfície da análise.

Fonte original

Título: The Misuse of AUC: What High Impact Risk Assessment Gets Wrong

Resumo: When determining which machine learning model best performs some high impact risk assessment task, practitioners commonly use the Area under the Curve (AUC) to defend and validate their model choices. In this paper, we argue that the current use and understanding of AUC as a model performance metric misunderstands the way the metric was intended to be used. To this end, we characterize the misuse of AUC and illustrate how this misuse negatively manifests in the real world across several risk assessment domains. We locate this disconnect in the way the original interpretation of AUC has shifted over time to the point where issues pertaining to decision thresholds, class balance, statistical uncertainty, and protected groups remain unaddressed by AUC-based model comparisons, and where model choices that should be the purview of policymakers are hidden behind the veil of mathematical rigor. We conclude that current model validation practices involving AUC are not robust, and often invalid.

Autores: Kweku Kwegyir-Aggrey, Marissa Gerchick, Malika Mohan, Aaron Horowitz, Suresh Venkatasubramanian

Última atualização: 2023-05-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.18159

Fonte PDF: https://arxiv.org/pdf/2305.18159

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes