Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Aprendizagem de máquinas# Computadores e sociedade# Aprendizagem automática

Abordando a Justiça em Modelos Preditivos

Esse artigo fala sobre o impacto da subreportagem de dados na justiça dos modelos preditivos.

― 8 min ler


Justiça em Modelos deJustiça em Modelos deDados Preditivosimpacto na justiça.Explorando preconceitos nos dados e seu
Índice

Nos últimos anos, muitas instituições públicas começaram a usar tecnologias baseadas em dados para ajudar a tomar decisões importantes. Essas tecnologias costumam usar Modelos Preditivos, que tentam prever resultados com base em padrões encontrados nos dados. No entanto, surgiram preocupações sobre a Justiça nesses modelos, especialmente relacionadas a como os dados são coletados e usados.

Um grande problema é a forma como os dados podem ser incompletos ou reportados de maneira incorreta. Isso é especialmente verdadeiro para indivíduos que utilizam serviços públicos, como programas de saúde. Por exemplo, um modelo pode ter muitas informações sobre quem usa o seguro de saúde público, mas pouca ou nenhuma informação sobre aqueles que dependem de seguros privados. Isso leva a uma situação chamada sub-relato diferencial de características, que pode criar resultados injustos nos modelos preditivos.

Compreendendo o Sub-relato Diferencial de Características

O sub-relato diferencial de características ocorre quando os dados para certos grupos de pessoas são mais completos do que para outros. Isso pode acontecer, por exemplo, quando registros administrativos contêm informações detalhadas sobre indivíduos que se beneficiam de serviços públicos, como o Medicaid, mas não têm informações semelhantes para aqueles com seguros privados. Como resultado, pessoas que dependem mais de serviços públicos podem ser tratadas de forma injusta em modelos e algoritmos preditivos.

Esses modelos preditivos podem ser usados em vários contextos, incluindo justiça criminal, saúde e serviços sociais. Quando os oficiais usam esses modelos para tomar decisões, as lacunas nos dados podem causar sérios problemas de justiça. Por exemplo, se um modelo usado para prever riscos à saúde de crianças superestima o risco para famílias que dependem de serviços públicos, essas famílias podem enfrentar um escrutínio desnecessário.

A Necessidade de Melhor Entendimento dos Dados Faltantes

Embora vários métodos tenham sido propostos para lidar com dados faltantes, a situação específica do sub-relato diferencial de características não recebeu atenção suficiente. Pesquisas anteriores exploraram diferentes tipos de dados faltantes, focando em casos onde os dados estão claramente marcados como faltantes ou contêm ruído aleatório. No entanto, quando os dados simplesmente não são reportados para certos grupos, a situação se torna mais complexa e requer soluções adaptadas.

Para abordar esse problema, introduzimos um modelo estatístico sobre a coleta de dados, destacando o impacto do reporte diferencial na justiça em modelos preditivos.

Analisando as Consequências do Sub-relato

Nossa pesquisa examina como o sub-relato afeta a estimativa de risco e a justiça nas previsões. Consideramos duas etapas principais: como os dados faltantes influenciam a criação do modelo (estimação) e como isso afeta as previsões feitas pelo modelo uma vez que é aplicado a novos dados (previsão).

  1. Estimativa do Modelo: Nessa fase, o modelo ajusta seus parâmetros com base nos dados que recebe. Se os dados são enviesados devido ao sub-relato, as estimativas do modelo também serão enviesadas, levando a representações incorretas dos riscos.

  2. Fazendo Previsões: Quando o modelo é aplicado, ele usa os parâmetros enviesados para fazer previsões. Se certos grupos estão sub-representados ou representados de maneira imprecisa nos dados, seus resultados previstos também estarão distorcidos, frequentemente resultando em disparidades aumentadas entre os grupos.

Como Dados Faltantes Criam Viés

O viés em duas etapas introduzido pelo sub-relato diferencial de características pode levar a problemas sérios. Na primeira etapa, o modelo pode falhar em avaliar o risco com precisão porque carece de dados completos. Na segunda etapa, previsões baseadas nesse modelo enviesado podem levar a tratamento injusto de certos grupos. Isso é especialmente preocupante em ambientes de alto risco, como a justiça criminal, onde previsões enviesadas podem ter consequências reais para a vida das pessoas.

Insights Teóricos sobre o Sub-relato

Para entender melhor as implicações desses dados faltantes, investigamos como o sub-relato afeta os parâmetros do modelo. Por exemplo, se uma característica específica é sub-relatada, o modelo pode não capturar com precisão sua influência nos resultados previstos. Quando isso acontece, as estimativas de parâmetros do modelo se tornam enviesadas, levando a conclusões incorretas sobre os níveis de risco para diferentes grupos.

Reconhecemos que os efeitos do sub-relato podem às vezes ser contra-intuitivos. Por exemplo, em alguns casos, um grupo que enfrenta sub-relato pode acabar sendo super selecionado nos resultados das previsões. Entender essas dinâmicas é crucial para desenvolver modelos mais justos.

Implicações Práticas do Sub-relato em Cenários do Mundo Real

Para ilustrar o impacto real do sub-relato diferencial de características, exploramos seu efeito em vários conjuntos de dados comumente usados em setores públicos. Analisamos como dados faltantes afetam seleções baseadas em avaliações de risco e como abordagens padrão falham em mitigar esses efeitos.

Estudo de Caso: Modelos Preditivos na Saúde

Em ambientes de saúde, o sub-relato de informações dos pacientes pode levar a avaliações de risco distorcidas. Por exemplo, se um modelo usado para prever riscos à saúde é baseado principalmente em dados de indivíduos com seguro público, pode perder fatores de saúde importantes para aqueles com seguro privado. Consequentemente, indivíduos sem seguro público podem ser categorizados de forma injusta como de baixo risco.

Estudo de Caso: Modelos Preditivos na Justiça Criminal

No sistema de justiça criminal, modelos que subestimam os riscos associados a certos grupos demográficos podem agravar desigualdades existentes. Por exemplo, se os dados usados para treinar um modelo estão incompletos para grupos raciais ou econômicos específicos, o modelo pode prever taxas mais altas de reincidência para esses grupos. Isso pode levar a sentenças mais severas ou aumento de vigilância, perpetuando ciclos de desvantagem.

Soluções para Mitigar os Efeitos do Sub-relato

Para abordar as questões de justiça causadas pelo sub-relato diferencial de características, propomos vários métodos adaptados especificamente para esse problema.

  1. Estimativa de Perda Aumentada: Essa abordagem envolve ajustar a função de perda usada para treinar o modelo, de modo que leve em conta a natureza enviesada dos dados. Ao mitigar a influência de características sub-relatadas, podemos alcançar estimativas mais justas.

  2. Imputação de Previsão Ótima: Esse método foca em gerar as previsões mais precisas para características sub-relatadas. Ao aproveitar as relações entre características disponíveis e resultados, podemos estimar melhor os dados faltantes.

  3. Métodos Dependentes do Grupo: Reconhecendo que diferentes grupos podem experimentar graus variados de sub-relato, podemos aplicar soluções que considerem essas disparidades. Isso permite um tratamento mais equitativo de todos os indivíduos nas previsões feitas pelo modelo.

Resultados Empíricos e Achados

Por meio de nossos experimentos, analisamos como esses métodos propostos se comportam em vários conjuntos de dados. Focamos em como diferentes abordagens influenciam a justiça dos resultados das previsões.

Resultados sobre Dados de Renda do ACS

Em nossos experimentos com o conjunto de dados de Renda da Pesquisa da Comunidade Americana (ACS), descobrimos que o sub-relato em características como educação e horas de trabalho frequentemente levou a uma sub-seleção dos grupos afetados. Isso se alinha com nossa hipótese de que dados faltantes criam viés que prejudica populações já desfavorecidas.

Resultados sobre Dados do COMPAS

Usando o conjunto de dados do COMPAS, que trata de avaliações de risco no sistema de justiça criminal, observamos que o sub-relato de características como condenações anteriores levou a disparidades significativas nos resultados previstos. Os métodos propostos de estimativa de perda aumentada e imputação de previsão ótima ajudaram a reduzir essas disparidades de forma mais eficaz do que os métodos tradicionais.

Resultados sobre Dados de Nascimento em Nível de Condado

Em um estudo de caso usando dados de nascimento, notamos que o sub-relato de informações sobre saúde mental e comportamental também resultou em previsões enviesadas. Nossos métodos adaptados não apenas melhoraram a justiça, mas também mantiveram a precisão do modelo, demonstrando sua eficácia em cenários do mundo real.

Conclusão

A questão do sub-relato diferencial de características é crítica para garantir justiça em modelos preditivos usados nos setores públicos. Sem abordar as lacunas na coleta de dados, muitos modelos correm o risco de perpetuar viés que impacta grupos marginalizados. Nossos métodos propostos mostram potencial para lidar com esse problema, destacando a importância de adaptar estratégias existentes para se adequar melhor às complexidades do sub-relato.

Ao focar nesses desafios e implementar soluções direcionadas, podemos trabalhar para desenvolver modelos preditivos mais justos que atendam todos os indivíduos de forma equitativa, independentemente de sua dependência de serviços públicos ou privados. Pesquisas futuras devem continuar a explorar essas dimensões, aplicando as lições aprendidas para fazer melhorias sistêmicas em vários setores.

Fonte original

Título: The Impact of Differential Feature Under-reporting on Algorithmic Fairness

Resumo: Predictive risk models in the public sector are commonly developed using administrative data that is more complete for subpopulations that more greatly rely on public services. In the United States, for instance, information on health care utilization is routinely available to government agencies for individuals supported by Medicaid and Medicare, but not for the privately insured. Critiques of public sector algorithms have identified such differential feature under-reporting as a driver of disparities in algorithmic decision-making. Yet this form of data bias remains understudied from a technical viewpoint. While prior work has examined the fairness impacts of additive feature noise and features that are clearly marked as missing, the setting of data missingness absent indicators (i.e. differential feature under-reporting) has been lacking in research attention. In this work, we present an analytically tractable model of differential feature under-reporting which we then use to characterize the impact of this kind of data bias on algorithmic fairness. We demonstrate how standard missing data methods typically fail to mitigate bias in this setting, and propose a new set of methods specifically tailored to differential feature under-reporting. Our results show that, in real world data settings, under-reporting typically leads to increasing disparities. The proposed solution methods show success in mitigating increases in unfairness.

Autores: Nil-Jana Akpinar, Zachary C. Lipton, Alexandra Chouldechova

Última atualização: 2024-05-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.08788

Fonte PDF: https://arxiv.org/pdf/2401.08788

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes