Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Metodologia

Avanços nas Técnicas de Modelagem de Dados Contáveis

Novos modelos melhoram a análise de dados de contagem com zeros e valores extremos.

Touqeer Ahmad, Irshad Ahmad Arshad

― 7 min ler


Avanços em Modelagem deAvanços em Modelagem deDados de Contagemdados de contagem complexos.Novos modelos melhoram a compreensão de
Índice

Modelar dados de contagem com precisão é importante em várias áreas, como reclamações de seguros, visitas a hospitais e muitas outras situações da vida real. Dados de contagem se referem ao número de vezes que um evento ocorre, tipo quantas reclamações foram feitas contra uma companhia de seguros ou quantas vezes um paciente foi ao médico. Às vezes, esses dados podem mostrar muitos zeros, ou ter alguns valores extremamente altos que não são normais.

A Necessidade de Melhores Modelos

Modelos tradicionais, como as distribuições de Poisson e Binomial Negativa, são comumente usados para dados de contagem. O modelo de Poisson funciona bem quando a média de eventos é consistente. O modelo Binomial Negativa é usado quando os dados estão mais espalhados do que o modelo de Poisson consegue lidar. No entanto, quando se trata de dados com caudas pesadas-onde você vê muitos zeros ou Valores Extremos-esses modelos podem não performar bem.

Nesses casos, um modelo específico chamado Distribuição de Pareto Generalizada Discreta (DGPD) é frequentemente utilizado. A DGPD é boa para focar em altos limiares, ajudando a entender valores extremos. Mas escolher o limiar certo pode ser complicado. Se o limiar estiver muito alto ou muito baixo, não vai dar uma boa estimativa dos dados reais.

Novas Extensões da DGPD

Para resolver essas falhas, novas versões da DGPD foram desenvolvidas para tornar a modelagem de dados de contagem mais eficaz. Existem três cenários principais em que esses novos modelos podem ajudar:

  1. Modelagem de dados de contagem inteiros: Esses novos modelos podem analisar todos os valores nos dados de contagem sem precisar estabelecer um alto limiar.
  2. Lidar com dados inflacionados por zeros: Eles podem levar em conta efetivamente conjuntos de dados que têm muitos zeros, ou seja, situações onde não ocorrem eventos.
  3. Tratar com excedentes de limiar baixo: Eles também podem modelar casos onde queremos entender comportamentos logo acima de limiares baixos, que é valioso quando não é prático escolher um alto limiar.

Os modelos propostos mostram um desempenho melhor em simulações e aplicações do mundo real. Eles oferecem insights mais claros sobre os dados de contagem que estão sendo analisados.

Visão Geral dos Modelos de Dados de Contagem

Tem vários modelos estatísticos disponíveis para analisar dados de contagem não-negativos. Os modelos básicos, como Poisson e Binomial Negativa, ajudam a galera a trabalhar com vários tipos de contagens. Se os dados têm muitos zeros, modelos inflacionados por zeros, como o Poisson Inflacionado por Zeros (ZIP) e o Binomial Negativa Inflacionado por Zeros (ZINB), estendem essas distribuições para cobrir esses zeros extras.

A DGPD é particularmente adequada para estudar valores extremos. No entanto, muitos conjuntos de dados de contagem podem ser complicados porque frequentemente contêm muitos zeros ou observações extremas. Por exemplo, ao analisar reclamações feitas contra companhias de seguros ou o número de visitas a hospitais, zeros significativos podem interferir na análise, diminuindo a eficácia de modelos mais simples.

Desafios ao Selecionar Limiares

Escolher um limiar adequado é crucial para aplicar métodos como a abordagem Pico-Sobre-Limiar (POT), que estima a probabilidade de ultrapassar um determinado valor. Definir o limiar muito baixo pode levar a estimativas imprecisas, enquanto fazer isso muito alto pode reduzir os dados com os quais temos que trabalhar, complicando a análise.

Na prática, selecionar um limiar geralmente envolve olhar para vários métodos gráficos, e decidir um ponto adequado pode ser desafiador e subjetivo. É aí que as novas versões flexíveis da DGPD entram em cena, já que podem lidar tanto com os dados abaixo do limiar quanto com os valores extremos acima dele.

Modelos Propostos

Dois novos modelos significativos foram introduzidos: a Distribuição de Pareto Generalizada Estendida Discreta (DEGPD) e a Distribuição de Pareto Generalizada Estendida Discreta Inflacionada por Zeros (ZIDEGPD).

Distribuição de Pareto Generalizada Estendida Discreta (DEGPD)

A DEGPD foi projetada para representar efetivamente toda a gama de dados de contagem. Ela faz isso acomodando não só a maior parte dos dados, mas também os valores extremos sem precisar de um alto limiar. Isso a torna ótima para dados do mundo real que podem não se encaixar bem em categorias padrão.

Distribuição de Pareto Generalizada Estendida Discreta Inflacionada por Zeros (ZIDEGPD)

A ZIDEGPD é feita para lidar com conjuntos de dados que têm um número significativo de zeros. Ela permite uma melhor aproximação de distribuições carregadas de zeros enquanto ainda modela o comportamento das contagens acima de zero. Isso é particularmente útil em áreas onde zeros são comuns, como estudos ambientais ou analytics de saúde.

Estudo de Simulação

Para avaliar esses novos modelos, um estudo de simulação foi realizado. O desempenho do estimador de máxima verossimilhança (MLE) foi testado em diferentes cenários. Boxplots foram usados para visualizar quão perto os parâmetros estimados estavam dos valores verdadeiros.

Os resultados mostraram que os modelos propostos tiveram um bom desempenho. Eles fornecem estimativas confiáveis mesmo quando os dados incluíam muitos zeros ou valores extremos.

Aplicações do Mundo Real

Reclamações de Seguros

O primeiro conjunto de dados do mundo real analisado foi sobre reclamações contra companhias de seguros automotivos na cidade de Nova York. Os modelos DEGPD se saíram bem, capturando a maior parte dos dados e o comportamento da cauda. Eles superaram modelos existentes e destacaram a flexibilidade da estrutura proposta.

Visitas a Hospitais

O segundo conjunto de dados envolveu visitas a hospitais, que apresentaram uma quantidade substancial de valores zero. O modelo ZIDEGPD provou ser uma escolha forte, pois conseguiu capturar efetivamente a inflação de zeros enquanto mantinha uma estimativa precisa do comportamento da cauda. Isso ilustra como o ZIDEGPD pode ser benéfico em ambientes de saúde, onde entender admissões e visitas de pacientes pode ser fundamental.

Apostas e Ofensas de Jogo

O terceiro conjunto de dados veio de infrações de apostas e jogos em Nova Gales do Sul, Austrália. Usar a DEGPD em limiares baixos foi vantajoso para modelar esses dados. Os modelos se ajustaram bem, mesmo quando limiares baixos foram selecionados.

Conclusão

Esse estudo introduziu versões flexíveis da distribuição de Pareto generalizada discreta que podem lidar efetivamente com uma variedade de cenários de dados de contagem-seja incluindo muitos zeros, valores extremos, ou ambos. Os modelos propostos superaram abordagens mais tradicionais ao fornecer insights mais claros sobre os dados, mesmo quando foi desafiador estabelecer um alto limiar.

Esses avanços abrem portas para uma melhor análise de dados baseados em contagem em vários contextos, ajudando pesquisadores e profissionais a tomarem decisões mais informadas com base nos resultados. A flexibilidade dos modelos DEGPD e ZIDEGPD garante que possam ser aplicados efetivamente a situações do mundo real, levando a uma melhor compreensão dos dados de contagem em diferentes áreas.

Os métodos apresentados podem ainda ajudar na seleção de limiares adequados para aplicar a DGPD em excedentes discretos. Isso é um passo significativo para melhorar a análise estatística em áreas onde interpretar zeros e valores extremos pode ser crucial. Indo pra frente, esses modelos oferecem oportunidades empolgantes para pesquisas futuras e aplicação em disciplinas diversas, demonstrando sua versatilidade em lidar com dados de contagem complexos.

Fonte original

Título: New flexible versions of extended generalized Pareto model for count data

Resumo: Accurate modeling is essential in integer-valued real phenomena, including the distribution of entire data, zero-inflated (ZI) data, and discrete exceedances. The Poisson and Negative Binomial distributions, along with their ZI variants, are considered suitable for modeling the entire data distribution, but they fail to capture the heavy tail behavior effectively alongside the bulk of the distribution. In contrast, the discrete generalized Pareto distribution (DGPD) is preferred for high threshold exceedances, but it becomes less effective for low threshold exceedances. However, in some applications, the selection of a suitable high threshold is challenging, and the asymptotic conditions required for using DGPD are not always met. To address these limitations, extended versions of DGPD are proposed. These extensions are designed to model one of three scenarios: first, the entire distribution of the data, including both bulk and tail and bypassing the threshold selection step; second, the entire distribution along with ZI; and third, the tail of the distribution for low threshold exceedances. The proposed extensions offer improved estimates across all three scenarios compared to existing models, providing more accurate and reliable results in simulation studies and real data applications.

Autores: Touqeer Ahmad, Irshad Ahmad Arshad

Última atualização: 2024-09-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.18719

Fonte PDF: https://arxiv.org/pdf/2409.18719

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes