Avancées dans les techniques de modélisation des données de compte
De nouveaux modèles améliorent l'analyse des données de comptage avec des zéros et des valeurs extrêmes.
Touqeer Ahmad, Irshad Ahmad Arshad
― 8 min lire
Table des matières
- Besoin de meilleurs modèles
- Nouvelles extensions de la DGPD
- Aperçu des modèles de données de comptage
- Défis dans le choix des seuils
- Modèles proposés
- Distribution de Pareto Généralisée Étendue Discrète (DEGPD)
- Distribution de Pareto Généralisée Étendue Discrète à Inflation de Zéros (ZIDEGPD)
- Étude de simulation
- Applications dans le monde réel
- Plaintes d'assurance
- Visites à l'hôpital
- Infractions de jeux et paris
- Conclusion
- Source originale
- Liens de référence
Modéliser avec précision les données de comptage, c'est super important dans plein de domaines comme les réclamations d'assurance, les visites à l'hôpital et plein d'autres situations de la vie réelle. Les données de comptage, c'est le nombre d'occurrences d'un événement, comme combien de plaintes ont été déposées contre une compagnie d'assurance ou combien de fois un patient a vu un doc. Parfois, ces données peuvent avoir plein de zéros, ou alors elles peuvent avoir quelques valeurs extrêmement hautes qui ne sont pas typiques.
Besoin de meilleurs modèles
Les modèles traditionnels comme les distributions de Poisson et de Binomial Négatif sont souvent utilisés pour les données de comptage. Le modèle de Poisson marche bien quand le nombre moyen d'événements est constant. Le modèle Binomial Négatif est là pour quand les données sont plus dispersées que ce que le modèle de Poisson peut gérer. Mais quand on parle de données à longue queue-où on voit plein de zéros ou des Valeurs extrêmes-ces modèles peuvent ne pas bien fonctionner.
Dans ces cas-là, un modèle spécifique appelé la Distribution de Pareto Généralisée Discrète (DGPD) est souvent utilisé. La DGPD est bien pour se concentrer sur les seuils élevés, ça aide à comprendre les valeurs extrêmes. Mais choisir le bon seuil, c'est pas évident. Si le seuil est trop haut ou trop bas, ça ne donnera pas une bonne estimation des données réelles.
Nouvelles extensions de la DGPD
Pour régler ces problèmes, de nouvelles versions de la DGPD ont été développées pour rendre la modélisation des données de comptage plus efficace. Il y a trois scénarios majeurs où ces nouveaux modèles peuvent aider :
- Modéliser toutes les données de comptage : Ces nouveaux modèles peuvent analyser toutes les valeurs dans les données de comptage sans avoir à fixer un seuil haut.
- Gérer les données avec beaucoup de zéros : Ils peuvent tenir compte efficacement des jeux de données avec beaucoup de zéros, c'est-à-dire des situations où aucun événement ne se produit.
- Traiter les dépassements de seuils bas : Ils peuvent également modéliser des cas où on veut comprendre les comportements juste au-dessus de seuils bas, ce qui est précieux quand ce n'est pas pratique de choisir un seuil élevé.
Les modèles proposés montrent de meilleures performances dans des simulations et des applications réelles. Ils offrent des aperçus plus clairs sur les données de comptage analysées.
Aperçu des modèles de données de comptage
Il y a plusieurs modèles statistiques disponibles pour analyser les données de comptage non négatives. Les modèles basiques, comme le Poisson et le Binomial Négatif, aident les gens à travailler avec différents types de comptages. Si les données ont beaucoup de zéros, les modèles à inflation de zéros comme le Poisson à Inflation de Zéros (ZIP) et le Binomial Négatif à Inflation de Zéros (ZINB) étendent ces distributions pour couvrir ces zéros supplémentaires.
La DGPD est particulièrement adaptée pour étudier des valeurs extrêmes. Cependant, de nombreux jeux de données de comptage peuvent être compliqués parce qu'ils contiennent souvent trop de zéros ou des observations extrêmes. Par exemple, quand on regarde les plaintes déposées contre des compagnies d'assurance ou le nombre de visites à l'hôpital, des zéros significatifs peuvent interférer avec l'analyse, réduisant ainsi l'efficacité des modèles plus simples.
Défis dans le choix des seuils
Choisir un seuil approprié est crucial pour appliquer des méthodes comme l'approche Peak-Over-Threshold (POT), qui estime la probabilité de dépasser une certaine valeur. Fixer le seuil trop bas peut mener à des estimations inexactes, tandis que le faire trop haut peut réduire les données disponibles pour l'analyse, compliquant ainsi les choses.
En pratique, sélectionner un seuil implique souvent d'examiner différentes méthodes graphiques, et décider d'un point approprié peut être un vrai casse-tête et subjectif. C'est là qu'entrent en jeu les nouvelles versions flexibles de la DGPD, car elles peuvent gérer à la fois les données en dessous du seuil et les valeurs extrêmes au-dessus.
Modèles proposés
Deux nouveaux modèles importants ont été introduits : la Distribution de Pareto Généralisée Étendue Discrète (DEGPD) et la Distribution de Pareto Généralisée Étendue Discrète à Inflation de Zéros (ZIDEGPD).
Distribution de Pareto Généralisée Étendue Discrète (DEGPD)
La DEGPD est conçue pour représenter efficacement l'ensemble des données de comptage. Elle fait ça en intégrant non seulement la majeure partie des données, mais aussi les valeurs extrêmes sans avoir besoin d'un seuil élevé. Ça la rend géniale pour les données du monde réel qui ne s'adaptent pas facilement dans des catégories standard.
Distribution de Pareto Généralisée Étendue Discrète à Inflation de Zéros (ZIDEGPD)
La ZIDEGPD est faite pour gérer les jeux de données qui ont un nombre significatif de zéros. Elle permet une meilleure approximation des distributions avec beaucoup de zéros tout en modélisant le comportement des comptages au-dessus de zéro. Ça, c'est particulièrement utile dans des domaines où les zéros sont courants, comme les études environnementales ou l'analyse des soins de santé.
Étude de simulation
Pour évaluer ces nouveaux modèles, une étude de simulation a été réalisée. La performance de l'estimateur du maximum de vraisemblance (MLE) a été testée dans différents scénarios. Des boxplots ont été utilisés pour visualiser à quel point les paramètres estimés correspondaient aux valeurs réelles.
Les résultats ont montré que les modèles proposés fonctionnaient bien. Ils offrent des estimations fiables même quand les données incluent beaucoup de zéros ou des valeurs extrêmes.
Applications dans le monde réel
Plaintes d'assurance
Le premier jeu de données analysé concernait des plaintes contre des compagnies d'assurance automobile à New York. Les modèles DEGPD ont bien fonctionné, capturant la majeure partie des données et le comportement de la queue. Ils ont surpassé les modèles existants et mis en avant la flexibilité du cadre proposé.
Visites à l'hôpital
Le deuxième jeu de données concernait les visites à l'hôpital, qui présentaient une quantité substantielle de valeurs zéro. Le modèle ZIDEGPD s'est avéré être un bon choix car il pouvait efficacement capturer l'inflation de zéros tout en maintenant une estimation précise du comportement de la queue. Ça montre comment ZIDEGPD peut être bénéfique dans le domaine de la santé, où comprendre les admissions et visites des patients peut être critique.
Infractions de jeux et paris
Le troisième jeu de données provenait d'infractions liées aux jeux et paris en Nouvelle-Galles du Sud, en Australie. Utiliser la DEGPD à des seuils bas était avantageux pour modéliser ces données. Les modèles se sont bien adaptés, même quand des seuils bas ont été choisis.
Conclusion
Cette étude a présenté des versions flexibles de la distribution de Pareto généralisée discrète qui peuvent gérer efficacement une variété de scénarios de données de comptage-qu'elles incluent beaucoup de zéros, des valeurs extrêmes, ou les deux. Les modèles proposés ont surpassé les approches plus traditionnelles en fournissant des aperçus plus clairs sur les données, même quand c'était compliqué de fixer un seuil élevé.
Ces avancées ouvrent la porte à une meilleure analyse des données basées sur le comptage à travers divers contextes, aidant les chercheurs et praticiens à prendre des décisions plus éclairées basées sur les résultats. La flexibilité des modèles DEGPD et ZIDEGPD assure qu'ils peuvent être appliqués efficacement à des situations réelles, conduisant finalement à une meilleure compréhension des données de comptage dans des domaines divers.
Les méthodes introduites peuvent aussi aider à choisir des seuils appropriés pour appliquer la DGPD aux dépassements discrets. C'est un pas important vers l'amélioration de l'analyse statistique dans des domaines où interpréter les zéros et les valeurs extrêmes peut être crucial. À l'avenir, ces modèles offrent des opportunités passionnantes pour la recherche et l'application future dans diverses disciplines, montrant leur polyvalence dans le traitement de données de comptage complexes.
Titre: New flexible versions of extended generalized Pareto model for count data
Résumé: Accurate modeling is essential in integer-valued real phenomena, including the distribution of entire data, zero-inflated (ZI) data, and discrete exceedances. The Poisson and Negative Binomial distributions, along with their ZI variants, are considered suitable for modeling the entire data distribution, but they fail to capture the heavy tail behavior effectively alongside the bulk of the distribution. In contrast, the discrete generalized Pareto distribution (DGPD) is preferred for high threshold exceedances, but it becomes less effective for low threshold exceedances. However, in some applications, the selection of a suitable high threshold is challenging, and the asymptotic conditions required for using DGPD are not always met. To address these limitations, extended versions of DGPD are proposed. These extensions are designed to model one of three scenarios: first, the entire distribution of the data, including both bulk and tail and bypassing the threshold selection step; second, the entire distribution along with ZI; and third, the tail of the distribution for low threshold exceedances. The proposed extensions offer improved estimates across all three scenarios compared to existing models, providing more accurate and reliable results in simulation studies and real data applications.
Auteurs: Touqeer Ahmad, Irshad Ahmad Arshad
Dernière mise à jour: 2024-09-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.18719
Source PDF: https://arxiv.org/pdf/2409.18719
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.