Présentation de CSSLR : Une nouvelle approche pour la sélection de variables dans la régression logistique
CSSLR améliore la sélection de modèles de régression logistique, en rendant tout ça plus fiable et transparent.
― 6 min lire
Table des matières
La sélection de Variables automatisée est un outil courant quand on développe des Modèles statistiques. Il y a différentes approches, comme la sélection par étapes avant, arrière, ou par étapes, qu'on trouve dans des logiciels comme R et SAS. Cependant, beaucoup d'experts ont des doutes sur ces méthodes. Le principal problème, c'est que les modèles créés par ces processus automatisés manquent souvent de fondements théoriques solides, ce qui les rend instables et peu fiables.
Dans cet article, on présente une nouvelle méthode appelée Sélection Étape par Étape Complète pour la Régression Logistique (CSSLR). Cette approche vise à améliorer la sélection des variables dans les modèles de régression logistique. Au lieu de se baser sur une seule mesure, CSSLR utilise plusieurs critères pour s'assurer que le modèle final est robuste et solide. Elle reconnaît que le processus de sélection peut donner plusieurs modèles qui pourraient être également valides.
Les techniques de sélection de variables automatisées ont été largement utilisées dans différents domaines de recherche. La sélection avant commence avec un modèle basique et ajoute les variables une par une en fonction de leur signification statistique. En revanche, la sélection arrière commence avec un modèle complet et enlève les variables moins importantes jusqu'à atteindre un certain point. La sélection par étapes est une méthode plus avancée qui combine les deux approches, permettant de retirer des variables au besoin tout au long du processus.
Malgré leur popularité, les méthodes de sélection automatisées ont reçu des critiques. Des recherches ont montré que même avec de grands ensembles de données, la sélection par étapes conduit souvent à des choix de variables incorrects à cause de variations aléatoires. Au fil des ans, diverses solutions ont été proposées pour adresser ces problèmes. Une stratégie est de combiner la sélection automatisée avec une validation croisée, ce qui aide à atténuer les instabilités potentielles. D'autres techniques incluent la pénalisation des variables durant l'estimation du modèle, ce qui aide à éviter le surajustement. Cependant, ces approches ne font pas disparaître les problèmes fondamentaux liés à la sélection automatisée.
En pratique, il y a des situations où les analystes doivent estimer rapidement de nombreux modèles de régression, comme dans l'évaluation du risque de crédit dans divers pays et classes d'actifs. Dans ces cas, une méthode de sélection automatisée efficace peut être un outil précieux pour les analystes de données. La méthode CSSLR se concentre spécifiquement sur la régression logistique, qui est largement utilisée pour les tâches de classification binaire.
La régression logistique peut être évaluée en fonction de sa capacité à distinguer entre de bonnes et de mauvaises observations (Discrimination) et de l'exactitude de ses estimations de probabilité (calibration). L'algorithme CSSLR s'appuie principalement sur ces deux aspects, cherchant à sélectionner des variables qui améliorent à la fois la discrimination et la calibration. Il considère également la signification statistique des coefficients du modèle et vérifie des problèmes comme la multicolinéarité et le surajustement.
Une caractéristique clé de CSSLR est qu'elle peut produire plusieurs modèles acceptables au lieu d'un seul meilleur. Dans les méthodes traditionnelles de sélection avant et arrière, le résultat final est toujours un modèle vu comme le meilleur. CSSLR reconnaît que plusieurs modèles peuvent être statistiquement équivalents, ce qui signifie qu'ils performent de manière similaire en termes de discrimination et de calibration.
La méthode CSSLR se compose de deux parties principales. La première partie identifie les modèles améliorés en examinant les modèles précédents et en ajoutant de nouvelles variables une par une. Si une nouvelle variable montre une amélioration, le modèle mis à jour est considéré plus avant. La seconde partie compare les modèles améliorés pour trouver ceux qui sont supérieurs.
Pour identifier les modèles améliorés, l'algorithme CSSLR suit ces étapes :
- Parcourir tous les modèles sélectionnés précédemment.
- Parcourir toutes les variables supplémentaires pas encore incluses.
- Estimer de nouveaux modèles en ajoutant la nouvelle variable aux modèles existants.
- Vérifier si le nouveau modèle montre une amélioration.
- Si oui, éliminer les modèles moins efficaces.
Après avoir identifié les modèles améliorés, l'algorithme cherche des modèles de tête basés sur leur performance en termes de discrimination et de calibration. Si un modèle se distingue dans les deux domaines, il devient le modèle de tête. Sinon, l'algorithme conserve plusieurs modèles de tête qui ne peuvent pas être facilement classés.
CSSLR a été testé avec des ensembles de données simulées incluant un mélange de variables fortes, faibles, et non pertinentes. Différents paramètres sont choisis pour évaluer la sensibilité de l'algorithme, et les résultats montrent comment CSSLR se compare aux méthodes de sélection de variables traditionnelles.
Dans les évaluations, CSSLR montre constamment une forte capacité à identifier des variables significatives tout en rejetant celles qui ne le sont pas. Cela rend CSSLR plus fiable, car elle tend à inclure uniquement des variables qui contribuent à la performance du modèle.
En résumé, CSSLR est une nouvelle méthode pour sélectionner des variables dans la régression logistique. Contrairement aux méthodes existantes qui peuvent être trop larges, CSSLR se concentre spécifiquement sur les caractéristiques uniques de la régression logistique, en particulier la discrimination et la calibration. En partant d'un modèle basique et en ajoutant progressivement des variables basées sur des critères stricts, CSSLR peut construire efficacement des modèles significatifs.
Bien que la méthode CSSLR puisse prendre plus de temps à cause de sa minutie et sa complexité, elle fait finalement gagner du temps aux analystes en fournissant une documentation claire du processus de sélection. La transparence leur permet de comprendre pourquoi certains modèles sont choisis ou rejetés.
Dans les recherches futures, il y a un potentiel pour adapter l'approche CSSLR à d'autres types de modèles statistiques. Cela ouvre la porte à la création de méthodes de sélection de variables améliorées dans divers domaines d'étude. Le code CSSLR est disponible en R, permettant à d'autres de reproduire les résultats et d'explorer davantage ses capacités.
Dans l'ensemble, la méthode CSSLR représente une avancée prometteuse dans la sélection automatisée de variables pour la régression logistique, aidant les chercheurs à obtenir des résultats de modèles plus fiables et significatifs.
Titre: Comprehensive Stepwise Selection for Logistic Regression
Résumé: Automated variable selection is widely applied in statistical model development. Algorithms like forward, backward or stepwise selection are available in statistical software packages like R and SAS. Many researchers have criticized the use of these algorithms because the models resulting from automated selection algorithms are not based on theory and tend to be unstable. Furthermore, simulation studies have shown that they often select incorrect variables due to random effects which makes these model building strategies unreliable. In this article, a comprehensive stepwise selection algorithm tailored to logistic regression is proposed. It uses multiple criteria in variable selection instead of relying on one single measure only, like a $p$-value or Akaike's information criterion, which ensures robustness and soundness of the final outcome. The result of the selection process might not be unambiguous. It might select multiple models that could be considered as statistically equivalent. A simulation study demonstrates the superiority of the proposed variable selection method over available alternatives.
Auteurs: Bernd Engelmann
Dernière mise à jour: 2023-06-15 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.04876
Source PDF: https://arxiv.org/pdf/2306.04876
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.