L'impact des biais personnels dans le choix des modèles
La subjectivité dans le choix des modèles affecte les résultats de l'apprentissage automatique.
― 9 min lire
Table des matières
Choisir le bon modèle, c'est super important quand on bosse avec le machine learning, surtout quand les données ne sont pas étiquetées. Ça s'appelle le machine learning non supervisé. Trouver un modèle, ça peut souvent être une décision personnelle, ce qui peut mener à des résultats différents selon qui fait le choix. Les décisions qu'on prend peuvent influencer la performance de ces modèles dans la vraie vie, donc comprendre pourquoi on fait ces choix, c'est essentiel.
C'est quoi le Machine Learning Non Supervisé ?
Dans le machine learning non supervisé, les modèles analysent des données pour trouver des motifs et des structures. Ce processus n'a pas besoin d'étiquettes ou de catégories pré-définies. Par exemple, les psychologues peuvent utiliser ces modèles pour repérer des schémas dans la façon dont les humains apprennent, ce qui peut donner lieu à des différences dans les techniques d'entraînement selon les résultats du modèle.
L'Importance de la Sélection de Modèle
La sélection de modèle est une étape nécessaire dans le machine learning non supervisé. Différents modèles peuvent mener à des conclusions différentes, donc c'est super important de choisir le meilleur. Un modèle devrait décrire les données avec précision, mais on préfère souvent un modèle plus simple parce qu'il est plus facile à comprendre et moins susceptible de faire des erreurs. Mais en général, il y a souvent un compromis entre précision et simplicité ; les modèles avec plus de variables peuvent mieux performer, mais ils peuvent aussi devenir trop complexes.
Critères pour Choisir des Modèles
Il y a plusieurs critères qui peuvent guider le processus de sélection d'un modèle. Les critères courants incluent le Critère d'information d'Akaike (AIC) et le Critère d'information bayésien (BIC). Ces critères aident à évaluer combien un modèle s'ajuste aux données tout en prenant en compte la complexité du modèle. D'autres métriques, comme la validation croisée, peuvent aussi aider à évaluer la performance d'un modèle selon différents scénarios.
Malgré plusieurs critères à choisir, le processus de sélection peut encore être subjectif. Différentes personnes peuvent attribuer une importance différente aux critères variés, rendant l'idée du "meilleur" modèle une question personnelle. Bien qu'on sache que les biais dans les ensembles de données peuvent affecter les résultats, on n'a pas beaucoup étudié comment les préférences d'un individu influencent la sélection des modèles.
L'Impact des Choix Personnels
Les choix provenant des personnes pendant le processus de sélection de modèle peuvent être appelés "degrés de liberté du chercheur". Ces décisions subjectives peuvent grandement influencer la répétabilité des résultats, qui est cruciale dans la recherche scientifique. Si les résultats ne sont pas répétables, évaluer la validité des conclusions devient compliqué, ce qui mène à une confiance réduite dans les modèles utilisés dans des applications réelles.
Cet article examine la nature subjective de la sélection de modèle en utilisant le Modèle de Markov caché (HMM) comme exemple. Dans cette recherche, un groupe de participants et des modèles de langage avancés ont été invités à choisir des modèles en fonction de différents scénarios.
Contexte des Modèles de Markov Cachés
Un Modèle de Markov Caché est un outil statistique qui implique deux couches : des données visibles et des états cachés qui ne sont pas directement observables. Le modèle utilise un ensemble de probabilités pour relier ces deux couches et aider à identifier des motifs dans les données. Cependant, le véritable nombre d'états cachés est inconnu et doit être déterminé avant de former le modèle.
Mise en Place de l'Étude
Dans l'étude, trois scénarios ont été créés en utilisant des fichiers de replay du jeu StarCraft II. Les chercheurs se sont concentrés sur un rôle particulier dans le jeu, appelé Zerg, et ont catégorisé plus de 100 actions en 20 groupes. Les différents ensembles de données correspondaient à différentes tailles : petit, moyen et grand. Selon la taille de l'ensemble de données, différents modèles ont été formés en utilisant le Modèle de Markov Caché.
L'étude a impliqué 33 participants, tous familiers avec le machine learning. On leur a demandé de sélectionner le meilleur modèle en se basant sur les informations disponibles, y compris les métriques de performance des modèles et les critères. Les participants ont aussi rempli des enquêtes sur leurs antécédents et leurs tendances à Prendre des risques.
Préférences des Participants dans la Sélection de Modèle
Les résultats ont montré que les participants avaient divers choix lors de la sélection des modèles. Dans deux des trois scénarios, les participants se sont principalement accordés sur leurs sélections, surtout lorsque deux métriques de validation différentes pointaient vers le même modèle. Cependant, dans le scénario restant, où les métriques suggéraient des modèles différents, il y avait un désaccord considérable parmi les participants.
Certaines personnes préféraient des modèles plus simples, mettant l'accent sur la parcimonie, tandis que d'autres étaient plus enclines à choisir des modèles offrant une meilleure précision. Cette division d'opinion met en lumière la nature subjective de la sélection de modèle, avec les participants attirés vers différentes approches basées sur leurs biais personnels.
Le Rôle de la Taille de l'Ensemble de Données
Les participants avaient aussi des avis partagés sur la façon dont la taille de l'ensemble de données devrait influencer leurs choix. Tandis que certains pensaient que des ensembles de données plus grands justifiaient de prioriser la cohérence des modèles, d'autres croyaient que des ensembles plus petits devraient mener à des sélections plus réfléchies. Ce manque de consensus souligne encore l'aspect subjectif de la sélection de modèle.
Le Rôle des Critères d'Information
L'étude a révélé que différents participants mettaient l'accent sur différents critères d'information lors de leur Sélection de modèles. La plupart d'entre eux reconnaissaient que plusieurs critères étaient importants dans le processus de décision. L'un des critères les plus souvent cités était le BIC, qui est largement connu et utilisé dans le domaine.
Inconsistance Parmi les Participants
En analysant la constance des sélections des participants, il est devenu évident que beaucoup d'individus affichaient des préférences incohérentes à travers les scénarios. Certains participants n'avaient pas de raisons claires pour leurs choix variés, ce qui résonne avec des découvertes dans la recherche comportementale qui suggèrent que les décisions humaines peuvent être imprévisibles et influencées par différents contextes.
Implications pour le Machine Learning
Les résultats indiquent que la subjectivité joue un rôle significatif dans la sélection de modèle en machine learning. Tant les participants humains que les modèles de langage ont montré des préférences variées et des incohérences dans leurs choix. Cette variabilité soulève des inquiétudes sur la fiabilité des résultats dans la recherche en machine learning et les applications réelles.
Reconnaître la subjectivité et les écarts dans les processus de sélection de modèle est essentiel pour les chercheurs et praticiens. Des niveaux élevés de subjectivité peuvent mener à des doutes sur la validité des revendications en machine learning et éroder la confiance dans les modèles utilisés dans diverses applications.
Recommandations pour de Meilleures Pratiques
Pour améliorer la fiabilité et la reproductibilité des études en machine learning, il est crucial de standardiser la façon dont les décisions subjectives dans la sélection de modèle sont documentées. La recherche a mis en lumière plusieurs domaines de subjectivité, y compris les préférences personnelles concernant la complexité des modèles et la façon dont les tailles d'ensemble de données devraient influencer les décisions. Ces préférences devraient être rapportées et justifiées dans les applications, aidant à guider quels critères prioriser.
Si les chercheurs et praticiens effectuent des tests de validation en plus d'utiliser des critères d'information, il est important de partager ces résultats de manière ouverte. De plus, lorsqu'on est confronté à des métriques contradictoires, il pourrait être préférable de reconsidérer la nécessité de former un modèle dans un premier temps.
Limitations et Directions Futures
Une limitation de l'étude est qu'il n'est pas clair si différents critères et métriques sont couramment utilisés en pratique. De plus, l'absence de contexte sur les ensembles de données dans l'enquête a pu influencer les choix des participants. Les études futures devraient explorer comment différents contextes peuvent affecter la sélection de modèle tout en considérant soigneusement les variables confondantes potentielles.
Dans l'ensemble, comprendre les choix subjectifs faits lors de la sélection de modèle contribuera à un processus plus standardisé, améliorant la fiabilité des études en machine learning et favorisant une plus grande confiance dans les modèles déployés dans le monde réel.
Titre: Subjectivity in Unsupervised Machine Learning Model Selection
Résumé: Model selection is a necessary step in unsupervised machine learning. Despite numerous criteria and metrics, model selection remains subjective. A high degree of subjectivity may lead to questions about repeatability and reproducibility of various machine learning studies and doubts about the robustness of models deployed in the real world. Yet, the impact of modelers' preferences on model selection outcomes remains largely unexplored. This study uses the Hidden Markov Model as an example to investigate the subjectivity involved in model selection. We asked 33 participants and three Large Language Models (LLMs) to make model selections in three scenarios. Results revealed variability and inconsistencies in both the participants' and the LLMs' choices, especially when different criteria and metrics disagree. Sources of subjectivity include varying opinions on the importance of different criteria and metrics, differing views on how parsimonious a model should be, and how the size of a dataset should influence model selection. The results underscore the importance of developing a more standardized way to document subjective choices made in model selection processes.
Auteurs: Wanyi Chen, Mary L. Cummings
Dernière mise à jour: 2024-01-05 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.00201
Source PDF: https://arxiv.org/pdf/2309.00201
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.