Simple Science

La science de pointe expliquée simplement

# Statistiques# Apprentissage automatique# Recherche d'informations# Apprentissage automatique

Défis des tests A/B en apprentissage automatique

Examiner les problèmes avec les tests en ligne des modèles d'apprentissage automatique.

― 7 min lire


Problèmes de machineProblèmes de machinelearning dans les testsA/Bautomatique.les modèles d'apprentissageExaminer les défauts des tests A/B pour
Table des matières

Les tests en ligne comme les tests A/B sont super courants sur les sites web aujourd'hui. Ces tests aident les entreprises à comprendre comment changer des trucs, comme un modèle ou une fonctionnalité, peut influencer le comportement des utilisateurs. En gros, une version d’un truc, qu’on appelle "A," est comparée à une autre version, qu’on appelle "B." Ça permet aux entreprises de voir laquelle des versions est plus efficace selon des objectifs précis, comme le nombre de clics, les achats, ou toute autre mesure importante.

Cet article se concentre sur les tests en ligne où différentes versions concernent des Modèles d’apprentissage machine. L’idée générale est que le test en ligne aide à décider quel modèle est meilleur et devrait être utilisé sur le long terme. Bien que les méthodes utilisées dans ces expériences soient fiables pour beaucoup de chercheurs, il y a encore des questions importantes à prendre en compte quand on les applique à l’apprentissage machine.

Une grosse préoccupation est que les hypothèses derrière ces tests ne sont souvent pas respectées en ce qui concerne l’apprentissage machine. Ces hypothèses sont nécessaires pour s'assurer que les comparaisons entre "A" et "B" sont justes et correctes. Un défi clé est que quand différents modèles apprennent à partir du même ensemble de données, leurs résultats peuvent devenir liés les uns aux autres. Ça veut dire que les conclusions tirées des tests en ligne peuvent être trompeuses.

Essais Contrôlés Randomisés et Leur Nécessité

Les Essais Contrôlés Randomisés (ECR) ont une longue histoire dans la recherche, remontant à environ 140 ans. Au départ utilisés en psychologie, les ECR sont devenus une base dans divers domaines scientifiques. Ces essais assignent au hasard des sujets soit à un groupe de traitement soit à un groupe de contrôle. Les résultats moyens pour les deux groupes fournissent une estimation de l’effet du traitement.

Par exemple, imagine une étude sur différents types d’engrais appliqués aux cultures. Dans ce cas, les chercheurs assigneraient au hasard des parcelles de terre pour recevoir soit un engrais spécifique (le traitement) soit aucun engrais (le contrôle). En comparant les rendements des cultures, les chercheurs peuvent estimer l’effet moyen de l’engrais.

Dans les tests en ligne, l’idée est similaire. Les utilisateurs sont assignés au hasard à vivre soit la version "A" soit la version "B." En temps normal, les chercheurs supposent qu’il n’y a pas d’effets d’un groupe sur l’autre, appelés "effets de débordement." Cependant, dans de nombreuses situations, ces suppositions peuvent ne pas être vraies, surtout dans les tests en ligne avec de l’apprentissage machine.

Tests en Ligne avec des Modèles d’Apprentissage Machine

Imagine que tu gères un site web qui utilise un système de recommandations. Ce système guide les utilisateurs vers des articles qu’ils pourraient aimer en fonction de leur comportement passé. Quand tu testés différents systèmes de recommandations, une approche courante consiste à assigner au hasard les utilisateurs à une nouvelle ou une ancienne politique de recommandation. C’est similaire à l’exemple précédent où différents traitements étaient appliqués.

Mais en pratique, la situation peut se compliquer. Quand les informations collectées d'une politique sont utilisées pour améliorer une autre, les résultats peuvent ne pas être précis. Cette situation peut arriver souvent, soit parce que les gens ne sont pas au courant du problème, soit parce qu’ils l’ignorent, pensant que les effets ne seront pas significatifs.

Dans cet article, on va examiner deux situations courantes où cette Interférence se produit : quand différentes Politiques partagent des données pour apprendre, et quand les caractéristiques utilisées pour faire des recommandations sont influencées par les données de différentes politiques.

Les Problèmes des Données partagées

Décomposons ça un peu plus. Quand différentes politiques partagent des données des mêmes interactions utilisateurs, l’interférence se produit. Par exemple, si une politique apprend des clics et des non-clics pour toutes les actions entreprises par les utilisateurs, elle peut avoir un avantage injuste, ce qui fausse les résultats.

Dans un autre cas, si les caractéristiques utilisées dans une politique sont mises à jour en fonction des données de toutes les politiques, cela peut aussi poser des problèmes. Bien que ces soucis ne soient pas immédiatement évidents, ils peuvent mener à des résultats erronés dans les expériences. Même quand ces tests semblent valides, ils peuvent ne pas refléter avec précision ce qui se passerait si un modèle était utilisé seul.

Pourquoi le Partage de Données est si Commun

L'approche de partage de données est très attrayante pour plusieurs raisons. D’abord, ça simplifie les processus d’ingénierie. En rassemblant toutes les interactions utilisateur en un seul endroit, c’est plus facile de collecter des données pour entraîner des modèles d’apprentissage machine sans avoir à les trier plus tard.

Ensuite, quand on travaille avec des modèles de deep learning, avoir une grande quantité de données d’entraînement est essentiel. Réduire les données disponibles pour l’entraînement semble impraticable, surtout pour obtenir de meilleures performances dans les tests. Cela pousse souvent les praticiens à ignorer les problèmes potentiels qui découlent de l’utilisation de données partagées.

Enfin, les entreprises se concentrent souvent sur l’amélioration des indicateurs de performance, prenant des décisions rapides basées sur les résultats des tests plutôt que d’examiner si les résultats sont vraiment valides. Cette tendance peut mener à une plus grande importance portée à l’obtention de bons chiffres qu'à garantir que les tests sont scientifiquement solides.

Le Besoin de Conscience

Bien que cet article ne vise pas à minimiser la valeur des tests A/B, il souligne le besoin d’être conscient des hypothèses faites dans ces expériences en ligne. Il est crucial que tout le monde impliqué, des chercheurs aux praticiens, reconnaisse quand ces hypothèses pourraient ne pas être vraies.

Comme les expériences en ligne sont souvent considérées comme la référence pour évaluer de nouvelles technologies, il est important de comprendre les conditions sous lesquelles elles peuvent fournir des insights fiables. Si les hypothèses sont violées, notamment dans les situations où les modèles d’apprentissage machine partagent des données ou des caractéristiques, alors les résultats peuvent ne pas être dignes de confiance.

Conclusions

Tester des modèles d’apprentissage machine à travers des expériences en ligne peut être assez difficile, surtout quand des études précédentes ont montré des résultats contradictoires. Le principal problème survient quand les tests en ligne sont considérés comme la méthode ultime d’évaluation malgré le potentiel d’hypothèses défectueuses.

Dans cette discussion, on a mis en avant que des pratiques courantes, comme le partage de données entre plusieurs modèles, peuvent compromettre l'intégrité des expériences. À mesure que ces pratiques deviennent courantes, il devrait y avoir un appel à tous les acteurs pour être plus critiques lorsqu'ils analysent les résultats de leurs tests en ligne.

Cette discussion soulève des questions importantes sur l’impact des données partagées sur les résultats et sur la manière dont les chercheurs peuvent mieux évaluer ces expériences. Les travaux futurs devraient se concentrer sur la compréhension des biais introduits par ces pratiques et sur l’offre de meilleures directives pour mener des tests en ligne fiables.

En améliorant la conscience et en comprenant ces nuances, cela peut aboutir à une meilleure précision dans l’évaluation des méthodes d’apprentissage machine et garantir que les insights dérivés de ces expériences contribuent de manière significative au domaine.

Source originale

Titre: A Common Misassumption in Online Experiments with Machine Learning Models

Résumé: Online experiments such as Randomised Controlled Trials (RCTs) or A/B-tests are the bread and butter of modern platforms on the web. They are conducted continuously to allow platforms to estimate the causal effect of replacing system variant "A" with variant "B", on some metric of interest. These variants can differ in many aspects. In this paper, we focus on the common use-case where they correspond to machine learning models. The online experiment then serves as the final arbiter to decide which model is superior, and should thus be shipped. The statistical literature on causal effect estimation from RCTs has a substantial history, which contributes deservedly to the level of trust researchers and practitioners have in this "gold standard" of evaluation practices. Nevertheless, in the particular case of machine learning experiments, we remark that certain critical issues remain. Specifically, the assumptions that are required to ascertain that A/B-tests yield unbiased estimates of the causal effect, are seldom met in practical applications. We argue that, because variants typically learn using pooled data, a lack of model interference cannot be guaranteed. This undermines the conclusions we can draw from online experiments with machine learning models. We discuss the implications this has for practitioners, and for the research literature.

Auteurs: Olivier Jeunen

Dernière mise à jour: 2023-04-21 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.10900

Source PDF: https://arxiv.org/pdf/2304.10900

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus de l'auteur

Articles similaires