Simple Science

La science de pointe expliquée simplement

# Informatique# Bases de données

Assurer la qualité des données dans les modèles de machine learning

Explore l'importance de valider les données dans les pipelines d'apprentissage automatique.

― 7 min lire


Validation des données enValidation des données enapprentissage automatiqueperformance du modèle.Méthodes essentielles pour garder la
Table des matières

Dans le domaine de l'apprentissage automatique (AA), s'assurer de la Qualité des données utilisées dans les modèles est crucial. Quand les données utilisées pour l'entraînement ou le fonctionnement des modèles sont défaillantes, ça peut mener à des performances médiocres, pouvant influencer les décisions basées sur ces modèles. Cet article parle d'un système conçu pour valider les données dans les pipelines d'AA. L'objectif est d'empêcher les données défectueuses d'affecter les performances du modèle.

Importance de la validation des données

La validation des données aide à identifier et corriger les problèmes dans les ensembles de données avant qu'ils ne nuisent à la capacité du modèle de faire des prédictions précises. Les erreurs dans les données d'entrée peuvent inclure des valeurs incorrectes, des données manquantes ou d'autres incohérences. Comme les modèles d'AA sont souvent réentraînés fréquemment pour s'adapter à de nouvelles données, le besoin d'une validation efficace devient encore plus critique.

Défis de la validation des données

Un des principaux défis dans la validation des données est de détecter quand un ensemble de données est corrompu au point de justifier l'arrêt du réentraînement du modèle. Si les données sont bloquées trop souvent, le modèle d'AA peut ne pas être mis à jour assez fréquemment, menant à des performances obsolètes. À l'inverse, si le modèle se réentraine trop souvent sur des données corrompues, ça peut créer un cycle d'erreurs difficile à corriger.

Gérer de grands ensembles de données est un autre défi. Les données peuvent être très volumineuses, atteignant parfois des pétaoctets, et comporter des milliers de caractéristiques. Avec autant de caractéristiques, il est courant que certaines soient affectées par des bogues ou des erreurs qui doivent être détectées rapidement.

Approche de résumés de partition

Pour résoudre ces problèmes, une méthode appelée Résumé de Partition (RP) a été développée. Cette méthode consiste à résumer des sections de données, appelées partitions, avec des métriques pertinentes sur la qualité des données. En résumant ces partitions, il est plus facile de comparer les données actuelles avec les données historiques, ce qui aide à identifier rapidement s'il y a un problème.

Les bases du résumé de partition

  1. Partitionnement des données : Les données sont divisées en plus petites parties, ou partitions, basées sur le temps. Chaque partition pourrait représenter un jour ou toute autre période.

  2. Résumé des partitions : Chaque partition est évaluée à l'aide de diverses métriques de qualité des données. Cela permet des comparaisons efficaces entre les partitions actuelles et celles passées.

  3. Détection d'anomalies : En comparant les résumés de la partition actuelle avec ceux des partitions précédentes, il est possible d'identifier des anomalies qui pourraient indiquer une corruption.

Techniques de validation des données

Plusieurs techniques peuvent être utilisées pour valider les données dans le cadre du RP. Chaque technique a un but différent et peut être adaptée à diverses situations.

Vérifications de complétude

Cela implique de s'assurer que toutes les données nécessaires sont présentes. Si une caractéristique voit une chute significative dans sa complétude (c’est-à-dire la proportion de valeurs manquantes), cela pourrait déclencher une alerte.

Analyse statistique

Des mesures statistiques sont utilisées pour analyser la distribution des données dans les caractéristiques. Par exemple, la moyenne et l'écart type peuvent être surveillés. Si une nouvelle partition a des distributions qui diffèrent significativement de ce qui est attendu, cela pourrait indiquer des problèmes de données.

Détection des valeurs aberrantes

Identifier les valeurs aberrantes est important car elles peuvent affecter les performances globales des modèles d'AA. Différentes méthodes peuvent évaluer si des valeurs se situent en dehors des plages typiques. Si c'est le cas, cela pourrait signaler un problème qui nécessite une attention particulière.

Insights clés du système

Grâce à la mise en œuvre de ce système de validation des données, plusieurs insights importants ont été obtenus :

  1. Haute précision et rappel : Les systèmes de validation des données efficaces doivent produire des alertes précises sans submerger les utilisateurs avec de fausses alarmes. Une haute précision signifie que lorsqu'une alerte est déclenchée, elle est susceptible d'indiquer un véritable problème.

  2. Corrélation entre les caractéristiques : Dans de nombreux scénarios d'AA, les caractéristiques sont corrélées. Ainsi, traiter chaque caractéristique de manière indépendante peut entraîner de fausses alertes. Au lieu de cela, regrouper les caractéristiques en fonction de leurs relations aide à gérer les alertes.

  3. Les motifs temporels comptent : Les données peuvent se comporter différemment selon le moment où elles ont été collectées. Par exemple, certains événements peuvent provoquer des pics temporaires d'activité des utilisateurs, ce qui ne devrait pas déclencher d'alerte.

  4. Adaptation à différents modèles : Différents modèles d'AA ont des tolérances variables aux erreurs de données. Un système de validation doit s'adapter à ces différences pour être efficace dans diverses applications.

Application réelle : Étude de cas Instagram

Pour illustrer l'efficacité de l'approche de validation des données, une étude de cas a été réalisée en utilisant des données des pipelines d'AA d'Instagram. L'objectif était d'améliorer la détection des baisses de performances dans les modèles d'AA liés à des prédictions spécifiques, comme l'engagement des utilisateurs.

Caractéristiques du jeu de données

Les ensembles de données utilisés dans l'étude de cas comprenaient de nombreuses caractéristiques collectées sur différentes périodes. Chaque caractéristique représentait différents aspects de l'engagement des utilisateurs, comme les clics sur les médias. Les équipes voulaient s'assurer que tout problème de qualité dans les données pouvait être détecté avant d'affecter les performances du modèle.

Surveillance des baisses de performances

Un ensemble de critères spécifiques de défaillance a été établi pour surveiller la performance des modèles d'AA. Les critères incluaient :

  • Augmentations de la fonction de perte, qui mesure comment le modèle performe sur les prédictions.
  • Changements dans la calibration des prédictions, assurant que les probabilités de sortie s'alignent avec les occurrences réelles.
  • Diminutions des métriques d'engagement des utilisateurs, comme les taux de clics.

Résultats et conclusions

Le système de validation des données a efficacement identifié des cas où les modèles d'AA sous-performaient. Avec une meilleure précision dans les alertes, les ingénieurs pouvaient se concentrer sur de véritables problèmes sans être submergés par de faux positifs.

Conclusion

Une validation efficace des données est essentielle pour maintenir la performance des modèles d'apprentissage automatique, surtout dans des environnements de production comme Instagram. En mettant en œuvre l'approche de Résumé de Partition avec diverses techniques de validation, les équipes peuvent identifier et traiter proactivement les problèmes de qualité des données. Cela aide non seulement à améliorer la précision des modèles mais aussi à renforcer la fiabilité des processus décisionnels basés sur ces modèles.

La recherche et le perfectionnement continus de ces techniques de validation joueront un rôle clé dans l'avenir de l'apprentissage automatique, garantissant que les systèmes soient robustes face aux défis inévitables du travail avec des données du monde réel.

Source originale

Titre: Moving Fast With Broken Data

Résumé: Machine learning (ML) models in production pipelines are frequently retrained on the latest partitions of large, continually-growing datasets. Due to engineering bugs, partitions in such datasets almost always have some corrupted features; thus, it's critical to detect data issues and block retraining before downstream ML model accuracy decreases. However, it's difficult to identify when a partition is corrupted enough to block retraining. Blocking too often yields stale model snapshots in production; blocking too little yields broken model snapshots in production. In this paper, we present an automatic data validation system for ML pipelines implemented at Meta. We employ what we call a Partition Summarization (PS) approach to data validation: each timestamp-based partition of data is summarized with data quality metrics, and summaries are compared to detect corrupted partitions. We describe how we can adapt PS for several data validation methods and compare their pros and cons. Since none of the methods by themselves met our requirements for high precision and recall in detecting corruptions, we devised GATE, our high-precision and recall data validation method. GATE gave a 2.1x average improvement in precision over the baseline on a case study with Instagram's data. Finally, we discuss lessons learned from implementing data validation for Meta's production ML pipelines.

Auteurs: Shreya Shankar, Labib Fawaz, Karl Gyllstrom, Aditya G. Parameswaran

Dernière mise à jour: 2023-03-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.06094

Source PDF: https://arxiv.org/pdf/2303.06094

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires