Simple Science

La science de pointe expliquée simplement

# Statistiques# Méthodologie

Techniques avancées pour combler les valeurs manquantes dans les données de séries temporelles

Utiliser la complétion de matrices pour améliorer la précision des données de séries temporelles.

Thomas Poudevigne, Owen Jones

― 9 min lire


Améliorer les techniquesAméliorer les techniquesd'imputation de sériestemporellesmanquantes.précision dans la gestion des valeursLa complétion de matrice améliore la
Table des matières

Les données de séries chronologiques se réfèrent à des points de données collectés ou enregistrés à des intervalles de temps spécifiques. Des exemples incluent les relevés de température quotidiens ou les prix des actions sur un mois. Souvent, ces ensembles de données peuvent avoir des valeurs manquantes à cause de divers facteurs comme des pannes d'équipement ou des problèmes d'enregistrement de données. Quand ça arrive, ça complique l'analyse parce que les valeurs manquantes peuvent affecter la compréhension globale des tendances et des modèles dans les données.

Le Concept d’Imputation

L’imputation est une technique utilisée pour remplir les valeurs manquantes dans un ensemble de données. L’objectif est d’estimer ce que pourraient être les valeurs manquantes en se basant sur les données existantes. Il existe plusieurs méthodes d’imputation, et le choix de la méthode peut avoir un impact significatif sur la qualité des résultats. Certaines techniques d’imputation courantes incluent l'interpolation linéaire, l'interpolation par spline, et les moyennes mobiles. Chaque méthode a ses forces et ses faiblesses, et elles peuvent performer différemment selon la nature des données.

Introduction de la Complétion de Matrice pour l’Imputation des Séries Chronologiques

La complétion de matrice est une méthode avancée qui propose une approche différente pour gérer les données manquantes, surtout dans les séries chronologiques. Dans cette méthode, on représente les données de séries chronologiques sous forme de matrice. L’idée est de tirer parti des relations au sein des données pour prédire les valeurs manquantes. En se concentrant sur certains modèles (ou structures) dans les données, on peut obtenir de meilleurs résultats d’imputation.

Dans notre cas, on examine spécifiquement un type de matrice connue sous le nom de matrice block-Hankel. Cette structure est particulièrement utile pour les données de séries chronologiques car elle aide à capturer les relations temporelles entre les points de données.

Comparaison des Méthodes d’Imputation

Pour évaluer l’efficacité de la méthode de complétion de matrice, nous avons réalisé des simulations. Nous l’avons comparée à cinq techniques d’imputation établies. Chaque méthode a été testée dans divers scénarios avec différentes quantités de données manquantes. Les résultats ont été évalués en fonction de leur capacité à recréer les données de séries chronologiques originales, en se concentrant sur deux aspects principaux : les tendances et le bruit.

Les tendances font référence au mouvement à long terme dans les données, tandis que le bruit capture les fluctuations à court terme. Il est important qu’une méthode d’imputation soit capable de traiter efficacement ces deux composants.

Comment Fonctionne la Matrice Block-Hankel

Pour utiliser la complétion de matrice pour l’imputation, nous transformons d’abord nos données de séries chronologiques en une matrice block-Hankel. Cette matrice est construite en organisant les valeurs de séries chronologiques en lignes et en colonnes selon un retard prédéterminé (une façon d’indiquer combien de temps en arrière considérer les points de données liés). Ce faisant, on crée une représentation structurée des données qui nous permet d’appliquer des techniques de complétion de matrice.

L’hypothèse ici est que la matrice complétée aura probablement un rang bas, ce qui signifie que les relations entre les points de données peuvent être capturées de manière succincte. L’objectif est de remplir les entrées manquantes de la matrice tout en maintenant sa structure inhérente.

Le Défi des Données Manquantes

Un des problèmes clés avec les données manquantes est que les points manquants ne sont souvent pas aléatoires. Dans notre cas, les valeurs manquantes sont influencées par leur position dans le temps, ce qui signifie qu’elles ne sont pas éparpillées dans l’ensemble de données. Cette caractéristique pose un défi supplémentaire pour les méthodes d’imputation conventionnelles, qui peuvent supposer que les valeurs manquantes sont distribuées aléatoirement.

Abordant les Défis

Dans la pratique, nous utilisons une technique mathématique appelée relaxation de Norme Nucléaire pour s’attaquer au problème de la complétion de matrice. Cette méthode consiste à minimiser une fonction mathématique spécifique qui tient compte de la structure de notre matrice block-Hankel. En utilisant cette approche, nous pouvons estimer efficacement les valeurs manquantes en fonction des relations dans les données.

La norme nucléaire est un outil utile parce qu’elle aide à relâcher le problème, rendant la résolution plus facile tout en fournissant des estimations suffisamment précises des valeurs manquantes. Pour résoudre le problème, nous transformons notre tâche de complétion de matrice en un problème de programmation semi-défini, ce qui nous permet d’appliquer des algorithmes d’optimisation existants.

Tester la Méthode

Pour valider notre méthode, nous l’avons appliquée à trois ensembles de données différents : deux séries chronologiques artificielles et un ensemble de données du monde réel lié aux niveaux de SARS-CoV-2 dans les eaux usées à travers différentes régions. Chaque ensemble de données a été manipulé pour créer divers scénarios avec des données manquantes, nous permettant d’évaluer l’imputation de manière approfondie.

Pour les expériences, nous avons retiré entre 10% et 70% des points de données de manière aléatoire tout en maintenant les relations dans les données intactes. Cette suppression systématique visait à nous aider à comprendre comment la méthode d’imputation faisait face à des quantités croissantes de données manquantes.

Mesurer la Performance

Plutôt que de se fier uniquement à l’erreur quadratique moyenne, nous avons opté pour deux mesures de performance spécifiques : le Score de Tendance et le Score de bruit. Le Score de Tendance évalue à quel point les données imputées capturent les modèles sous-jacents dans le temps, tandis que le Score de Bruit évalue la capacité de la méthode à refléter les fluctuations erratiques à court terme dans les données.

Ces scores nous donnent des indicateurs clairs sur la performance de notre méthode d’imputation dans différents aspects, permettant une compréhension plus nuancée de ses forces et faiblesses.

Ajuster les Paramètres pour une Performance Optimale

Dans notre méthode, nous avons identifié deux paramètres clés qui nécessitent un réglage : le retard utilisé pour la matrice block-Hankel et le niveau de tolérance pendant le processus d’optimisation. En ajustant ces paramètres, nous avons cherché à trouver la combinaison qui offrait la meilleure performance pour l’imputation.

Par exemple, nous avons trouvé qu’utiliser un retard spécifique entraînait une performance plus équilibrée, surtout dans le contexte des ensembles de données que nous avons analysés. Un autre aspect que nous avons observé est que des valeurs de tolérance plus petites produisaient souvent de meilleurs résultats d’imputation, mais augmentaient également le temps de calcul nécessaire pour obtenir ces résultats.

L’Impact de la Taille des Blocs

Lorsque l’on traite des ensembles de données plus volumineux, le temps nécessaire pour effectuer des calculs peut augmenter considérablement. Pour atténuer cela, nous avons envisagé de diviser les données en blocs plus petits et d’appliquer la méthode d’imputation à chaque bloc séparément. Cette approche a aidé à réduire les coûts computationnels mais nécessitait un compromis en termes de performance.

Tester cette approche par blocs a révélé que, bien qu’elle soit efficace, elle pouvait entraîner une baisse de performance, surtout lorsqu’il s’agissait de données de séries chronologiques plus complexes avec un niveau élevé de données manquantes.

Résultats et Conclusions

Une fois la méthode d’imputation appliquée et la performance évaluée, nous avons trouvé des résultats prometteurs. La méthode de matrice block-Hankel a montré une performance compétitive pour remplir les valeurs manquantes, en particulier pour les ensembles de données avec des pics ou des fluctuations distinctes. Visuellement, la méthode semblait efficace pour capturer les tendances globales et le bruit à court terme dans les données.

En résumé, bien que les méthodes traditionnelles aient souvent du mal à gérer des pics prononcés ou des changements soudains dans les données de séries chronologiques, notre technique de complétion de matrice a démontré une capacité notable à fournir des estimations raisonnables pour les valeurs manquantes. Cette capacité est particulièrement utile pour les ensembles de données qui montrent des changements soudains ou nécessitent un haut niveau de précision dans l’imputation.

Conclusion

L’utilisation des méthodes de complétion de matrice, en particulier à travers la représentation de matrice block-Hankel, offre une approche convaincante pour traiter les données manquantes dans les séries chronologiques. Les résultats prometteurs et la performance compétitive de la méthode d’Imputation Hankel suggèrent qu’elle peut efficacement restaurer les valeurs manquantes tout en capturant les tendances sous-jacentes et le bruit dans les données. À mesure que nous continuons à explorer cette méthode, elle détient un potentiel pour diverses applications, notamment dans des domaines où une analyse des données précise et rapide est cruciale.

Articles similaires