Améliorer la qualité des données avec Desbordante
Desbordante est un outil open-source pour un profilage de données efficace et une amélioration de la qualité.
― 7 min lire
Table des matières
La qualité des données est super importante aujourd'hui où les décisions se basent souvent sur les données. S'assurer que les données sont précises et fiables est un gros défi pour beaucoup d'entreprises. Une façon de relever ce défi, c'est le data profiling, qui consiste à analyser les ensembles de données pour identifier et comprendre leurs caractéristiques. Cet article parle d'un nouvel outil open-source appelé Desbordante, qui aide à améliorer la qualité des données en s'attaquant à diverses tâches de data profiling.
Qu'est-ce que le Data Profiling ?
Le data profiling est le processus d'examen et d'analyse des données. Ça permet aux utilisateurs d'identifier les problèmes de qualité des données et de comprendre les structures sous-jacentes des données. Une partie clé du data profiling est l'extraction des Métadonnées, qui sont des informations décrivant les données elles-mêmes. Ces métadonnées peuvent prendre différentes formes, comme compter le nombre de lignes ou de colonnes dans un ensemble de données, vérifier les valeurs manquantes ou trouver des motifs dans les données.
Il existe plein d'outils pour le data profiling, chacun avec ses propres méthodes et approches. Cependant, tous les outils ne fournissent pas le même niveau de détail ou d'efficacité. Certains outils se concentrent sur des métadonnées faciles à extraire, tandis que d'autres essaient de capturer des infos plus complexes.
Défis des Outils de Data Profiling Actuels
Beaucoup d'outils de data profiling existants manquent d'intégration avec les outils utilisés par les data scientists. Ça veut dire que, même s'ils peuvent apporter des insights précieux, ils ne sont pas largement adoptés dans l'industrie. Souvent, ces outils de profiling étaient conçus pour des ensembles de données plus petits et galèrent quand il s'agit de charges de travail plus grandes, de niveau industriel.
En plus, beaucoup d'outils n'expliquent pas pourquoi un motif spécifique peut manquer dans les données. Comprendre les raisons derrière l'absence de ces motifs est essentiel pour prendre des décisions éclairées. Sans cette vision, les utilisateurs peuvent avoir du mal à appliquer les résultats du profiling aux problèmes du monde réel.
Présentation de Desbordante
Desbordante est un outil de data profiling open-source conçu pour relever ces défis. Il vise à améliorer la qualité des données en offrant des capacités de profiling efficaces, évolutives et fiables. L'outil est construit pour gérer de grands ensembles de données et s'intègre parfaitement avec Python, ce qui facilite son incorporation dans les flux de travail des utilisateurs.
Desbordante prend en charge des tâches complexes de data profiling, comme la détection de fautes de frappe, la Dé-duplication des données et la Détection d'anomalies. En se concentrant sur ces domaines, Desbordante aide les utilisateurs à identifier et résoudre les problèmes courants de qualité des données.
Caractéristiques Clés de Desbordante
1. Efficacité et Performance
Desbordante est construit en C++, ce qui le rend plus rapide et plus efficace que beaucoup d'outils existants. Les algorithmes de base sont optimisés pour réduire la consommation de mémoire et améliorer la performance. C'est crucial, car beaucoup de tâches de data profiling peuvent être gourmandes en ressources.
2. Interfaces Utilisateur Conviviales
Desbordante propose plusieurs interfaces utilisateur, y compris une application web, une interface console et une bibliothèque Python. Cette flexibilité permet aux utilisateurs de choisir l'interface qui correspond le mieux à leurs besoins. La bibliothèque Python est particulièrement utile pour les data scientists, car elle permet une intégration avec des bibliothèques de gestion de données populaires comme Pandas.
3. Explicabilité des Résultats
Une des caractéristiques qui démarquent Desbordante est son focus sur l'explicabilité. L'outil ne fournit pas seulement des résultats, mais donne aussi des insights sur pourquoi certains motifs peuvent ou non exister dans les données. C'est important pour les utilisateurs qui doivent comprendre les raisons sous-jacentes des problèmes de qualité des données.
Scénarios de Démonstration
Pour montrer ses capacités, Desbordante propose plusieurs scénarios de démonstration qui mettent en avant sa fonctionnalité pour résoudre des problèmes courants de qualité des données.
Scénario 1: Détection de Fautes de Taper
Un problème courant dans les données, ce sont les fautes de frappe. Le premier scénario dans Desbordante se concentre sur la détection de ces erreurs. Le processus commence par l'identification des dépendances fonctionnelles dans les données. Une fois les dépendances potentielles trouvées, les utilisateurs peuvent explorer des clusters où les relations ne tiennent pas. Ces clusters peuvent indiquer la présence de fautes de frappe, permettant aux utilisateurs de nettoyer les données efficacement.
Scénario 2: Dé-duplication des Données
Les enregistrements dupliqués peuvent causer des problèmes importants dans l'analyse des données. Le deuxième scénario aborde la dé-duplication des données en découvrant des dépendances fonctionnelles approximatives. L'utilisateur sélectionne un ensemble d'attributs et l'outil organise les données, permettant d'identifier les doublons. Ce processus repose sur l'entrée de l'utilisateur, garantissant que les résultats finaux correspondent aux attentes de l'utilisateur.
Scénario 3: Détection d'Anomalies
Le troisième scénario met en avant l'importance de l'exploration des données et de la validation des insights. Les utilisateurs peuvent analyser des connaissances antérieures et les comparer à de nouveaux partitions de données. En fouillant pour des dépendances fonctionnelles, l'utilisateur peut identifier des changements dans l'ensemble de données qui pourraient indiquer des anomalies. Ça nécessite un utilisateur averti qui peut définir des paramètres appropriés pour l'analyse, garantissant des résultats précis.
Interface Utilisateur Web
L'interface web de Desbordante permet des interactions riches et une navigation facile. Les utilisateurs peuvent parcourir les motifs de données découverts et explorer divers paramètres dans un environnement convivial. Cette interface simplifie le processus de configuration des tâches et fournit des explications claires des résultats.
Caractéristiques de l'Interface Web
Navigation des Instances Primitive: Les utilisateurs peuvent voir et trier les instances de motifs de données découverts, facilitant l'analyse des résultats.
Ajustement des Paramètres: L'interface web propose un moyen simplifié d'ajuster les réglages et paramètres pour les tâches de data profiling. C'est particulièrement utile pour les utilisateurs qui ne sont pas à l'aise avec les interfaces de ligne de commande.
Écrans d'Explication: Desbordante fournit des explications détaillées sur pourquoi certains motifs de données tiennent ou ne tiennent pas, aidant les utilisateurs à mieux comprendre leurs données.
Scénarios Interactifs: Certaines tâches peuvent être réalisées directement dans l'interface web, permettant aux utilisateurs de manipuler les données et de visualiser les résultats en temps réel.
Conclusion
Desbordante est un outil prometteur pour quiconque cherche à améliorer la qualité des données grâce à un data profiling efficace. Son attention sur la performance, l'explicabilité et la convivialité en fait un ajout précieux à la boîte à outils des data scientists et analystes. En résolvant des problèmes courants de qualité des données, Desbordante peut aider les organisations à prendre de meilleures décisions basées sur les données.
Titre: Solving Data Quality Problems with Desbordante: a Demo
Résumé: Data profiling is an essential process in modern data-driven industries. One of its critical components is the discovery and validation of complex statistics, including functional dependencies, data constraints, association rules, and others. However, most existing data profiling systems that focus on complex statistics do not provide proper integration with the tools used by contemporary data scientists. This creates a significant barrier to the adoption of these tools in the industry. Moreover, existing systems were not created with industrial-grade workloads in mind. Finally, they do not aim to provide descriptive explanations, i.e. why a given pattern is not found. It is a significant issue as it is essential to understand the underlying reasons for a specific pattern's absence to make informed decisions based on the data. Because of that, these patterns are effectively rest in thin air: their application scope is rather limited, they are rarely used by the broader public. At the same time, as we are going to demonstrate in this presentation, complex statistics can be efficiently used to solve many classic data quality problems. Desbordante is an open-source data profiler that aims to close this gap. It is built with emphasis on industrial application: it is efficient, scalable, resilient to crashes, and provides explanations. Furthermore, it provides seamless Python integration by offloading various costly operations to the C++ core, not only mining. In this demonstration, we show several scenarios that allow end users to solve different data quality problems. Namely, we showcase typo detection, data deduplication, and data anomaly detection scenarios.
Auteurs: George Chernishev, Michael Polyntsov, Anton Chizhov, Kirill Stupakov, Ilya Shchuckin, Alexander Smirnov, Maxim Strutovsky, Alexey Shlyonskikh, Mikhail Firsov, Stepan Manannikov, Nikita Bobrov, Daniil Goncharov, Ilia Barutkin, Vladislav Shalnev, Kirill Muraviev, Anna Rakhmukova, Dmitriy Shcheka, Anton Chernikov, Mikhail Vyrodov, Yaroslav Kurbatov, Maxim Fofanov, Sergei Belokonnyi, Pavel Anosov, Arthur Saliou, Eduard Gaisin, Kirill Smirnov
Dernière mise à jour: 2023-07-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.14935
Source PDF: https://arxiv.org/pdf/2307.14935
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.acm.org/publications/proceedings-template
- https://doi.org/
- https://creativecommons.org/licenses/by-nc-nd/4.0/
- https://github.com/Mstrutov/Desbordante
- https://desbordante.unidata-platform.ru/streamlit
- https://colab.research.google.com/drive/1h5mQAIIxSb6Sgc_Ep8AYZlgt4BGXN6A9
- https://colab.research.google.com/drive/1zX2OLX3K-XKw-Nz7e9YOUSGFt_shiNAC
- https://colab.research.google.com/drive/1hgF8idXi1-U4ZOR0fAmdbfbhltgEJecR
- https://desbordante.unidata-platform.ru/