Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle

Faire avancer le Process Mining avec la méthode PetriNet2Vec

Une nouvelle approche pour représenter et analyser les modèles de processus en utilisant des embeddings.

― 11 min lire


Process Mining avecProcess Mining avecPetriNet2Vecprocessus.meilleure analyse des modèles deDes embeddings innovants pour une
Table des matières

Le process mining est un domaine qui se concentre sur l'analyse et l'amélioration du fonctionnement des entreprises. Il utilise des données provenant de différents processus pour comprendre ce qui se passe, comment ça se passe, et où des améliorations peuvent être faites. Un outil utilisé dans le process mining est le réseau de Petri, qui est un modèle représentant comment les Tâches sont liées et comment elles évoluent dans le temps. Cependant, analyser et comparer des Réseaux de Petri complexes peut être difficile.

Pour aider avec ça, une nouvelle méthode appelée PetriNet2Vec a été développée. Cette méthode s'inspire du traitement du langage naturel (NLP) pour représenter les modèles de processus d'une manière plus facile à comparer et à analyser. Au lieu d'utiliser des méthodes traditionnelles qui peuvent avoir du mal avec la complexité, PetriNet2Vec utilise des Vecteurs d'embedding. Ces vecteurs sont des représentations numériques qui nous permettent de voir les similarités et les relations entre différents modèles de processus.

Défis des processus commerciaux modernes

Les processus commerciaux modernes sont souvent très complexes. Cette complexité rend difficile l'analyse complète avec des outils traditionnels. Beaucoup d'entreprises créent de grandes quantités de données, et il peut être difficile de trouver les motifs importants dans ces données qui pourraient mener à des améliorations.

Les techniques de découverte de processus aident en regardant les données d'événements pour voir les processus commerciaux réels tels qu'ils se produisent. Ces techniques construisent des modèles, comme les réseaux de Petri, qui capturent la séquence des tâches. Les réseaux de Petri sont utiles parce qu'ils aident à visualiser et à comprendre comment différentes tâches sont liées entre elles.

Pourtant, les techniques de process mining traditionnelles peuvent ne pas bien fonctionner avec les processus modernes. Elles peuvent avoir du mal avec le big data généré et ne pas révéler les motifs complexes trouvés dans les méthodes d'apprentissage automatique.

Qu'est-ce que les vecteurs d'embedding ?

Les vecteurs d'embedding sont une manière de représenter des objets ou des concepts comme des nombres dans un espace continu. Cette méthode est souvent utilisée dans des tâches de NLP, où les mots sont convertis en vecteurs. Les vecteurs d'embedding peuvent montrer à quel point différents éléments sont similaires ou différents dans un contexte donné.

Dans le process mining, les vecteurs d'embedding peuvent représenter efficacement les structures et les relations trouvées dans les modèles de processus. Par exemple, des tâches individuelles ou des réseaux de Petri entiers peuvent être convertis en vecteurs, ce qui aide à effectuer une analyse de similarité et une modélisation prédictive.

L'idée clé ici est de créer des représentations compactes, ou des embeddings, des réseaux de Petri et de leurs tâches. Cela simplifie des tâches comme la comparaison de processus ou la découverte de nouveaux motifs.

Énoncé du problème

Nous visons à apprendre une représentation numérique pour chaque modèle de processus, qui est stockée dans un format spécifique. Chaque représentation capture les relations entre les tâches séquentielles. En mesurant les similarités entre ces représentations, nous pouvons comparer différents modèles facilement.

De plus, nous voulons également créer une représentation pour chaque tâche au sein des modèles. Cela signifie que nous aurons une matrice où chaque ligne représente le vecteur d'embedding d'une tâche, capturant ses caractéristiques uniques.

Travaux connexes

Comparer les processus est important pour divers besoins commerciaux comme améliorer la performance et transférer des connaissances. Les techniques actuelles pour comparer les processus peuvent être regroupées en trois catégories principales : analyse comportementale, analyse structurelle et comparaison de tâches.

Les méthodes comportementales examinent l'ordre dans lequel les activités se produisent dans les journaux d'exécution, tandis que les méthodes structurelles analysent comment le modèle de processus est organisé en tant que graphique. La comparaison des tâches examine de plus près les relations entre les tâches individuelles.

Bien que la recherche existante ait fourni des outils utiles, il reste encore des limitations à adresser. Les méthodes comportementales peuvent ne pas bien fonctionner lorsque des noms différents sont utilisés pour des activités similaires, tandis que les méthodes structurelles peuvent avoir du mal avec de grands graphes. Les deux types de méthodes font également face à des problèmes dus à la complexité de la concurrence et des boucles dans les modèles de processus.

Apprentissage des embeddings avec Doc2Vec et Graph2Vec

La méthode doc2vec aide à apprendre des vecteurs d'embedding pour des documents et des mots individuels. En termes simples, elle peut prédire quel est un mot en fonction des mots qui l'entourent. Ce concept peut être étendu pour apprendre des embeddings pour les modèles de processus et leurs tâches.

Graph2vec est une autre méthode qui permet d'avoir des embeddings pour des représentations graphiques. Ici, chaque nœud dans le graphe peut être vu de manière similaire à un mot, et les connexions entre les nœuds servent de contexte.

En utilisant ces techniques, nous pouvons efficacement capturer les similarités entre les réseaux de Petri, les rendant très utiles pour diverses applications dans le process mining.

Algorithmes de clustering

Un objectif de cette étude est d'apprendre des embeddings pour chaque modèle de réseau de Petri et ensuite regrouper ceux-ci par similarité. Nous utilisons un algorithme de clustering appelé HDBSCAN, qui est bon pour reconnaître des clusters de différentes formes et tailles.

HDBSCAN ne nécessite pas de connaître le nombre de clusters à l'avance. Il peut bien gérer les données haute dimension, ce qui le rend adapté à nos vecteurs d'embedding. En utilisant la distance cosinus comme mesure de similarité, cet algorithme nous aide à regrouper efficacement des réseaux de Petri similaires.

Pour évaluer la qualité des clusters formés, nous pouvons utiliser le score Silhouette. Ce score nous dit à quel point chaque élément s'intègre bien dans son cluster, aidant à vérifier l'intégrité de notre approche de clustering.

Le jeu de données

La recherche utilise le PDC Dataset, qui contient 96 modèles de réseaux de Petri dans un format spécifique. Ce jeu de données a été créé avec différentes configurations qui varient selon une gamme de paramètres, y compris les dépendances de tâches et les types de boucles.

Chaque modèle est généré en utilisant des règles spécifiques qui déterminent comment les tâches sont connectées. Comprendre comment ces modèles sont construits est crucial pour notre méthodologie et aide à garantir que nous pouvons identifier des clusters de modèles similaires.

Méthodologie pour apprendre des embeddings de réseaux de Petri

Pour entraîner notre modèle, nous représentons chaque réseau de Petri à l'aide de paires de tâches. Nous visons à apprendre des embeddings pour les modèles et les tâches, chaque embedding portant des informations significatives sur leur structure.

L'entraînement ne nécessite pas de supervision ou de modèles étiquetés, ce qui en fait une méthode non supervisée. Pour améliorer la qualité des embeddings appris, nous appliquons un échantillonnage négatif, ce qui aide le modèle à mieux apprendre à partir des données.

Analyse de cluster

Dans notre analyse, nous avons reconnu que certaines tâches peuvent ne pas être spécifiées dans les modèles, ce qui pourrait affecter comment nous les étiquetons. Nous pouvons soit nommer toutes les tâches non spécifiées de la même manière, soit donner à chacune un identifiant unique.

Choisir comment construire le dictionnaire des tâches a un impact direct sur les vecteurs d'embedding résultants. En analysant les différences entre l'utilisation de noms uniques et un label générique pour les tâches non spécifiées, nous pouvons déterminer quelle approche donne de meilleurs clusters.

Les scores Silhouette calculés pour les deux méthodes indiquent que l'utilisation d'une approche plus simple produit des clusters de haute qualité. Ainsi, nous nous concentrons sur l'utilisation de conventions de nommage simples pour améliorer la qualité de nos embeddings.

Visualisation des clusters

Après avoir déterminé des tailles d'embedding appropriées et exécuté notre algorithme de clustering, il a été constaté que les modèles se regroupaient naturellement en neuf clusters. En utilisant des techniques de réduction de dimensionnalité, nous pouvons visualiser comment ces modèles sont regroupés.

Chaque point dans le nuage de points correspond à un modèle de processus, coloré pour représenter le cluster auquel il appartient. Cette représentation nous aide à voir à quel point les modèles sont bien séparés les uns des autres, bien qu'il soit à noter que cette vue en deux dimensions ne représente pas complètement les dimensions plus élevées d'origine.

En inspectant les clusters, nous avons trouvé des motifs clairs correspondant aux règles spécifiques utilisées pour générer les modèles. En utilisant des arbres de décision, nous pouvons identifier les caractéristiques communes et les règles partagées parmi les membres du cluster, démontrant que notre méthodologie capture efficacement les propriétés structurelles.

Expansion de l'analyse de cluster aux embeddings de tâches

En plus d'analyser les modèles, nous apprenons également des embeddings pour chaque tâche au sein des réseaux de Petri. L'application de l'algorithme HDBSCAN à ces embeddings de tâches révèle cinq clusters distincts.

Bien que les clusters pour les tâches soient de qualité légèrement inférieure, ils offrent tout de même des perspectives sur les relations entre les tâches au sein des modèles. Examiner la similarité des tâches à travers des matrices de distance met en évidence à quel point certaines tâches sont étroitement liées.

Bien que l'interprétation des tâches uniquement en fonction de leurs identifiants puisse être délicate, les motifs dans les embeddings nous aident à établir des connexions entre les différentes tâches et les relations au sein des processus.

Exemples de tâches en aval

Avec la méthodologie établie, nous pouvons appliquer les embeddings appris à diverses tâches en aval. Cela inclut la recherche de similarités, la classification des modèles, et plus encore.

Un exemple consiste à sélectionner un modèle et à trouver le plus similaire en fonction des vecteurs d'embedding. En comparant ces vecteurs, nous pouvons représenter visuellement les similitudes et les différences, ce qui est bénéfique pour les entreprises gérant de nombreux processus.

En analysant les clusters formés durant le processus d'embedding, nous pouvons également identifier des propriétés des modèles commerciaux étudiés. Cela peut aider les entreprises à mieux comprendre leurs processus et à les améliorer en fonction de ces informations.

Conclusion

En résumé, cette étude introduit une nouvelle manière de représenter les modèles de processus en utilisant des embeddings dérivés des réseaux de Petri. Inspirée par doc2vec, cette méthode nous permet de créer des embeddings vectoriels significatifs pour les modèles de processus et les tâches. Grâce à un entraînement approfondi, nous capturons efficacement la structure et les relations au sein des modèles.

En utilisant des techniques de clustering, nous identifions des motifs communs et les propriétés des modèles dans notre jeu de données, soutenant notre hypothèse sur la cohérence des clusters formés. La flexibilité des embeddings permet également diverses applications en aval, nous permettant d'obtenir des informations précieuses à partir des données.

Les travaux futurs se concentreront sur les applications réelles de cette méthodologie, visant à valider nos résultats dans des contextes commerciaux pratiques. De plus, nous prévoyons d'améliorer notre méthode en intégrant des relations et des dépendances de tâches plus complexes, ce qui pourrait améliorer encore la précision prédictive.

Source originale

Titre: Process Mining Embeddings: Learning Vector Representations for Petri Nets

Résumé: Process Mining offers a powerful framework for uncovering, analyzing, and optimizing real-world business processes. Petri nets provide a versatile means of modeling process behavior. However, traditional methods often struggle to effectively compare complex Petri nets, hindering their potential for process enhancement. To address this challenge, we introduce PetriNet2Vec, an unsupervised methodology inspired by Doc2Vec. This approach converts Petri nets into embedding vectors, facilitating the comparison, clustering, and classification of process models. We validated our approach using the PDC Dataset, comprising 96 diverse Petri net models. The results demonstrate that PetriNet2Vec effectively captures the structural properties of process models, enabling accurate process classification and efficient process retrieval. Specifically, our findings highlight the utility of the learned embeddings in two key downstream tasks: process classification and process retrieval. In process classification, the embeddings allowed for accurate categorization of process models based on their structural properties. In process retrieval, the embeddings enabled efficient retrieval of similar process models using cosine distance. These results demonstrate the potential of PetriNet2Vec to significantly enhance process mining capabilities.

Auteurs: Juan G. Colonna, Ahmed A. Fares, Márcio Duarte, Ricardo Sousa

Dernière mise à jour: 2024-07-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.17129

Source PDF: https://arxiv.org/pdf/2404.17129

Licence: https://creativecommons.org/publicdomain/zero/1.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires