Schnelles Voranbringen von Geschäftsprozesszuständen mit N-Gram-Indexierung
Eine neue Methode ermöglicht eine schnelle Zustandsberechnung von Geschäftsprozessen mithilfe von Ereignisprotokollen.
David Chapela-Campa, Marlon Dumas
― 6 min Lesedauer
Inhaltsverzeichnis
Das Verständnis des aktuellen Stands der Geschäftsprozesse ist super wichtig, um die Abläufe effektiv zu managen. In diesem Artikel wird eine Methode vorgestellt, um schnell den Status laufender Fälle in einem Geschäftsprozess anhand von Informationen aus Ereignisprotokollen herauszufinden. Dieser Prozess kann entscheidend sein für Anwendungen wie Protokollanimation und kurzfristige Simulationen.
Das Problem
Wenn man ein Prozessmodell und eine Reihe von Ereignisprotokollen hat, die laufende Fälle zeigen, ist die grösste Herausforderung, jeden Fall mit seinem Status im Modell abzugleichen. Zu wissen, wo jeder laufende Fall steht, kann nützlich sein, zum Beispiel, wenn man das Protokoll visuell darstellt oder simuliert, wie der Rest des Prozesses ablaufen wird.
Eine gängige Methode, um den Status eines Prozesses zu berechnen, ist ein Verfahren namens tokenbasiertes Replay. Bei diesem Ansatz simulieren wir die Ausführung des Prozesses mit Hilfe von Token. Jedes Token steht für eine Instanz einer Aktivität, die gemäss den Regeln des Prozesses voranschreitet. Wenn jedoch das Ereignisprotokoll nicht perfekt mit dem Prozessmodell übereinstimmt, kann die Nutzung des Token-Replays zu falschen Zuständen führen, die vom Startpunkt aus nicht erreichbar sind.
Eine andere Methode besteht darin, zuerst die Spur jedes Falls mit dem Modell abzugleichen. Dieses Abgleichen ist jedoch oft langsam und ressourcenintensiv.
Eine neue Methode vorgeschlagen
Anstelle dieser traditionellen Methoden wird ein neuer Ansatz vorgeschlagen. Diese Methode nutzt ein Konzept namens n-gram-Indexierung, das es ermöglicht, den Status eines laufenden Falls schnell und in konstanter Zeit zu berechnen.
Die Idee ist ziemlich einfach: Die letzten paar Aktivitäten, die in einem laufenden Fall abgeschlossen wurden, geben oft genug Information, um den aktuellen Status zu bestimmen. Indem man ein Diagramm erstellt, das alle möglichen Zustände des Prozesses zeigt und einen Index erstellt, der die Sequenzen von Aktivitäten mit diesen Zuständen verknüpft, kann die Methode den Status eines laufenden Falls effizient finden, wenn er benötigt wird.
So funktioniert's
Generierung des Erreichbarkeitsdiagramms: Der erste Schritt besteht darin, ein Erreichbarkeitsdiagramm für das Prozessmodell zu erstellen. Dieses Diagramm zeigt alle möglichen Zustände des Prozesses und wie Aktivitäten von einem Zustand in einen anderen übergehen. Das Diagramm wird erstellt, indem man den Regeln des Prozesses folgt und die erreichten Zustände nachverfolgt.
Erstellung des n-Gramm-Indexes: Sobald das Erreichbarkeitsdiagramm erstellt ist, besteht der nächste Schritt darin, den n-Gramm-Index zu erstellen. Dieser Index verbindet Sequenzen von kürzlich durchgeführten Aktivitäten (genannt n-Gramme) mit den Zuständen, zu denen sie führen. Diese Indexierung erfolgt offline, was bedeutet, dass sie im Voraus vorbereitet und für einen schnellen Zugriff später gespeichert werden kann.
Online-Zustandsberechnung: Wenn der Status eines laufenden Falls berechnet werden muss, überprüft die Methode den n-Gramm-Index für die letzten paar durchgeführten Aktivitäten. Wenn die genaue Endsequenz nicht gefunden wird, versucht die Methode kürzere Sequenzen, bis sie einen Treffer findet. Das ermöglicht eine schnelle Zustandsermittlung.
Wichtigkeit der Methode
Diese neue Methode verspricht mehrere Vorteile gegenüber traditionellen Ansätzen:
Geschwindigkeit: Der Hauptvorteil ist die Geschwindigkeit, mit der der Status berechnet werden kann. Durch die Verwendung der n-Gramm-Indexierung erfolgt die Berechnung in konstanter Zeit, was viel schneller ist als andere Methoden, die längere Zeit in Anspruch nehmen können, je nach Komplexität des Falls oder der Anzahl der beteiligten Aktivitäten.
Genauigkeit: Der n-Gramm-Ansatz ist darauf ausgelegt, auch in Szenarien effektiv zu arbeiten, in denen es einige Störungen in den Daten gibt – also wenn die erfassten Informationen möglicherweise nicht perfekt mit dem erwarteten Prozess übereinstimmen. Das ist wichtig für reale Anwendungen, in denen häufig Abweichungen auftreten.
Skalierbarkeit: Wenn Unternehmen wachsen und die Anzahl der Fälle und Aktivitäten zunimmt, kann diese Methode effektiv Tausende von Fällen pro Sekunde verarbeiten, was sie gut für Umgebungen mit hoher Nachfrage geeignet macht.
Experimentelle Bewertung
Um die Wirksamkeit dieser Methode zu bewerten, wurden verschiedene Evaluierungen durchgeführt. Die Bewertung hatte drei Hauptziele:
- Zu prüfen, ob sie die bekannten Zustände laufender Fälle korrekt berechnen konnte.
- Die Genauigkeit in realen Situationen zu bewerten, in denen der Status der Prozesse oft unbekannt ist.
- Zu testen, ob die Methode auch bei hohen Lasten eine hohe Durchsatzrate aufrechterhalten kann.
Synthesevaluation
In der ersten Testreihe wurden synthetische Ereignisprotokolle erstellt, um Fälle mit bekannten Ergebnissen zu simulieren. Verschiedene Komplexitätsgrade und mögliche Störungen wurden zu diesen Szenarien hinzugefügt, um zu sehen, wie gut die Methode unter unterschiedlichen Bedingungen abschneidet.
Die Ergebnisse zeigten, dass die vorgeschlagene Methode den Status der Fälle genau bestimmen konnte, als es keine Störungen gab. Selbst als Störungen eingeführt wurden, hielt die Methode ein Genauigkeitsniveau, das besser war als bei Methoden, die traditionelles Token-Replay oder Präfixabgleichstechniken verwendeten.
Realevaluation
In einer anderen Testreihe wurden tatsächliche Ereignisprotokolle aus verschiedenen Geschäftsprozessen analysiert. Hier konnte die Genauigkeit der Methode nicht direkt gemessen werden, da die „Grundwahrheit“ für die Zustände unbekannt war. Stattdessen konzentrierte sich die Bewertung darauf, ob der berechnete Status die nächste aufgezeichnete Aktivität im Prozess ermöglichen konnte.
Wieder zeigten die Ergebnisse eine starke Leistung, wobei die n-Gramm-Indexierungsmethode oft besser abschnitt als andere traditionelle Techniken. Sie konnte grosse Datensätze viel schneller verarbeiten als tokenbasierte Replay-Methoden.
Fazit
Zusammenfassend lässt sich sagen, dass der neue Ansatz, die n-Gramm-Indexierung zur Berechnung des Status laufender Fälle aus Ereignisprotokollen zu verwenden, eine schnelle und effiziente Möglichkeit bietet, Geschäftsprozesse zu verwalten und zu überwachen. Durch die Nutzung der letzten paar Aktivitäten in einem Fall bietet diese Methode nicht nur Geschwindigkeit, sondern auch Genauigkeit bei der Vorhersage des aktuellen Status eines Prozesses.
Diese Arbeit eröffnet Möglichkeiten für weitere Forschung zu potenziellen Verbesserungen, wie z.B. die Suche nach partiellen Übereinstimmungen im n-Gramm-Index, was die Ergebnisse noch weiter verbessern könnte, wenn keine exakten Übereinstimmungen gefunden werden. Darüber hinaus könnte die Integration dieser Methoden in bestehende Geschäftsrahmen die Fähigkeit zur Überwachung und Anpassung von Abläufen in Echtzeit erheblich verbessern.
Am Ende könnte diese Methode eine Vielzahl von Branchen profitieren, indem sie zeitnahe Einblicke in laufende Abläufe ermöglicht und damit eine bessere Entscheidungsfindung und effizientere Prozessverwaltung unterstützt.
Titel: Efficient Online Computation of Business Process State From Trace Prefixes via N-Gram Indexing
Zusammenfassung: This paper addresses the following problem: Given a process model and an event log containing trace prefixes of ongoing cases of a process, map each case to its corresponding state (i.e., marking) in the model. This state computation operation is a building block of other process mining operations, such as log animation and short-term simulation. An approach to this state computation problem is to perform a token-based replay of each trace prefix against the model. However, when a trace prefix does not strictly follow the behavior of the process model, token replay may produce a state that is not reachable from the initial state of the process. An alternative approach is to first compute an alignment between the trace prefix of each ongoing case and the model, and then replay the aligned trace prefix. However, (prefix-)alignment is computationally expensive. This paper proposes a method that, given a trace prefix of an ongoing case, computes its state in constant time using an index that represents states as n-grams. An empirical evaluation shows that the proposed approach has an accuracy comparable to that of the prefix-alignment approach, while achieving a throughput of hundreds of thousands of traces per second.
Autoren: David Chapela-Campa, Marlon Dumas
Letzte Aktualisierung: 2024-09-09 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.05658
Quell-PDF: https://arxiv.org/pdf/2409.05658
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.bpmn.org/
- https://www.sciencedirect.com/science/article/pii/S0306437913001695?via
- https://data.4tu.nl/
- https://doi.org/10.4121/uuid:d9769f3d-0ab0-4fb8-803b-0d1120ffcf54
- https://doi.org/10.4121/uuid:31a308ef-c844-48da-948c-305d167a0ec1
- https://doi.org/10.4121/uuid:270fd440-1057-4fb9-89a9-b699b47990f5
- https://doi.org/10.4121/uuid:a7ce5c55-03a7-4583-b855-98b86e1a2b07
- https://doi.org/10.4121/uuid:3926db30-f712-4394-aebc-75976070e91f
- https://doi.org/10.4121/uuid:86977bac-f874-49cf-8337-80f26bf5d2ef
- https://doi.org/10.4121/uuid:5f3067df-f10b-45da-b98b-86ae4c7a310b
- https://doi.org/10.4121/uuid:3301445f-95e8-4ff0-98a4-901f1f204972
- https://doi.org/10.4121/uuid:d06aff4b-79f0-45e6-8ec8-e19730c248f1
- https://doi.org/10.4121/uuid:52fb97d4-4588-43c9-9d04-3604d4613b51
- https://doi.org/10.4121/uuid:915d2bfb-7e84-49ad-a286-dc35f063a460
- https://github.com/AutomatedProcessImprovement/process-running-state/tree/IEEETSC
- https://zenodo.org/doi/10.5281/zenodo.11409896