Neuer Massstab für BPM: Über Automatisierung hinaus
Dieses Benchmark bewertet multimodale Modelle bei BPM-Aufgaben wie Dokumentation und Verbesserung.
― 7 min Lesedauer
Inhaltsverzeichnis
- Die Bedeutung der Dokumentation in BPM
- Einführung des neuen Benchmarks
- Der Datensatz: Ein näherer Blick
- Die sechs BPM-Aufgaben
- Ergebnisse: Was wir herausgefunden haben
- Die Rolle der multimodalen Modelle
- Zukünftige Richtungen
- Einschränkungen und Überlegungen
- Die gesellschaftliche Auswirkung von BPM-Tools
- Fazit
- Originalquelle
- Referenz Links
In der heutigen schnelllebigen Geschäftswelt sind Unternehmen auf effiziente Arbeitsabläufe angewiesen, um Dinge zu erledigen. Business Process Management (BPM) ist eine Praxis, die Organisationen hilft, diese Arbeitsabläufe zu dokumentieren, zu messen, zu verbessern und zu automatisieren. Während die Technologie schnell voranschreitet, haben sich Forscher in erster Linie auf nur einen Aspekt von BPM konzentriert: die vollständige Automatisierung. Allerdings wird in BPM-Projekten viel Zeit mit der Dokumentation des Arbeitsablaufs selbst verbracht, was einen erheblichen Teil der Arbeit ausmacht.
Dieser Artikel behandelt einen neuen Benchmark, der dazu entwickelt wurde, zu bewerten, wie gut multimodale Modelle verschiedene BPM-Aufgaben bewältigen können, und nicht nur die Automatisierung. Zu diesen Aufgaben gehören die Dokumentation von Arbeitsabläufen, der Wissenstransfer darüber und die Verbesserung derselben.
Die Bedeutung der Dokumentation in BPM
Wenn ein Unternehmen einen Arbeitsablauf verbessern möchte, fängt es oft damit an, zu dokumentieren, wie die Dinge derzeit gemacht werden. Dieser Dokumentationsprozess kann viel Zeit in Anspruch nehmen, und Forschungsergebnisse zeigen, dass er etwa 60 % der Gesamtzeit eines BPM-Projekts ausmachen kann. Wenn wir diesen entscheidenden Teil ignorieren, verpassen wir Chancen, nützliche Werkzeuge für Unternehmen zu schaffen.
Bestehende Benchmarks im Bereich maschinelles Lernen übersehen oft diese Dokumentationsaufgaben und konzentrieren sich hauptsächlich auf die Automatisierung. Infolgedessen gibt es einen Mangel an vielfältigen Datensätzen, die den notwendigen Kontext und die Details bieten, um zu bewerten, wie gut Modelle in realen Situationen abschneiden können.
Einführung des neuen Benchmarks
Um diese Lücke zu schliessen, führen wir einen neuen Benchmark ein, der speziell zur Bewertung von multimodalen Modellen bei verschiedenen BPM-Aufgaben dient. Unser Benchmark besteht aus drei Hauptkomponenten:
Ein Datensatz: Wir haben einen Datensatz mit 2.928 Beispielen erstellt, wie Menschen Arbeitsabläufe abgeschlossen haben. Diese Beispiele stammen aus realen Anwendungen und umfassen Videoaufzeichnungen, Aktionsprotokolle und schriftliche Anleitungen.
Neue BPM-Aufgaben: Wir haben sechs neue Aufgaben entwickelt, die die Fähigkeit eines Modells bewerten, nicht nur Arbeitsabläufe zu automatisieren, sondern sie auch genau zu dokumentieren, beim Wissenstransfer zu helfen und Verbesserungsmöglichkeiten zu identifizieren.
Automatisierte Bewertung: Wir haben automatisierte Bewertungswerkzeuge eingerichtet, um die Leistung des Modells in diesen Aufgaben zu bewerten.
Durch unseren Benchmark hoffen wir, die Entwicklung von Werkzeugen zu motivieren, die menschliche Arbeiter unterstützen, anstatt sie zu ersetzen.
Der Datensatz: Ein näherer Blick
Der Datensatz, den wir erstellt haben, enthält viele menschliche Demonstrationen von Arbeitsabläufen. Jede Demonstration besteht aus:
- Einem Ziel: Eine kurze Beschreibung des durchgeführten Arbeitsablaufs.
- Einer Aufzeichnung: Ein vollständiges Video, das zeigt, wie der Arbeitsablauf ausgeführt wurde.
- Einem Aktionsprotokoll: Ein detailliertes Protokoll aller durchgeführten Aktionen, wie Klicks und Tastatureingaben.
- Screenshots: Schlüsselbilder aus dem Video, die wichtige Momente veranschaulichen.
- Einem Standardarbeitsverfahren (SOP): Eine schriftliche Schritt-für-Schritt-Anleitung, die die während der Demonstration durchgeführten Aktionen umreisst.
Darüber hinaus haben wir 162 Arbeitsabläufe in einer speziellen Sammlung "Gold Tasks", die besondere Aufmerksamkeit erhielten, um hohe Qualität sicherzustellen.
Die sechs BPM-Aufgaben
Wir haben sechs BPM-Aufgaben entworfen, die drei Schlüsselbereiche abdecken: Dokumentation, Wissenstransfer und Verbesserung.
1. Dokumentationsaufgaben
SOP-Erstellung: Das Ziel ist es, eine schriftliche Anleitung zu erstellen, die alle Schritte zusammenfasst, die in einer Arbeitsablauf-Demonstration unternommen wurden. Das Modell muss eine SOP generieren, die mit den im Video gezeigten Aktionen und dem Ziel übereinstimmt.
Demonstrationssegmentierung: Bei dieser Aufgabe werden mehrere Arbeitsablauf-Demonstrationen zu einem einzigen Video kombiniert. Das Modell muss bestimmen, wo jeder Arbeitsablauf beginnt und endet. Dies testet die Fähigkeit des Modells, verschiedene nacheinander stattfindende Arbeitsabläufe zu erkennen.
2. Wissenstransfer-Aufgaben
Fragenbeantwortung: Bei dieser Aufgabe geht es darum, Antworten auf Fragen zu Arbeitsabläufen zu generieren. Das Modell muss zeigen, dass es versteht, wie Arbeitsabläufe funktionieren, indem es präzise Antworten auf Anfragen gibt.
Demonstrationsvalidierung: Hier wird das Modell gebeten zu bestimmen, ob der Arbeitsablauf erfolgreich abgeschlossen wurde und ob er die angegebenen Schritte genau befolgt hat, basierend auf einer Demonstration und der entsprechenden SOP.
3. Verbesserungsaufgaben
SOP-Rangordnung: Bei dieser Aufgabe muss das Modell mehrere SOPs für denselben Arbeitsablauf, die von verschiedenen Annotatoren verfasst wurden, nach ihrer Qualität bewerten.
SOP-Verbesserung: Das Modell hat eine Demonstration und eine von geringer Qualität erstellte SOP vorliegen. Es muss diese SOP verbessern, um besser mit dem im Video gezeigten Arbeitsablauf übereinzustimmen.
Ergebnisse: Was wir herausgefunden haben
Wir haben unseren Benchmark mit führenden multimodalen Modellen, darunter bekannte Namen aus dem Bereich, getestet. Die Modelle zeigten vielversprechende Ergebnisse bei der Generierung von Dokumentationen und der Bewertung des Abschlusses von Arbeitsabläufen. Allerdings hatten sie Schwierigkeiten, zu validieren, ob sie die genauen Schritte, die in den SOPs aufgeführt waren, befolgt haben.
Zum Beispiel konnten die Modelle zwar genaue SOPs mit guter Wiedererkennung erstellen, aber sie beinhalteten oft falsche oder irrelevante Schritte. In der Validierungsaufgabe konnten die Modelle erfolgreich feststellen, ob ein Arbeitsablauf abgeschlossen war, hatten aber Schwierigkeiten zu bestätigen, ob er mit den vorgegebenen Schritten übereinstimmte.
Die Rolle der multimodalen Modelle
Multimodale Modelle sind leistungsstarke Werkzeuge, die Sprachverständnis mit visuellem Verständnis kombinieren, sodass sie sowohl Text als auch Bilder verarbeiten können. Diese Kombination verleiht ihnen eine gute Position für BPM-Aufgaben, bei denen ein kontextuelles Verständnis entscheidend ist.
Allerdings haben bestehende Modelle noch Einschränkungen, insbesondere wenn es um das Verständnis von Arbeitsabläufen auf niedrigerer Ebene geht. Sie glänzen bei hochrangigen Analysen, haben aber oft Schwierigkeiten mit spezifischen Details. Daher bleibt es eine anhaltende Herausforderung, ihre Fähigkeiten in diesem Bereich zu verfeinern.
Zukünftige Richtungen
Basierend auf unseren Ergebnissen haben wir mehrere Bereiche für weitere Forschung identifiziert:
Verbesserung der menschlichen Modellabgleichung: Eine bessere Abstimmung zwischen dem menschlichen Verständnis und der Modellleistung ist entscheidend, insbesondere bei BPM-Aufgaben, die nuanciertes Denken erfordern.
Erweiterung der Kontextfenster: Längere Arbeitsabläufe können eine Menge Daten generieren, was aktuelle Modelle überwältigen kann. Wege zu finden, um mehr Informationen auf einmal zu verarbeiten, könnte das Verständnis und die Leistung verbessern.
Verfeinerung des Verständnisses auf niedrigerer Ebene: Strategien zu entwickeln, um die Fähigkeiten der Modelle zu verbessern, spezifische Schritte und Aktionen innerhalb eines Arbeitsablaufs zu verstehen, sind entscheidend für ihren Erfolg in BPM-Anwendungen.
Selbstverbesserungsfähigkeiten: Unsere Forschung deutet auf das Potenzial hin, dass Modelle ihre Ausgaben durch Reflexion und Verfeinerung verbessern können, was ihnen helfen könnte, sich anzupassen, wenn sich Arbeitsabläufe ändern.
Einschränkungen und Überlegungen
Während unser Benchmark wertvolle Einblicke bietet, hat er seine Einschränkungen. Der Zugang zu realen Unternehmensdaten war aufgrund von Datenschutzbedenken eingeschränkt, was die Übertragbarkeit unserer Ergebnisse beeinträchtigen könnte. Darüber hinaus waren die von uns untersuchten Arbeitsabläufe auf einige spezifische Umgebungen beschränkt, und wir erkennen an, dass verschiedene Websites oder Anwendungen unterschiedliche Herausforderungen darstellen können.
Die gesellschaftliche Auswirkung von BPM-Tools
Da Unternehmen weiterhin KI-Tools einsetzen, gibt es echte Bedenken hinsichtlich der Auswirkungen auf die menschliche Arbeit. Während Automatisierung die Effizienz steigern kann, wirft sie auch Fragen zur Jobsicherheit auf. Unsere Arbeit zielt darauf ab, die Bedeutung der Entwicklung von Werkzeugen zu betonen, die die menschlichen Fähigkeiten verbessern, anstatt sie zu ersetzen.
Fazit
Zusammenfassend lässt sich sagen, dass der neue Benchmark zur Bewertung multimodaler Modelle in BPM-Aufgaben über die blosse Automatisierung hinausgeht. Indem wir uns auf Dokumentation, Wissenstransfer und Verbesserung konzentrieren, möchten wir die komplexen Arbeitsabläufe unterstützen, auf die Unternehmen angewiesen sind. Unsere Forschung soll zu weiterer Innovation in multimodalen Modellen anregen, was letztendlich den menschlichen Arbeitnehmern zugutekommt und sicherstellt, dass Technologie dazu dient, essentielle Aufgaben zu ergänzen und nicht zu ersetzen.
Titel: WONDERBREAD: A Benchmark for Evaluating Multimodal Foundation Models on Business Process Management Tasks
Zusammenfassung: Existing ML benchmarks lack the depth and diversity of annotations needed for evaluating models on business process management (BPM) tasks. BPM is the practice of documenting, measuring, improving, and automating enterprise workflows. However, research has focused almost exclusively on one task - full end-to-end automation using agents based on multimodal foundation models (FMs) like GPT-4. This focus on automation ignores the reality of how most BPM tools are applied today - simply documenting the relevant workflow takes 60% of the time of the typical process optimization project. To address this gap we present WONDERBREAD, the first benchmark for evaluating multimodal FMs on BPM tasks beyond automation. Our contributions are: (1) a dataset containing 2928 documented workflow demonstrations; (2) 6 novel BPM tasks sourced from real-world applications ranging from workflow documentation to knowledge transfer to process improvement; and (3) an automated evaluation harness. Our benchmark shows that while state-of-the-art FMs can automatically generate documentation (e.g. recalling 88% of the steps taken in a video demonstration of a workflow), they struggle to re-apply that knowledge towards finer-grained validation of workflow completion (F1 < 0.3). We hope WONDERBREAD encourages the development of more "human-centered" AI tooling for enterprise applications and furthers the exploration of multimodal FMs for the broader universe of BPM tasks. We publish our dataset and experiments here: https://github.com/HazyResearch/wonderbread
Autoren: Michael Wornow, Avanika Narayan, Ben Viggiano, Ishan S. Khare, Tathagat Verma, Tibor Thompson, Miguel Angel Fuentes Hernandez, Sudharsan Sundar, Chloe Trujillo, Krrish Chawla, Rongfei Lu, Justin Shen, Divya Nagaraj, Joshua Martinez, Vardhan Agrawal, Althea Hudson, Nigam H. Shah, Christopher Re
Letzte Aktualisierung: 2024-10-10 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2406.13264
Quell-PDF: https://arxiv.org/pdf/2406.13264
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.