Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Apprentissage automatique# Génie logiciel

Nouveau standard pour le BPM : Au-delà de l'automatisation

Ce banc d'essai évalue les modèles multimodaux sur des tâches BPM comme la documentation et l'amélioration.

― 8 min lire


BPM Benchmark : Plus queBPM Benchmark : Plus quede l'automatisationdes tâches BPM détaillées.Évaluer des modèles multimodaux pour
Table des matières

Dans le monde des affaires d'aujourd'hui, super rapide, les entreprises comptent sur des workflows efficaces pour avancer. La Gestion des Processus Métier (BPM) est une pratique qui aide les organisations à documenter, mesurer, améliorer et automatiser ces workflows. Alors que la technologie évolue à grande vitesse, les chercheurs se sont surtout concentrés sur un seul aspect de la BPM : l'automatisation complète. Cependant, beaucoup de temps dans les projets BPM est passé à documenter le workflow lui-même, ce qui constitue une part significative du travail.

Cet article parle d'une nouvelle référence conçue pour évaluer à quel point les modèles multimodaux peuvent gérer diverses tâches de BPM, pas seulement l'automatisation. Ces tâches incluent la Documentation des workflows, le Transfert de connaissances à leur sujet et leur amélioration.

L'Importance de la Documentation dans la BPM

Quand une entreprise veut améliorer un workflow, elle commence souvent par documenter comment les choses se passent actuellement. Ce processus de documentation peut prendre beaucoup de temps, et la recherche montre que ça peut consommer environ 60% du temps total passé sur un projet BPM. Si on ignore cette partie cruciale, on passe à côté d'opportunités pour créer des outils utiles pour les entreprises.

Les benchmarks existants en apprentissage automatique négligent souvent ces tâches de documentation, se concentrant principalement sur l'automatisation. En conséquence, il y a un manque de jeux de données variés qui fournissent le contexte et les détails nécessaires pour évaluer à quel point les modèles peuvent performer dans des situations réelles.

Présentation de la Nouvelle Référence

Pour combler cette lacune, on présente une nouvelle référence spécifiquement pour évaluer les modèles multimodaux sur diverses tâches BPM. Notre référence se compose de trois éléments principaux :

  1. Un Jeu de Données : On a créé un jeu de données contenant 2 928 exemples de comment les gens complètent des workflows. Ces exemples viennent d'applications réelles et incluent des enregistrements vidéo, des journaux d'actions et des guides écrits.

  2. Nouvelles Tâches BPM : On a développé six nouvelles tâches qui évaluent la capacité d'un modèle à non seulement automatiser des workflows, mais aussi à les documenter avec précision, à aider au transfert de connaissances et à identifier les domaines à améliorer.

  3. Évaluation Automatisée : On a mis en place des outils d'évaluation automatisée pour évaluer la performance des modèles sur ces tâches.

À travers notre référence, on espère motiver le développement d'outils qui soutiennent les travailleurs humains plutôt que de les remplacer.

Le Jeu de Données : Un Regard de Plus Près

Le jeu de données qu'on a créé présente de nombreuses démonstrations humaines de workflows. Chaque démonstration se compose de :

  • Une Intention : Une brève description du workflow en cours.
  • Un Enregistrement : Une vidéo complète montrant comment le workflow a été exécuté.
  • Une Trace d'Action : Un journal détaillé de toutes les actions effectuées, comme les clics et les frappes de touches.
  • Captures d'Écran : Des images clés tirées de la vidéo pour illustrer des moments importants.
  • Une Procédure Opératoire Standard (SOP) : Un guide écrit étape par étape qui décrit les actions réalisées pendant la démonstration.

En plus, on a 162 workflows dans une collection spéciale "Gold Tasks", qui a reçu une attention particulière pour assurer une haute qualité.

Les Six Tâches BPM

On a conçu six tâches BPM qui couvrent trois domaines clés : documentation, transfert de connaissances et amélioration.

1. Tâches de Documentation

  • Génération de SOP : Le but est de créer un guide écrit qui résume toutes les étapes prises dans une démonstration de workflow. Le modèle doit générer une SOP qui s'aligne avec les actions et l'intention montrées dans la vidéo.

  • Segmentation de Démo : Dans cette tâche, plusieurs démonstrations de workflow sont combinées dans une seule vidéo. Le modèle doit déterminer où chaque workflow commence et se termine. Ça teste la capacité du modèle à reconnaître différents workflows se produisant en séquence.

2. Tâches de Transfert de Connaissances

  • Réponse à des Questions : Cette tâche implique de générer des réponses à des questions sur les workflows. Le modèle doit démontrer une compréhension de comment fonctionnent les workflows en fournissant des réponses précises aux questions.

  • Validation de Démo : Ici, étant donné une démonstration et sa SOP correspondante, on demande au modèle de déterminer si le workflow a été complété avec succès et s'il a suivi les étapes spécifiées avec précision.

3. Tâches d'Amélioration

  • Classement de SOP : Dans cette tâche, le modèle doit classer plusieurs SOP écrites par différents annotateurs pour le même workflow, en les jugeant selon leur qualité.

  • Amélioration de SOP : Le modèle reçoit une démonstration et une SOP de mauvaise qualité. Il doit améliorer cette SOP pour mieux correspondre au workflow montré dans la démonstration.

Résultats : Ce Qu'on a Trouvé

On a testé notre référence avec des modèles multimodaux de pointe, y compris des noms bien connus dans le domaine. Les modèles ont montré des résultats prometteurs dans la génération de documentation et l'évaluation de l'achèvement des workflows. Cependant, ils ont rencontré des défis pour valider s'ils suivaient les étapes exactes décrites dans les SOP.

Par exemple, même si les modèles pouvaient créer des SOP précises avec un bon rappel, ils incluaient souvent des étapes incorrectes ou hors de propos. Dans la tâche de validation, les modèles ont réussi à déterminer si un workflow avait été complété mais ont eu du mal à confirmer s'il correspondait aux étapes prescrites.

Le Rôle des Modèles Multimodaux

Les modèles multimodaux sont des outils puissants qui combinent la compréhension du langage avec la compréhension visuelle, leur permettant de traiter à la fois du texte et des images. Cette combinaison les positionne bien pour les tâches de BPM, où la compréhension contextuelle est cruciale.

Cependant, les modèles existants ont encore des limites, notamment en ce qui concerne la compréhension de workflows à un niveau plus bas. Ils excellent dans l'analyse à un haut niveau mais peinent souvent avec des détails spécifiques. Par conséquent, affiner leurs capacités dans ce domaine reste un défi en cours.

Directions Futures

Sur la base de nos découvertes, on a identifié plusieurs domaines pour des recherches futures :

  • Améliorer l'Alignement Humain-Modèle : Un meilleur alignement entre la compréhension humaine et la performance du modèle est crucial, surtout pour les tâches BPM qui nécessitent un raisonnement nuancé.

  • Élargir les Fenêtres de Contexte : Des workflows plus longs peuvent générer beaucoup de données, ce qui peut submerger les modèles actuels. Trouver des moyens de traiter plus d'informations à la fois pourrait améliorer la compréhension et la performance.

  • Affiner la Compréhension à Bas Niveau : Des stratégies pour améliorer la capacité des modèles à comprendre des étapes et des actions spécifiques dans un workflow sont essentielles pour leur succès dans les applications BPM.

  • Capacités d'Auto-Amélioration : Notre recherche laisse entrevoir le potentiel pour les modèles d'améliorer leurs sorties grâce à la réflexion et au perfectionnement, ce qui pourrait les aider à s'adapter à mesure que les workflows changent.

Limitations et Considérations

Bien que notre référence fournisse des idées précieuses, elle a des limites. L'accès aux données d'entreprise réelles était restreint en raison de préoccupations de confidentialité, ce qui peut impacter la généralisabilité de nos résultats. De plus, les workflows que nous avons étudiés étaient limités à quelques environnements spécifiques, et on reconnaît que différents sites web ou applications peuvent poser des défis différents.

L'Impact Sociétal des Outils BPM

Alors que les entreprises continuent d'adopter des outils d'IA, il y a une réelle préoccupation concernant l'impact sur le travail humain. Bien que l'automatisation puisse améliorer l'efficacité, elle soulève aussi des questions sur la sécurité de l'emploi. Notre travail vise à souligner l'importance de concevoir des outils qui améliorent les capacités humaines plutôt que de les remplacer.

Conclusion

En conclusion, la nouvelle référence pour évaluer les modèles multimodaux dans les tâches BPM va au-delà de la simple automatisation. En se concentrant sur la documentation, le transfert de connaissances et l'amélioration, on vise à soutenir les workflows complexes sur lesquels les entreprises comptent. Notre recherche cherche à inspirer davantage d'innovations dans les modèles multimodaux, profitant finalement aux travailleurs humains et assurant que la technologie sert à augmenter, et non à remplacer, des tâches essentielles.

Source originale

Titre: WONDERBREAD: A Benchmark for Evaluating Multimodal Foundation Models on Business Process Management Tasks

Résumé: Existing ML benchmarks lack the depth and diversity of annotations needed for evaluating models on business process management (BPM) tasks. BPM is the practice of documenting, measuring, improving, and automating enterprise workflows. However, research has focused almost exclusively on one task - full end-to-end automation using agents based on multimodal foundation models (FMs) like GPT-4. This focus on automation ignores the reality of how most BPM tools are applied today - simply documenting the relevant workflow takes 60% of the time of the typical process optimization project. To address this gap we present WONDERBREAD, the first benchmark for evaluating multimodal FMs on BPM tasks beyond automation. Our contributions are: (1) a dataset containing 2928 documented workflow demonstrations; (2) 6 novel BPM tasks sourced from real-world applications ranging from workflow documentation to knowledge transfer to process improvement; and (3) an automated evaluation harness. Our benchmark shows that while state-of-the-art FMs can automatically generate documentation (e.g. recalling 88% of the steps taken in a video demonstration of a workflow), they struggle to re-apply that knowledge towards finer-grained validation of workflow completion (F1 < 0.3). We hope WONDERBREAD encourages the development of more "human-centered" AI tooling for enterprise applications and furthers the exploration of multimodal FMs for the broader universe of BPM tasks. We publish our dataset and experiments here: https://github.com/HazyResearch/wonderbread

Auteurs: Michael Wornow, Avanika Narayan, Ben Viggiano, Ishan S. Khare, Tathagat Verma, Tibor Thompson, Miguel Angel Fuentes Hernandez, Sudharsan Sundar, Chloe Trujillo, Krrish Chawla, Rongfei Lu, Justin Shen, Divya Nagaraj, Joshua Martinez, Vardhan Agrawal, Althea Hudson, Nigam H. Shah, Christopher Re

Dernière mise à jour: 2024-10-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.13264

Source PDF: https://arxiv.org/pdf/2406.13264

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires