Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Bases de dados

Apresentando o PM-LLM-Benchmark para Avaliação de Mineração de Processos

Uma nova ferramenta pra avaliar LLMs em tarefas de mineração de processos.

― 7 min ler


PM-LLM-Benchmark paraPM-LLM-Benchmark paraLLMsmineração de processos.Avaliando o desempenho de LLM em
Índice

Modelos de Linguagem Grande (LLMs) são programas de computador que conseguem ler e escrever em linguagem natural. Esses modelos têm várias aplicações, incluindo ajudar na Mineração de Processos, que é uma área que analisa dados pra melhorar como as empresas funcionam. A mineração de processos observa os dados de eventos coletados quando um processo de negócio acontece, buscando insights que podem ajudar na tomada de decisões.

Esse artigo apresenta um novo parâmetro chamado PM-LLM-Benchmark. Ele ajuda a avaliar o quão bem diferentes LLMs se saem em tarefas específicas relacionadas à mineração de processos. Enquanto alguns modelos comerciais já são bons em várias tarefas analíticas, não tá claro quão eficazes são os LLMs de código aberto em tarefas mais especializadas de mineração de processos.

O que é Mineração de Processos?

Mineração de processos é uma área da ciência de dados que usa dados pra ver como os processos funcionam dentro de uma organização. O objetivo é obter insights sobre a eficiência e eficácia desses processos. Algumas técnicas comuns em mineração de processos incluem:

  1. Descoberta de Processos: Criar modelos automaticamente que representam como os processos funcionam com base nos dados de eventos.
  2. Verificação de Conformidade: Comparar dados de eventos reais com modelos de processos esperados pra ver se eles combinam.
  3. Aprimoramento de Modelos: Adicionar métricas aos modelos de processos com base nos dados de eventos.

A mineração de processos se beneficia bastante de entender o contexto específico em que uma empresa opera. Os LLMs foram treinados com uma quantidade enorme de conhecimento geral, que inclui insights sobre processos. Alguns modelos comerciais avançados, como o GPT-4, mostraram potencial em lidar com várias tarefas de mineração de processos, como detectar padrões incomuns nos dados.

A Necessidade de um Parâmetro

Embora existam parâmetros gerais pra avaliar LLMs, nenhum deles foca especificamente em tarefas de mineração de processos. Essa lacuna torna difícil avaliar quais modelos são mais adequados pra esse propósito específico. Fatores que contribuem pra esse desafio incluem:

  • Variações em artefatos de mineração de processos, como logs de eventos e modelos de processos.
  • Diferentes tipos de tarefas de mineração de processos.
  • As várias linguagens de programação e ferramentas usadas em mineração de processos.

Pra resolver esses problemas, o PM-LLM-Benchmark foi criado. Esse parâmetro se concentra em duas maneiras principais que os LLMs podem ajudar na mineração de processos: fornecendo insights diretos e gerando código.

Contribuições do PM-LLM-Benchmark

O PM-LLM-Benchmark tem três principais contribuições:

  1. Parâmetro Abrangente: É o primeiro parâmetro extenso pra avaliar LLMs em tarefas de mineração de processos. Ele usa vários tipos de comandos que exigem conhecimento sobre processos e como eles funcionam.

  2. Estratégia de Avaliação: O parâmetro inclui um sistema pra avaliar a qualidade das respostas fornecidas pelos LLMs. Isso ajuda a determinar quão bem cada modelo se sai em tarefas específicas.

  3. Resultados do Parâmetro: O parâmetro foi aplicado em diversos LLMs de última geração, destacando seus pontos fortes e fracos em tarefas de mineração de processos.

Desafios na Avaliação

Um desafio significativo na avaliação das saídas dos LLMs é a dificuldade de estabelecer qual é a resposta "certa", especialmente pra questões abertas. Métricas tradicionais costumam comparar respostas com soluções fornecidas por humanos, o que pode não funcionar bem pra tarefas complexas. Usar LLMs como juízes ajuda a criar um sistema de avaliação mais flexível e escalável.

Nesse sistema de avaliação, um LLM avançado avalia o desempenho de outros LLMs. O LLM juiz atribui notas com base na qualidade das respostas. Esse sistema não depende de uma verdade fixa, já que muitas tarefas em mineração de processos não têm respostas definitivas.

Categorias de Tarefas no Parâmetro

O parâmetro inclui várias categorias pra avaliar as capacidades de um LLM em mineração de processos:

  1. Tarefas Qualitativas de Uso Geral: Essas tarefas avaliam quão bem os LLMs conseguem descrever processos, detectar anomalias e analisar causas raiz.

  2. Perguntas de Conhecimento do Domínio de Mineração de Processos: Essa categoria avalia a compreensão do LLM sobre conceitos de mineração de processos.

  3. Geração de Modelos de Processos: Aqui, os LLMs são testados na sua habilidade de criar diferentes tipos de modelos de processos.

  4. Compreensão de Modelos de Processos: Isso avalia quão bem os LLMs entendem os modelos de processos fornecidos.

  5. Geração de Hipóteses: Essa categoria analisa a capacidade dos LLMs de formular hipóteses com base em dados.

  6. Avaliação de Justa: Os LLMs são testados na sua capacidade de identificar atributos sensíveis em logs de eventos.

  7. Comandos Visuais: Para LLMs que suportam entrada visual, essa categoria avalia sua compreensão de visualizações associadas a dados de processos.

Resultados do PM-LLM-Benchmark

O parâmetro foi testado em vários LLMs pra ver como eles conseguiam lidar com as tarefas. De modo geral, LLMs maiores, especialmente modelos comerciais, se saíram melhor que os menores. Aqui estão algumas descobertas principais:

  • Modelos comerciais, como o GPT-4, tiveram notas altas em todas as categorias, mostrando um desempenho forte em geral.
  • Grandes modelos de código aberto também se saíram bem e chegaram perto do desempenho dos modelos comerciais.
  • Modelos menores tiveram dificuldades com muitas tarefas, frequentemente falhando em produzir insights úteis.

Curiosamente, enquanto os modelos maiores se saíram bem, os menores às vezes conseguiam pontuar decentemente em tarefas específicas. No entanto, os menores modelos não eram adequados para tarefas complexas de mineração de processos.

Limitações e Direções Futuras

Embora o PM-LLM-Benchmark seja um avanço na avaliação de LLMs em mineração de processos, ele tem suas limitações. Por exemplo, ele não considera toda a gama de tarefas que alguns LLMs avançados podem gerenciar efetivamente. Pesquisas contínuas são necessárias pra refinar o parâmetro e expandir ainda mais seu escopo.

As áreas futuras de benchmarking a serem exploradas incluem:

  1. Geração Aumentada por Recuperação (RAG): Isso envolve usar métodos pra incluir dinamicamente informações específicas sobre processos durante comandos pra melhorar as respostas dos LLMs.

  2. Equipes de Agentes: Esse conceito foca em usar equipes de LLMs especializados pra analisar dados, o que poderia melhorar a qualidade dos insights.

  3. Aprimoramento de Hipóteses: Avaliar quão bem os LLMs conseguem refinar e verificar hipóteses com base em feedback e evidências.

  4. Geração Dinâmica de Conjuntos de Dados: Pode ser benéfico criar novos conjuntos de dados que contenham várias situações, incluindo erros típicos ou casos únicos que os LLMs poderiam encontrar em aplicações do mundo real.

Conclusão

O PM-LLM-Benchmark serve como uma ferramenta valiosa pra avaliar quão bem os LLMs conseguem lidar com tarefas de mineração de processos. Enquanto modelos maiores geralmente mostraram melhor desempenho, os menores têm espaço pra melhorar, indicando que mais desenvolvimento é necessário nessa área. Esse parâmetro não só ajuda a identificar os pontos fortes e fracos dos modelos existentes, mas também estabelece as bases pra futuros avanços e pesquisas na área.

À medida que as organizações continuam adotando técnicas de mineração de processos, ter ferramentas confiáveis pra avaliar as capacidades dos LLMs se torna cada vez mais importante. Os insights obtidos desse esforço de benchmarking ajudarão a guiar a evolução contínua dos LLMs para atender às necessidades específicas de mineração de processos e além.

Fonte original

Título: PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks

Resumo: Large Language Models (LLMs) have the potential to semi-automate some process mining (PM) analyses. While commercial models are already adequate for many analytics tasks, the competitive level of open-source LLMs in PM tasks is unknown. In this paper, we propose PM-LLM-Benchmark, the first comprehensive benchmark for PM focusing on domain knowledge (process-mining-specific and process-specific) and on different implementation strategies. We focus also on the challenges in creating such a benchmark, related to the public availability of the data and on evaluation biases by the LLMs. Overall, we observe that most of the considered LLMs can perform some process mining tasks at a satisfactory level, but tiny models that would run on edge devices are still inadequate. We also conclude that while the proposed benchmark is useful for identifying LLMs that are adequate for process mining tasks, further research is needed to overcome the evaluation biases and perform a more thorough ranking of the competitive LLMs.

Autores: Alessandro Berti, Humam Kourani, Wil M. P. van der Aalst

Última atualização: 2024-07-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.13244

Fonte PDF: https://arxiv.org/pdf/2407.13244

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes