Preparando Registros de Eventos para uma Análise Melhor
Uma olhada nas tarefas principais para o pré-processamento de logs de eventos.
― 7 min ler
Índice
Os logs de eventos são essenciais pra melhorar processos e tomar decisões baseadas em dados. Eles registram como as atividades são realizadas em diferentes sistemas. Mas, se os dados não forem precisos, os insights obtidos podem levar a conclusões erradas. É por isso que o pré-processamento, ou limpeza dos dados antes da análise, é crucial.
Muita gente reconhece que o pré-processamento é importante, mas muitas vezes isso é feito de forma aleatória sem um plano claro. Este artigo tem como objetivo criar uma visão detalhada das tarefas que podem ser realizadas pra preparar os logs de eventos pra análise. Identificamos seis tarefas principais de pré-processamento e vinte tarefas detalhadas, baseadas em estudos de caso da vida real. As tarefas mais comuns incluem filtragem, transformação e abstração dos logs, enquanto enriquecimento, integração e redução de logs são feitas com menos frequência. Esse trabalho ajuda a tornar o pré-processamento dos logs de eventos mais organizado, melhorando a confiabilidade dos resultados da mineração de processos.
Importância dos Logs de Eventos
Os logs de eventos são tipo um diário pra empresas; eles registram o que aconteceu durante vários processos. Podem mostrar como as coisas tão funcionando, revelar problemas e ajudar a planejar o futuro. Mas, se os dados forem ruins – pense neles como lixo – o resultado vai ser falho. Isso significa que limpar os dados através do pré-processamento é necessário antes de qualquer análise útil.
A necessidade de dados de alta qualidade e pré-processamento é reconhecida na área. Há um esforço crescente pra dar atenção a essas tarefas. Apesar disso, muita gente ainda faz pré-processamento de forma desestruturada, e não há orientação suficiente sobre quais tarefas realizar ou como escolhê-las.
Alguns estudos existentes analisaram tarefas de pré-processamento específicas, como abstrair eventos ou extrair dados. No entanto, não existe uma revisão abrangente que cobre diferentes métodos de pré-processamento e como eles são aplicados em casos da vida real. Este artigo visa preencher essa lacuna, oferecendo uma visão clara das tarefas de pré-processamento na mineração de processos.
Visão Geral das Tarefas de Pré-processamento
Nossa revisão sistemática ajuda a reunir uma ampla gama de tarefas de pré-processamento usadas em outros estudos. Especificamente, identificamos seis tarefas principais envolvidas na pré-processamento de logs:
- Integração de Logs: Combinar informações de várias fontes em um único log.
- Transformação de Logs: Mudar o formato ou a estrutura dos dados.
- Redução de Logs: Diminuir o tamanho dos dados pra facilitar a análise.
- Abstração de Logs: Simplificar os dados agrupando eventos semelhantes.
- Filtragem de Logs: Limpar os dados removendo informações indesejadas.
- Enriquecimento de Logs: Adicionar novas informações aos logs existentes.
A seguir, vamos falar sobre cada uma dessas tarefas em detalhe, com base no que encontramos na literatura.
Filtragem de Logs
A filtragem de logs é a tarefa de pré-processamento mais comumente realizada. Em muitos casos, as organizações filtram coisas como ruído, duplicatas e dados irrelevantes de seus logs. Isso deixa os logs mais claros e úteis. Aqui estão algumas das tarefas de filtragem específicas identificadas:
Filtragem de Dados Irrelevantes: Alguns dados não ajudam na análise. Os analistas decidem o que é relevante com base na sua expertise. Por exemplo, ao analisar alunos, dados de não-alunos podem ser filtrados.
Filtragem de Dados Incompletos: Às vezes, eventos ou casos podem estar sem informação. Esses dados incompletos podem ser filtrados pra evitar representações erradas dos processos.
Filtragem de Dados Infrequentes: Eventos infrequentes podem criar confusão ou reduzir a qualidade da análise. Portanto, eles são frequentemente removidos.
Filtragem de Dados Inconsistentes: Quando os dados são registrados em formatos diferentes, isso pode causar problemas. Por exemplo, timestamps que usam formatos diferentes precisam ser limpos.
Filtragem de Dados Incorretos: Qualquer dado que não segue regras lógicas pode levar a erros e precisa ser filtrado.
Filtragem de Duplicatas: Dados redundantes ou eventos repetidos podem distorcer os resultados, então precisam ser identificados e removidos.
Filtragem de Ruído: Qualquer dado irrelevante que não contribui pra análise é frequentemente rotulado como ruído e eliminado.
Transformação de Logs
Transformar logs ajuda a garantir que eles estejam no formato e qualidade certos pra análise. Em muitos estudos, as transformações de logs envolvem:
Transformação de Formato: Isso muitas vezes significa mudar logs de um formato (como CSV) pra outro (como XES) que as ferramentas conseguem ler melhor.
Transformação de Valores: Às vezes, os valores nos logs precisam ser ajustados, como substituir valores ausentes por zero pra evitar lacunas.
Reordenação de Eventos: Os logs precisam ser organizados na sequência correta. Um exemplo seria classificar eventos em ordem cronológica pra representar corretamente o fluxo do processo.
Enriquecimento de Logs
Enriquecer logs adiciona informações extras, tornando-os mais úteis pra análise. Isso pode incluir:
Adicionando Métricas de Cálculo: Às vezes, novas métricas são derivadas de dados existentes. Por exemplo, calcular o tempo final de uma atividade com base no seu horário de início e duração pode aprimorar os logs.
Rotulando Eventos: Atribuir rótulos aos eventos pode esclarecer seu resultado ou categorizá-los pra uma análise melhor.
Criando Identificadores Únicos: Alguns logs podem não ter identificadores únicos. Os analistas compensam isso gerando rótulos exclusivos pra distinguir entre eventos.
Redução de Logs
A redução de logs envolve deixar os logs menores e mais gerenciáveis. Isso pode significar:
Dividindo Logs: Separar logs em partes menores com base em timestamps ou perfis de usuários pra analisar comportamentos específicos mais de perto.
Amostragem Aleatória: Escolher um subconjunto dos logs pra trabalhar pode reduzir a carga de trabalho enquanto ainda mantém uma amostra representativa.
Integração de Logs
A integração de logs é sobre combinar várias fontes de dados em um único log. Isso ajuda a criar uma visão mais abrangente dos processos em questão. No entanto, as tarefas específicas na integração de logs podem variar dependendo das fontes e dos dados que estão sendo combinados.
Abstração de Logs
A abstração é sobre simplificar logs agrupando eventos semelhantes. Essa tarefa ajuda a reduzir a complexidade dos dados, tornando a análise mais fácil.
Conclusão
Em resumo, nossa investigação sobre as tarefas de pré-processamento revela que a filtragem de logs é o passo mais comum e essencial, seguido de perto pelas tarefas de transformação. Na prática, muitas dessas tarefas dependem fortemente do conhecimento da área, enquanto algumas, como enriquecer ou integrar logs, são menos utilizadas devido à falta de apoio das ferramentas.
Pesquisas futuras devem focar nessas tarefas menos comuns pra ajudar melhor as organizações em seus esforços de pré-processamento. Melhorar a padronização nas práticas de relatórios e oferecer suporte mais amplo pode melhorar significativamente a confiabilidade das análises na mineração de processos, garantindo que os insights obtidos dos logs de eventos sejam confiáveis e úteis.
Título: Turning Logs into Lumber: Preprocessing Tasks in Process Mining
Resumo: Event logs are invaluable for conducting process mining projects, offering insights into process improvement and data-driven decision-making. However, data quality issues affect the correctness and trustworthiness of these insights, making preprocessing tasks a necessity. Despite the recognized importance, the execution of preprocessing tasks remains ad-hoc, lacking support. This paper presents a systematic literature review that establishes a comprehensive repository of preprocessing tasks and their usage in case studies. We identify six high-level and 20 low-level preprocessing tasks in case studies. Log filtering, transformation, and abstraction are commonly used, while log enriching, integration, and reduction are less frequent. These results can be considered a first step in contributing to more structured, transparent event log preprocessing, enhancing process mining reliability.
Autores: Ying Liu, Vinicius Stein Dani, Iris Beerepoot, Xixi Lu
Última atualização: 2023-10-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.17100
Fonte PDF: https://arxiv.org/pdf/2309.17100
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.springer.com/lncs
- https://docs.google.com/spreadsheets/d/1ScHe32-EFL7ZBR-7Vb4WiCFvlalQGIRgAfdAjzOgILM/edit?usp=sharing
- https://solisservices-my.sharepoint.com/:x:/r/personal/y_liu29_students_uu_nl/Documents/Ying-Thesis/Thesis%20code%20.xlsx?d=wc8661e1acb1b4ed896a03d9c8a6e19c4&csf=1&web=1&e=mbkJNB
- https://zenodo.org/
- https://www.scopus.com/
- https://lumivero.com/products/nvivo/