Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial

Melhorando a Localização de Falhas com o KGroot

KGroot melhora o diagnóstico de falhas em microsserviços através de gráficos de conhecimento avançados.

― 8 min ler


KGroot: Diagnóstico deKGroot: Diagnóstico deFalhas Inteligentefalhas em microsserviços complexos.KGroot automatiza a localização de
Índice

A Localização de Falhas em microserviços online pode ser complicada porque tem muita coisa pra acompanhar, tipo dados e eventos. Os problemas podem rolar rapidinho e gerar um monte de alertas. Em muitos casos, os trabalhadores mais experientes fazem a localização de falhas manualmente, o que nem sempre é confiável e não usa automação. Os vários módulos também podem criar barreiras de informação nesse processo manual, deixando difícil responder rápido quando aparecem problemas urgentes. Essa ineficiência pode atrasar a detecção e a correção de falhas. Mesmo com métodos pra automatizar o processo, eles geralmente falham em precisão e eficiência.

Ser preciso em encontrar a causa das falhas é essencial pra os engenheiros confiarem nas conclusões diagnósticas que vêm de múltiplos pontos de vista. Por isso, precisa de um jeito melhor de identificar as relações entre os eventos de falha e como eles se espalham. É aí que entra o KGroot, usando conhecimento de eventos e as conexões entre eles pra ajudar a encontrar as causas raiz. Combinando grafo de conhecimento e redes neurais convolucionais de grafo, o KGroot tem como objetivo tornar a análise da causa raiz (RCA) mais eficaz.

Importância da Localização Eficiente de Falhas

Os serviços online hoje muitas vezes dependem de sistemas complexos, e as interdependências entre microserviços podem desafiar a estabilidade operacional. Por exemplo, picos repentinos de tráfego ou problemas de rede podem causar grandes problemas. Manter a estabilidade do serviço é essencial pra atender às expectativas dos usuários. Diagnosticar falhas rápido pode ajudar a reduzir o tempo médio de reparo (MTTR), que é crucial nas operações modernas de TI.

Apesar dos esforços contínuos pra monitorar serviços de software, as falhas ainda podem acontecer devido à escala e complexidade das aplicações. Os dados de monitoramento incluem métricas, logs, rastros e várias atividades que precisam de uma supervisão cuidadosa. No entanto, muitos métodos atuais só olham métricas ou componentes individuais, o que não atende às necessidades de localização de falhas em microserviços. Essa situação pede sistemas que possam lidar com dados complexos e variados e extrair insights úteis.

Desafios na Análise da Causa Raiz

A arquitetura de microserviços traz uma teia de interdependências. Entender o que acontece e que tipo de falha ocorre na RCA é crucial. Anomalias podem desencadear uma reação em cadeia, levando a várias falhas em diferentes serviços. Quando uma falha acontece, é essencial que o sistema de RCA reúna várias pistas de múltiplos alertas, identifique a causa inicial e rastreie a linha do tempo e as sequências causais.

Frequentemente existe uma lacuna de conhecimento entre as equipes de engenharia de confiabilidade do site (SRE), o que torna a RCA mais desafiadora. A análise manual pode demorar mais do que o desejado, e enfrentar esses problemas requer respostas rápidas. No entanto, muitas abordagens automatizadas de RCA não consideraram as relações entre eventos e como eles se conectam, levando a um desempenho insatisfatório.

Estudos indicam que categorias recorrentes de causas raiz representam uma porcentagem significativa de falhas em grandes empresas. Essas falhas podem ser devido a fatores externos, problemas de hardware ou bugs lógicos de software. Como muitas falhas são repetitivas e guiadas por eventos, diagnosticar essas falhas de forma eficiente aprendendo com dados históricos é essencial.

O KGroot busca enfrentar esses desafios aproveitando grafos de conhecimento e redes neurais convolucionais de grafo pra automatizar a RCA em microserviços complexos. Essa abordagem foca em coletar métricas de falhas históricas pra construir modelos que tratem várias situações de forma eficaz.

Visão Geral do KGroot

O KGroot utiliza grafos de propagação de falhas baseados em eventos (FPGs) e Grafos de Conhecimento de Eventos de falhas (FEKGs). Quando uma falha online acontece, um FPG é construído dinamicamente com base nos eventos que ocorrem, enquanto um FEKG é feito a partir de falhas históricas. Comparando o FPG online com os grafos de conhecimento existentes usando GCNs, o KGroot visa identificar possíveis causas de falhas.

Componentes do KGroot

O KGroot é construído em quatro módulos principais:

  • Módulo de Pré-processamento de Dados: Esse módulo transforma dados não estruturados, como logs e métricas, em eventos estruturados.
  • Módulo de Descoberta de Relações Causais: Esse módulo identifica ligações causais entre eventos, levando à criação de grafos de conhecimento e grafos online.
  • Módulo de Cálculo de Similaridade de Grafos: Esse módulo calcula quão similar o grafo online é a cada grafo de conhecimento.
  • Módulo de RCA: Esse módulo determina a causa raiz da falha identificando os grafos de conhecimento mais semelhantes.

Cada módulo desempenha um papel significativo em garantir um diagnóstico eficiente de falhas de forma rápida.

Construindo Grafos de Propagação de Falhas

Criar FPGs envolve coletar eventos e analisar as relações entre eles. Tanto FPGs históricos quanto online são usados nesse processo. Quando uma falha ocorre, o FPG online captura as relações entre eventos em tempo real. Isso é essencial pra combiná-lo com os grafos de conhecimento construídos a partir de dados históricos.

As relações podem ser causais ou sequenciais. Por exemplo, se o evento A frequentemente leva ao evento B, existe uma relação causal. Entender o contexto dessas relações é crítico pra uma localização precisa de falhas.

Construindo o Grafo de Conhecimento de Eventos de Falha

O FEKG é essencial pra identificar as relações entre eventos em várias instâncias históricas. Cada FEKG corresponde a um tipo específico de falha, incluindo tipos de causas raiz e caminhos de propagação de falhas. Esse grafo de conhecimento integra insights de eventos anteriores, oferecendo uma visão abrangente de cenários de falha.

Etapas do Algoritmo

O algoritmo usado no KGroot garante que os FPGs sejam construídos de forma sistemática. Ele começa com um grafo vazio e adiciona eventos um por um baseando-se em suas ocorrências. Novas relações são avaliadas levando em consideração eventos anteriores pra construir um grafo coeso que retrate com precisão a propagação de eventos que leva a uma falha.

Eficácia do KGroot

A eficácia do KGroot foi testada em conjuntos de dados do mundo real, que mostraram resultados promissores. O modelo conseguiu localizar a causa raiz das falhas com alta precisão, igualando o desempenho do diagnóstico de falhas em tempo real em ambientes industriais.

Experimentos e Resultados

Dois conjuntos de dados distintos foram usados pra validar a eficácia do KGroot. Um foi de um sistema bancário, enquanto o outro envolveu um sistema simulado de venda de bilhetes de trem. Várias métricas foram coletadas, e o KGroot foi comparado com outros métodos existentes.

  • Teste de Precisão: A precisão em encontrar a causa raiz foi medida através de várias métricas, mostrando que o KGroot superou os métodos de base.
  • Precisão e Recall: Essas métricas também foram avaliadas, com o KGroot mostrando alta precisão na identificação de classes positivas.
  • Tempo de Resposta: O KGroot conseguiu diagnosticar falhas em segundos, bem mais rápido do que os métodos manuais.

Conclusão

No geral, o KGroot representa um avanço notável na automação da Análise de Causa Raiz pra microserviços complexos. Ao aproveitar dados históricos e relações contextuais entre eventos de falha, permite um diagnóstico eficiente e uma redução no tempo de inatividade.

Direções Futuras

Embora o KGroot tenha melhorado o desempenho na RCA, ainda há espaço pra melhorias. Trabalhos futuros poderiam focar em entender as características da propagação de falhas e refinar os grafos de conhecimento de falhas. Estabelecer um ciclo de feedback a partir de falhas passadas e experiências dos usuários poderia melhorar ainda mais a precisão diagnóstica e desenvolver um framework de operações de TI mais abrangente.

Explorando essas avenidas, o KGroot poderia estender suas capacidades pra previsão de falhas, inspeções automáticas e gestão de falhas, tornando-se uma ferramenta vital pra manter a estabilidade dos sistemas em ambientes complexos.

Fonte original

Título: KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph Convolutional Neural Networks

Resumo: Fault localization is challenging in online micro-service due to the wide variety of monitoring data volume, types, events and complex interdependencies in service and components. Faults events in services are propagative and can trigger a cascade of alerts in a short period of time. In the industry, fault localization is typically conducted manually by experienced personnel. This reliance on experience is unreliable and lacks automation. Different modules present information barriers during manual localization, making it difficult to quickly align during urgent faults. This inefficiency lags stability assurance to minimize fault detection and repair time. Though actionable methods aimed to automatic the process, the accuracy and efficiency are less than satisfactory. The precision of fault localization results is of paramount importance as it underpins engineers trust in the diagnostic conclusions, which are derived from multiple perspectives and offer comprehensive insights. Therefore, a more reliable method is required to automatically identify the associative relationships among fault events and propagation path. To achieve this, KGroot uses event knowledge and the correlation between events to perform root cause reasoning by integrating knowledge graphs and GCNs for RCA. FEKG is built based on historical data, an online graph is constructed in real-time when a failure event occurs, and the similarity between each knowledge graph and online graph is compared using GCNs to pinpoint the fault type through a ranking strategy. Comprehensive experiments demonstrate KGroot can locate the root cause with accuracy of 93.5% top 3 potential causes in second-level. This performance matches the level of real-time fault diagnosis in the industrial environment and significantly surpasses state-of-the-art baselines in RCA in terms of effectiveness and efficiency.

Autores: Tingting Wang, Guilin Qi, Tianxing Wu

Última atualização: 2024-02-11 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.13264

Fonte PDF: https://arxiv.org/pdf/2402.13264

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes