Oasis: Uma Nova Abordagem para Quedas na Nuvem
Oasis agiliza as respostas a falhas para os engenheiros, melhorando a eficiência e a rapidez.
― 7 min ler
Índice
Sistemas de nuvem ficaram populares porque são flexíveis e fáceis de escalar. Mas quando rolam quedas-ou seja, serviços ficam fora do ar ou muito lentos-isso pode causar treta tanto pra usuários quanto pra empresas. Responder a essas quedas é complicado porque podem acontecer por várias razões ao mesmo tempo. Por isso, é crucial que os Engenheiros entendam rapidinho o que deu errado pra corrigir e avisar os clientes afetados.
Tradicionalmente, os engenheiros de plantão têm que investigar essas quedas manualmente, o que pode levar um tempão e dar um trabalhão. Esse texto fala sobre um sistema automatizado feito pra ajudar os engenheiros a entenderem o contexto das quedas mais rápido e de um jeito mais eficiente.
O Problema das Quebras
Quando aplicativos em nuvem param de funcionar direito, os usuários podem enfrentar lentidão ou falhas totais nos serviços. Isso pode gerar perda de grana e clientes frustrados. As quedas geralmente envolvem múltiplos problemas acontecendo ao mesmo tempo, dificultando identificar a causa exata.
Por exemplo, uma queda pode estar ligada a uma falha no serviço de armazenamento, o que causa problemas nos bancos de Dados, e, por sua vez, afeta os aplicativos web que dependem desses bancos. Cada conexão pode levar a vários Incidentes que precisam ser investigados, o que não é uma tarefa simples.
Práticas Atuais
Atualmente, os engenheiros de plantão são responsáveis por coletar todas as informações manualmente. Eles precisam ver vários relatórios gerados por diferentes ferramentas de monitoramento pra identificar os incidentes relevantes relacionados à queda. Esse processo manual muitas vezes consome muito tempo-às vezes até uma hora ou mais.
É claro que depender apenas do esforço humano não é eficiente. Muitas empresas estão em busca de soluções melhores pra acelerar esse processo.
Introdução ao Oasis
Pra melhorar a compreensão das quedas, apresentamos o Oasis, um sistema criado pra ajudar os engenheiros a avaliar rapidamente os impactos das quedas e gerar Resumos legíveis. O Oasis usa técnicas que combinam regras, dados históricos e aprendizado de máquina pra ajudar a coletar automaticamente incidentes relacionados à queda.
Uma vez identificados os incidentes relevantes, o Oasis utiliza um modelo de linguagem grande, parecido com o GPT, pra gerar um resumo que os engenheiros conseguem ler e entender facilmente.
O Impacto das Quebras
Nosso estudo analisou dados reais de 18 sistemas de nuvem populares ao longo de três anos. Com isso, descobrimos que as quedas têm um impacto significativo nos clientes. Em muitos casos, as quedas afetam um grande número de usuários. Na verdade, cerca de 86% das quedas atingiram uma ampla audiência.
Além disso, as quedas podem ter efeitos duradouros, o que complica ainda mais a resposta. Portanto, entender a extensão de uma queda rapidamente se torna uma prioridade.
Resultados da Pesquisa
Durante nossa pesquisa, examinamos os detalhes em torno das quedas e incidentes. Isso ajudou a entender quais informações os engenheiros consideram essenciais ao lidar com quedas. Normalmente, as quedas vêm com relatos detalhados do que aconteceu, incluindo especificações sobre tempo, locais e serviços afetados.
Pra cada queda, os engenheiros precisam saber:
- Quando a queda começou e quando foi declarada?
- Onde a queda está localizada dentro do sistema de nuvem?
- Quais serviços estão afetados?
- Quais são os sintomas ou problemas que causaram a queda?
- Por que a queda ocorreu?
Entender esses elementos é crucial pra uma comunicação e resolução eficazes.
Desafios à Frente
Um dos maiores obstáculos é a complexidade dos sistemas de nuvem. Eles consistem em várias camadas, incluindo aplicativos, plataformas, armazenamento de dados e a infraestrutura subjacente. Cada uma dessas camadas tem características e desafios únicos.
Quando uma queda acontece, os engenheiros podem ter que vasculhar uma montanha de relatórios, muitas vezes de várias ferramentas de monitoramento, pra encontrar informações relevantes ao incidente. Se sistemas automatizados puderem ajudar a simplificar esse processo, isso pode reduzir o tempo gasto e melhorar a eficiência geral.
A Abordagem Oasis
O Oasis tem duas principais componentes pra lidar com os desafios enfrentados pelos engenheiros durante quedas:
Avaliação do Escopo de Impacto: Essa parte coleta e relaciona todos os incidentes relacionados a uma queda. Usa uma mistura de regras estabelecidas, padrões de incidentes passados e modelos de aprendizado de máquina pra derivar conexões entre os incidentes.
Geração de Resumo: Uma vez que os incidentes relevantes são coletados, o Oasis gera um resumo usando um modelo de linguagem. Esse resumo é projetado pra condensar todas as informações essenciais de um jeito que seja fácil de ler e entender.
Coletando Incidentes Relevantes
Pra entender o impacto de uma queda, é crucial identificar quais incidentes estão relacionados. O Oasis faz isso através dos seguintes métodos:
Vinculação Baseada em Regras: Os engenheiros definem certas regras que automaticamente relacionam incidentes que podem estar conectados com base no conhecimento prévio. Essa abordagem pode ajudar a filtrar ruídos e garantir que apenas incidentes relevantes sejam considerados.
Consulta Histórica: O Oasis mantém um gráfico de incidentes passados e suas conexões. Quando um novo incidente surge, o sistema faz referência a esse gráfico pra identificar potenciais vínculos.
Técnicas de Aprendizado Profundo: O aprendizado de máquina permite que o Oasis preveja conexões entre incidentes com base em suas descrições e títulos. Essa abordagem é particularmente útil para novos incidentes que não se encaixam em padrões estabelecidos.
Resumindo as Informações
Uma vez que os incidentes relevantes são coletados, o próximo passo é criar um resumo claro. É aqui que o modelo de linguagem entra em ação. Ele pega os dados processados e gera um resumo conciso.
O modelo é ajustado especificamente pra resumir relatórios de incidentes em nuvem. Ele aprende a importância de detalhes específicos, como níveis de severidade e palavras-chave, pra produzir um resumo que os engenheiros possam usar rapidamente sem precisar mergulhar em todos os relatórios.
Avaliação do Oasis
Fizemos testes rigorosos pra avaliar quão bem o Oasis funciona. Comparamos ele com vários métodos estabelecidos pra determinar sua eficácia em resumir quedas e gerar títulos relevantes.
Em testes envolvendo quedas do mundo real, o Oasis se saiu muito melhor do que as abordagens padrão, mostrando sua capacidade de fornecer resumos precisos e pontuais. Os resultados sugeriram que os engenheiros poderiam usar o Oasis pra gerar resumos consideravelmente mais rápido do que escrevendo manualmente, muitas vezes até 250 vezes mais rápido.
Além disso, fizemos uma avaliação humana envolvendo donos de quedas que deram feedback sobre os resumos gerados. Os resultados foram positivos, indicando que o Oasis produziu resumos que eram não apenas úteis, mas também fáceis de ler.
Conclusão
Conforme os sistemas de nuvem continuam a evoluir, as quedas ainda vão ser um desafio que impacta empresas e usuários. O Oasis oferece uma solução promissora pra ajudar os engenheiros a entender e responder a quedas de forma ágil.
Ao avaliar automaticamente as conexões de incidentes e gerar resumos compreensíveis, o Oasis pode reduzir significativamente o esforço manual necessário, liberando os engenheiros pra focar na resolução de problemas em vez de passar horas olhando relatórios.
Resumindo, o Oasis representa um passo importante na gestão de quedas em nuvem, facilitando pras empresas manterem seus sistemas e deixarem seus clientes felizes.
Título: Assess and Summarize: Improve Outage Understanding with Large Language Models
Resumo: Cloud systems have become increasingly popular in recent years due to their flexibility and scalability. Each time cloud computing applications and services hosted on the cloud are affected by a cloud outage, users can experience slow response times, connection issues or total service disruption, resulting in a significant negative business impact. Outages are usually comprised of several concurring events/source causes, and therefore understanding the context of outages is a very challenging yet crucial first step toward mitigating and resolving outages. In current practice, on-call engineers with in-depth domain knowledge, have to manually assess and summarize outages when they happen, which is time-consuming and labor-intensive. In this paper, we first present a large-scale empirical study investigating the way on-call engineers currently deal with cloud outages at Microsoft, and then present and empirically validate a novel approach (dubbed Oasis) to help the engineers in this task. Oasis is able to automatically assess the impact scope of outages as well as to produce human-readable summarization. Specifically, Oasis first assesses the impact scope of an outage by aggregating relevant incidents via multiple techniques. Then, it generates a human-readable summary by leveraging fine-tuned large language models like GPT-3.x. The impact assessment component of Oasis was introduced in Microsoft over three years ago, and it is now widely adopted, while the outage summarization component has been recently introduced, and in this article we present the results of an empirical evaluation we carried out on 18 real-world cloud systems as well as a human-based evaluation with outage owners. The results show that Oasis can effectively and efficiently summarize outages, and lead Microsoft to deploy its first prototype which is currently under experimental adoption by some of the incident teams.
Autores: Pengxiang Jin, Shenglin Zhang, Minghua Ma, Haozhe Li, Yu Kang, Liqun Li, Yudong Liu, Bo Qiao, Chaoyun Zhang, Pu Zhao, Shilin He, Federica Sarro, Yingnong Dang, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang
Última atualização: 2023-05-29 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.18084
Fonte PDF: https://arxiv.org/pdf/2305.18084
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.