Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Ingeniería del software

Mejorando la Gestión de Caídas en Servicios de Nube

Un nuevo sistema mejora el diagnóstico de fallos en los servicios en la nube usando datos.

― 5 minilectura


Avance en la gestión deAvance en la gestión decortesde fallas en servicios en la nube.Nuevo sistema transforma el diagnóstico
Tabla de contenidos

En el mundo digital de hoy, los servicios en la nube se están volviendo indispensables para las empresas. Sin embargo, estos servicios pueden experimentar caídas o fallos, lo que puede causar problemas importantes para las compañías y sus clientes. Identificar las causas de estas caídas es clave. Aquí es donde entran en juego los Ingenieros de Confiabilidad de Sitios (SRE). Ellos investigan y diagnostican problemas cuando los sistemas fallan, pero este trabajo puede llevar tiempo y ser complicado.

Por qué ocurren las caídas

Los servicios en la nube constan de muchas partes interconectadas, conocidas como microservicios. Cuando una parte falla, puede afectar a otras. Cada servicio genera alertas, que son notificaciones que indican problemas. Estas alertas pueden variar en importancia, pero juegan un papel clave en el diagnóstico de problemas. Cuando ocurre una caída, los SRE recopilan alertas y registros de errores para averiguar qué salió mal.

El proceso implica varios pasos, como detectar un problema, averiguar quién debe solucionarlo, encontrar la raíz del problema, resolverlo y documentar todo para futuras referencias. Este método tradicional puede tardar mucho tiempo y requiere mucha experiencia.

El desafío del diagnóstico

Diagnosticar una caída no es sencillo. Dado que muchas alertas pueden no correlacionarse directamente con el problema, los SRE a menudo tienen que buscar entre grandes cantidades de datos. Dependiendo mucho de sus experiencias pasadas y de informes documentados de caídas anteriores. Sin embargo, estos informes suelen ser largos y escritos de una manera que no siempre facilita extraer información útil rápidamente.

Innovaciones en la gestión de caídas

Para abordar estos problemas, se ha desarrollado un nuevo sistema. Este sistema busca proporcionar recomendaciones sobre las Causas Raíz y soluciones durante las caídas. Utiliza tanto Datos Estructurados, como alertas, como Datos semi-estructurados, como informes de caídas, para formar un proceso de diagnóstico más eficiente.

Los dos tipos de datos

  • Datos Estructurados: Son alertas generadas por el sistema, como cuando un servicio está lento o se ha detenido. Estos datos proporcionan una instantánea en tiempo real del rendimiento del servicio.

  • Datos Semi-Estructurados: Incluyen informes detallados que los SRE escriben después de resolver problemas. Estos informes contienen información valiosa sobre qué salió mal, cómo se solucionó y otros detalles relevantes.

Al combinar estos dos tipos de datos, el nuevo sistema puede ofrecer predicciones y sugerencias más precisas.

Construyendo un modelo basado en gráficos

Un aspecto clave del nuevo sistema implica crear gráficos. Se forma un gráfico causal utilizando datos estructurados como alertas, mientras que un gráfico de conocimiento se crea a partir de los datos semi-estructurados de los informes de caídas. Al fusionar estos dos gráficos, el sistema puede entender las relaciones entre las alertas y los síntomas observados en caídas pasadas.

Cómo funciona

Cuando ocurre una caída, el sistema evalúa rápidamente las alertas que coinciden con los síntomas de caídas anteriores. Clasifica las posibles causas raíz y sugiere soluciones basándose en datos históricos. Esencialmente, aprende de experiencias pasadas para mejorar las respuestas actuales.

Probando el sistema

El nuevo sistema ha sido probado durante dos años en varias caídas de producción reales de un gran proveedor de servicios. Los resultados muestran una mejora notable en la predicción de causas raíz y sugerencia de soluciones en comparación con métodos existentes. Por ejemplo, logró un 27% más de precisión en la identificación de causas raíz que los métodos tradicionales.

Aplicaciones en el mundo real

  1. Ejemplo de caída de servicio de correo electrónico: Un servicio de correo electrónico experimentó una caída que duró cuatro horas debido a un despliegue incorrecto. El sistema pudo recuperar un incidente similar del pasado donde un problema de despliegue causó un fallo, permitiendo al equipo actuar rápidamente.

  2. Problema de conectividad de base de datos: Otro incidente involucró una base de datos que no podía manejar la carga, causando que los servicios se volvieran inaccesibles. El nuevo sistema identificó un problema anterior similar con bases de datos, ayudando al equipo a resolver la caída actual más rápido.

  3. Caso de desajuste de versiones: Un servicio se volvió inalcanzable debido a versiones de software desajustadas tras una actualización. El sistema se basó en un incidente anterior con el mismo problema, guiando al equipo hacia una solución de reversión que resolvió la caída rápidamente.

Conclusión

El desarrollo de este sistema marca una mejora significativa en la gestión de caídas dentro de los servicios en la nube. Al combinar efectivamente los datos de alertas y los informes de caídas históricos, proporciona recomendaciones oportunas y precisas para diagnosticar y resolver problemas. Esto puede reducir en gran medida el tiempo de inactividad y los costos asociados con las caídas, beneficiando tanto a las empresas como a sus clientes.

Direcciones futuras

De cara al futuro, hay planes para comparar este sistema con otras técnicas de vanguardia para mejorar aún más. Además, se están explorando modelos avanzados para mejor precisión en las predicciones e integrando nuevas tecnologías para obtener mejores insights en el desarrollo futuro.

La evolución continua de los servicios en la nube y su creciente complejidad hacen que soluciones robustas para la gestión de caídas sean cruciales. La combinación de experiencias pasadas y datos en tiempo real puede ayudar a las organizaciones a mantener operaciones más fluidas y clientes más satisfechos.

Fuente original

Título: ESRO: Experience Assisted Service Reliability against Outages

Resumen: Modern cloud services are prone to failures due to their complex architecture, making diagnosis a critical process. Site Reliability Engineers (SREs) spend hours leveraging multiple sources of data, including the alerts, error logs, and domain expertise through past experiences to locate the root cause(s). These experiences are documented as natural language text in outage reports for previous outages. However, utilizing the raw yet rich semi-structured information in the reports systematically is time-consuming. Structured information, on the other hand, such as alerts that are often used during fault diagnosis, is voluminous and requires expert knowledge to discern. Several strategies have been proposed to use each source of data separately for root cause analysis. In this work, we build a diagnostic service called ESRO that recommends root causes and remediation for failures by utilizing structured as well as semi-structured sources of data systematically. ESRO constructs a causal graph using alerts and a knowledge graph using outage reports, and merges them in a novel way to form a unified graph during training. A retrieval-based mechanism is then used to search the unified graph and rank the likely root causes and remediation techniques based on the alerts fired during an outage at inference time. Not only the individual alerts, but their respective importance in predicting an outage group is taken into account during recommendation. We evaluated our model on several cloud service outages of a large SaaS enterprise over the course of ~2 years, and obtained an average improvement of 27% in rouge scores after comparing the likely root causes against the ground truth over state-of-the-art baselines. We further establish the effectiveness of ESRO through qualitative analysis on multiple real outage examples.

Autores: Sarthak Chakraborty, Shubham Agarwal, Shaddy Garg, Abhimanyu Sethia, Udit Narayan Pandey, Videh Aggarwal, Shiv Saini

Última actualización: 2023-09-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.07230

Fuente PDF: https://arxiv.org/pdf/2309.07230

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares