Mejorando la supervisión de supercomputadoras con analíticas visuales
Un método para mejorar la fiabilidad de los superordenadores mediante un análisis de datos eficaz.
― 8 minilectura
Tabla de contenidos
- La Importancia del Monitoreo
- Recolección y Análisis de Datos de Registros
- Un Enfoque de Múltiples Niveles para el Análisis
- La Interfaz de Usuario de la Herramienta de Análisis Visual
- Patrones de Comportamiento del Sistema
- Estudios de Caso: Aplicaciones del Mundo Real
- Mejoras en Eficiencia y Rendimiento
- Conclusión
- Fuente original
Monitorear e interpretar el comportamiento de los sistemas de Hardware es clave para hacer que las supercomputadoras sean más confiables. A medida que estos sistemas se vuelven más complejos y grandes, necesitamos recopilar más datos de diferentes fuentes y en varios niveles de detalle. Este artículo habla de un método para analizar estos datos extensos, enfocándose especialmente en los Registros de hardware, Trabajos y factores ambientales en una instalación de supercomputación. La meta es construir un sistema que permita a los usuarios entender rápidamente cómo está funcionando la supercomputadora e identificar cualquier problema que surja.
La Importancia del Monitoreo
Las supercomputadoras juegan un papel vital en muchos campos de la investigación científica. Estos sistemas se utilizan para realizar cálculos complejos, ayudando a los investigadores a resolver problemas en áreas como la modelización del clima, la genética y la física. Para asegurarnos de que estos sistemas funcionen efectivamente, necesitamos monitorear su rendimiento, buscar errores y mantener su confiabilidad. Cuando una supercomputadora se encuentra con problemas, puede llevar a fallos en los trabajos, lo que puede ser costoso y consumir mucho tiempo. Por lo tanto, el monitoreo es crucial para prevenir problemas y mejorar el rendimiento del sistema.
A medida que la demanda de poder computacional crece, las supercomputadoras se actualizan con más frecuencia y se utilizan por períodos más largos. Esto significa que cualquier error que ocurra puede interrumpir la investigación en curso, llevando a retrasos significativos. Analizando los datos de registros en detalle, podemos obtener información sobre el estado del sistema en cualquier momento, lo que permite respuestas más rápidas a posibles problemas.
Recolección y Análisis de Datos de Registros
Las supercomputadoras generan varios tipos de datos, como registros de hardware, registros de trabajos y registros ambientales. Los registros de hardware contienen información sobre los eventos y errores del sistema, mientras que los registros de trabajos rastrean las aplicaciones que se ejecutan en el sistema y su uso de recursos. Los registros ambientales monitorean condiciones como temperatura, energía y voltaje. Todos estos datos provienen de múltiples sensores y sistemas dentro de la supercomputadora, a menudo llevando a enormes cantidades de información.
Por ejemplo, los registros de errores de hardware pueden variar desde muchos gigabytes, mientras que los registros ambientales podrían acumular terabytes de datos a lo largo de semanas. Los datos de registros de trabajos también pueden crecer rápidamente, haciendo que sea un reto analizar esta información diversa a diario. La meta de nuestra herramienta de análisis visual es gestionar y procesar este gran volumen de datos diversos de manera efectiva.
Un Enfoque de Múltiples Niveles para el Análisis
Para entender mejor estos datos, empleamos una técnica conocida como descomposición de modo dinámico de multiresolución (mrDMD). Este método ayuda a descomponer datos complejos en partes más comprensibles, permitiéndonos ver patrones en cómo se comporta el sistema con el tiempo. Al aislar diferentes frecuencias en los datos, podemos identificar comportamientos que son típicos para el sistema y marcar aquellos que se desvían de la norma.
La técnica mrDMD permite un análisis profundo de los registros. Al extraer información de los registros de hardware y de trabajos junto con los registros ambientales, podemos proporcionar una visión más completa de las operaciones del sistema. Identificar diferencias en los registros ayuda a revelar errores o ineficiencias en el uso de la supercomputadora.
La Interfaz de Usuario de la Herramienta de Análisis Visual
Nuestra herramienta de análisis visual consta de varias vistas que permiten a los usuarios interactuar con los datos. Estas vistas simplifican los datos complejos, presentándolos de una manera fácil de entender. La interfaz incluye:
- Vista Abstracta: Esta vista da un resumen general de los datos, mostrando valores agregados de los registros.
- Vista Glyph: Esta vista organiza los registros según diferentes categorías, como trabajos, usuarios y tipos de proyectos, facilitando la visualización de tendencias y problemas relacionados con áreas específicas.
- Vista de Historial de Nodos: Esta vista rastrea el historial de nodos específicos en la supercomputadora, proporcionando información sobre su rendimiento a lo largo del tiempo.
- Vista de Línea de Tiempo: Esto muestra datos ambientales como uso de energía, temperatura y otras lecturas de sensores a lo largo del tiempo.
- Vista de Trabajo: Esta vista ofrece información detallada de los registros de trabajos, permitiendo a los usuarios entender métricas de rendimiento y resultados para aplicaciones específicas.
Estas vistas trabajan juntas para dar una imagen completa del estado actual y la historia de la supercomputadora, permitiendo a los usuarios identificar patrones, problemas y oportunidades de optimización.
Patrones de Comportamiento del Sistema
Al analizar los diversos datos de registros, podemos identificar patrones de comportamiento que indican la salud de la supercomputadora. Por ejemplo, podemos observar cómo ciertos trabajos afectan el rendimiento del sistema y si hay indicadores comunes de errores que surgen durante períodos específicos de uso. Identificar estas tendencias puede ayudar a los administradores del sistema a anticipar posibles problemas y tomar acciones correctivas antes de que escalen a problemas serios.
La aplicación del análisis mrDMD ayuda a filtrar el ruido de los datos y se centra en los cambios significativos que podrían indicar un problema. Al utilizar baselines definidos por el comportamiento típico del sistema, podemos resaltar cuando la supercomputadora opera fuera de sus parámetros esperados. Este enfoque no solo identifica errores, sino que también mejora la toma de decisiones sobre el mantenimiento del sistema y el soporte al usuario.
Estudios de Caso: Aplicaciones del Mundo Real
Para ilustrar la efectividad de nuestra herramienta de análisis visual, llevamos a cabo varios estudios de caso centrados en datos del mundo real de la supercomputadora Cray XC40. El análisis gira en torno a cómo dos trabajos diferentes afectaron el sistema, destacando tendencias y patrones de uso.
Estudio de Caso 1: Rendimiento de Trabajos y Errores del Sistema
En este caso, analizamos trabajos ejecutados en la supercomputadora y monitoreamos cómo impactaron el rendimiento del sistema. El análisis mostró que cuando un trabajo terminaba, el trabajo siguiente enfrentaba significativamente más errores que se reflejaban en los registros. Al visualizar estos datos, pudimos vincular errores de hardware a trabajos específicos, revelando información valiosa para el mantenimiento.
Los resultados indicaron que los fallos comenzaron a aparecer cuando las lecturas de temperatura superaron los límites seguros. Una inspección más cercana de los registros mostró un aumento gradual de errores desde el primer trabajo hasta el cuarto. Los administradores del sistema pueden usar estos patrones para abordar los problemas de hardware de manera proactiva, haciendo ajustes en el sistema para prevenir futuras ocurrencias.
Estudio de Caso 2: Patrones Específicos del Usuario
En otro estudio de caso, nos centramos en los trabajos de un usuario específico durante un período definido. Al analizar los registros ambientales de los trabajos, observamos que ciertos trabajos generaban consistentemente más excepciones de chequeo de máquina (MCE) que otros. Al emplear baselines específicos del usuario, pudimos identificar patrones en el uso de recursos que podrían señalar problemas potenciales.
Las visualizaciones destacaron qué nodos estaban infrautilizados y mostraron la necesidad de monitoreo para prevenir fallos del sistema. Esta información puede llevar a recomendaciones para que los usuarios optimicen sus configuraciones de trabajos de acuerdo con las capacidades del sistema, reduciendo la carga innecesaria en el hardware.
Mejoras en Eficiencia y Rendimiento
Con los conocimientos obtenidos de estos análisis, podemos desarrollar estrategias para mejorar la eficiencia de las supercomputadoras. Al identificar qué trabajos conducen a una utilización óptima del hardware y cuáles causan errores, los administradores del sistema pueden ajustar las asignaciones y configuraciones de trabajos para mejorar el rendimiento.
Los avances rápidos en la tecnología de supercomputación exigen un monitoreo y análisis continuos del rendimiento del sistema. Esta herramienta de análisis visual está diseñada con escalabilidad en mente, haciendo que sea adaptable a otros sistemas a gran escala y tipos de datos.
Conclusión
En resumen, la integración de análisis visual en el monitoreo y análisis de supercomputadoras permite a los usuarios entender el comportamiento del sistema, identificar problemas y tomar decisiones informadas para mejorar el rendimiento. Al utilizar un enfoque integral que combina múltiples fuentes de datos, podemos gestionar mejor los recursos de la supercomputadora y apoyar a los usuarios de manera más efectiva.
A medida que las supercomputadoras continúan creciendo en complejidad y escala, los esfuerzos para simplificar el análisis y visualización de datos se volverán cada vez más importantes. El trabajo aquí descrito forma una base para futuras investigaciones, con el objetivo de desarrollar sistemas de monitoreo en tiempo real que puedan responder dinámicamente a tendencias y problemas emergentes en entornos de supercomputación. En última instancia, esto conducirá a instalaciones de supercomputación más eficientes, confiables y productivas, impulsando avances en la investigación científica y la tecnología.
Título: A Multi-Level, Multi-Scale Visual Analytics Approach to Assessment of Multifidelity HPC Systems
Resumen: The ability to monitor and interpret of hardware system events and behaviors are crucial to improving the robustness and reliability of these systems, especially in a supercomputing facility. The growing complexity and scale of these systems demand an increase in monitoring data collected at multiple fidelity levels and varying temporal resolutions. In this work, we aim to build a holistic analytical system that helps make sense of such massive data, mainly the hardware logs, job logs, and environment logs collected from disparate subsystems and components of a supercomputer system. This end-to-end log analysis system, coupled with visual analytics support, allows users to glean and promptly extract supercomputer usage and error patterns at varying temporal and spatial resolutions. We use multiresolution dynamic mode decomposition (mrDMD), a technique that depicts high-dimensional data as correlated spatial-temporal variations patterns or modes, to extract variation patterns isolated at specified frequencies. Our improvements to the mrDMD algorithm help promptly reveal useful information in the massive environment log dataset, which is then associated with the processed hardware and job log datasets using our visual analytics system. Furthermore, our system can identify the usage and error patterns filtered at user, project, and subcomponent levels. We exemplify the effectiveness of our approach with two use scenarios with the Cray XC40 supercomputer.
Autores: Shilpika, Bethany Lusch, Murali Emani, Filippo Simini, Venkatram Vishwanath, Michael E. Papka, Kwan-Liu Ma
Última actualización: 2023-06-15 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.09457
Fuente PDF: https://arxiv.org/pdf/2306.09457
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.