Supercomputador ARCHER2: Monitorando o Sucesso
O sistema de monitoramento do ARCHER2 garante que tudo funcione de boa para os pesquisadores em Edimburgo.
― 7 min ler
Índice
- Desafios na Implementação
- Visão Geral do Monitoramento
- Componentes Chave do Sistema de Monitoramento
- Implementação do Monitoramento Durante a Configuração do ARCHER2
- Impacto do Monitoramento na Implementação do ARCHER2
- Monitoramento Automatizado para Obrigações Contratuais
- Desenvolvimentos Futuros no Monitoramento
- Conclusão
- Fonte original
- Ligações de referência
O ARCHER2 é um supercomputador poderoso localizado em Edimburgo, feito pra ajudar os pesquisadores nas suas contas e simulações. Ele tem impressionantes 750.080 núcleos, o que permite realizar tarefas complexas em alta velocidade. O computador ficou totalmente operacional em dezembro de 2021, após um longo processo de instalação complicado pela pandemia de COVID-19.
Uma parte crucial pra colocar o ARCHER2 em funcionamento foi o sistema de monitoramento. Esse sistema ajuda a garantir que tudo funcione direitinho, verificando regularmente a saúde e o desempenho do computador. Como o ARCHER2 foi um dos primeiros supercomputadores a usar a tecnologia HPE Cray EX, a configuração do monitoramento exigiu um planejamento cuidadoso e colaboração com a HPE.
Desafios na Implementação
A implementação do ARCHER2 enfrentou vários desafios. Inicialmente, o plano era desligar o sistema ARCHER anterior em fevereiro de 2020 e começar a usar o ARCHER2 em maio do mesmo ano. No entanto, problemas com o desenvolvimento da tecnologia e a pandemia causaram atrasos. Em vez de lançar o sistema completo de uma vez, uma versão menor, com 4 gabinetes, foi implantada primeiro em julho de 2020. Essa versão permitiu que os usuários começassem a testar enquanto o sistema completo estava sendo preparado.
Eventualmente, em fevereiro de 2021, os 23 gabinetes do ARCHER2 foram entregues, e até novembro já estava disponível para todos os usuários. Durante esse período, o Monitoramento Automático foi integrado à implantação desde o início para lidar com problemas de forma eficaz.
Visão Geral do Monitoramento
O sistema de monitoramento usado no ARCHER2 é baseado no Checkmk. Essa ferramenta permite que a equipe em Edimburgo veja a saúde de todos os aspectos do supercomputador de um local central. Antes do Checkmk, o monitoramento exigia verificar vários sistemas manualmente, o que era demorativo e complicado.
Com o Checkmk, vários checagens podem ser configuradas para monitorar o status do sistema, métricas de desempenho e quaisquer erros críticos. Isso significa que, se algo der errado, a equipe pode ser alertada imediatamente. Com o tempo, o sistema foi ajustado para atender a necessidades específicas, incluindo checagens para componentes de hardware e software específicos.
Componentes Chave do Sistema de Monitoramento
Checkmk e Graphite
O Checkmk é uma ferramenta de monitoramento que permite às equipes determinar como os sistemas estão operando. Ele acompanha estatísticas vitais sobre uso de energia, memória e carga do sistema, entre outras coisas. O Graphite é usado junto com o Checkmk para criar representações visuais dos dados, facilitando a compreensão de tendências e anomalias.
Os dados coletados são alimentados continuamente em um banco de dados onde podem ser analisados, grafados e exibidos em painéis. Isso garante que todas as partes interessadas tenham acesso à informação que precisam em tempo real.
Checagens Especiais
Uma das forças do Checkmk é como ele facilita a criação de novas checagens para monitoramento. Por exemplo, checagens personalizadas foram desenvolvidas para rastrear os status de saúde de servidores específicos, monitorar o status de jobs e até verificar problemas na rede que transporta dados.
Essas checagens especiais têm se mostrado úteis para manter o desempenho do ARCHER2, ajudando a identificar problemas logo de cara. Quando um problema surge, a equipe de monitoramento pode acessar rapidamente os dados relevantes para diagnosticar e resolver o problema.
Implementação do Monitoramento Durante a Configuração do ARCHER2
Monitoramento de Energia
Uma área crítica de monitoramento é o consumo de energia do ARCHER2. O sistema usa uma quantidade significativa de energia, então é vital acompanhar seu uso pra garantir que tudo opere dentro dos limites de projeto. Os dados são coletados de retificadores que fornecem energia, oferecendo leituras a cada cinco segundos.
Essas informações são exibidas em gráficos em tempo real, permitindo que a equipe veja quanto poder cada gabinete está usando e monitore a demanda de energia total. Esse rastreamento detalhado ajuda a gerenciar efetivamente as demandas de energia do sistema.
Monitoramento do Estado dos Nós
Acompanhar o estado dos nós, ou unidades de processamento individuais, é outro aspecto essencial do sistema de monitoramento. Isso significa ficar de olho em quais nós estão funcionando bem e quais podem estar enfrentando problemas. Usando o agendador Slurm, uma ferramenta popular para gerenciar recursos em supercomputadores, o sistema de monitoramento pode relatar o status de todos os nós de computação.
Essas informações são coletadas automaticamente e ajudam a equipe a manter alta disponibilidade para os usuários, identificando rapidamente nós que estão "fora do ar" e resolvendo as questões.
Monitoramento da Disponibilidade de Login
Garantir que os usuários possam acessar o ARCHER2 é chave para sua operação. Uma checagem específica foi criada para monitorar a disponibilidade de login testando o acesso em intervalos regulares. Isso envolveu criar uma conta de usuário de teste que só poderia ser acessada a partir do servidor de monitoramento. O sistema verifica a capacidade de logar e reporta quaisquer falhas imediatamente.
Impacto do Monitoramento na Implementação do ARCHER2
As fases iniciais de configuração e testes do ARCHER2 foram significativamente ajudadas pelos sistemas de monitoramento em vigor. Por exemplo, a equipe encontrou vários problemas com sistemas de nomes de domínio internos e externos (DNS). Com o monitoramento em funcionamento, eles foram rapidamente alertados para esses problemas, permitindo investigar e corrigi-los prontamente.
O monitoramento também foi benéfico ao testar os benchmarks de alta performance Linpack (HPL). Durante esses testes, problemas relacionados ao ciclo de energia (onde o uso de energia caiu inesperadamente) foram detectados rapidamente, permitindo à equipe identificar e abordar nós defeituosos.
Nas execuções bem-sucedidas, o ARCHER2 alcançou pontuações de benchmark impressionantes, classificando-se em 22º na lista Top500 de supercomputadores com um desempenho de 19,5 PFlop/s.
Monitoramento Automatizado para Obrigações Contratuais
Para atender às obrigações contratuais com órgãos de financiamento de pesquisa, um sistema foi desenvolvido para automatizar o monitoramento de métricas essenciais como a disponibilidade de nós e desempenho geral do serviço. Os dados coletados pelas ferramentas de monitoramento são compilados e disponibilizados para relatórios. Isso permite que gestores de projetos gerem relatórios completos sobre a disponibilidade do sistema para auditorias e avaliações.
Gráficos em tempo real mostrando a disponibilidade de nós e o desempenho do serviço são acessíveis às partes interessadas relevantes, oferecendo transparência e garantias de que o sistema está funcionando como deveria.
Desenvolvimentos Futuros no Monitoramento
À medida que o ARCHER2 avança, há planos para aprimorar as capacidades de monitoramento. Isso inclui a introdução de novas ferramentas para análise de logs, insights mais profundos sobre relatórios de erros, e estatísticas por job. Esses desenvolvimentos visam aumentar a usabilidade e a funcionalidade do sistema de monitoramento.
Além disso, tornar os dados de monitoramento mais acessíveis aos usuários ajudará a incentivar uma abordagem colaborativa para o gerenciamento e resolução de problemas do sistema.
Conclusão
Em resumo, a implementação do ARCHER2 e seu sistema de monitoramento mostram uma estratégia bem planejada que combina tecnologia e trabalho em equipe. Usando ferramentas como Checkmk e Graphite, a equipe em Edimburgo criou um ambiente robusto que suporta atividades de pesquisa de alto nível.
O monitoramento contínuo da saúde e desempenho do sistema não só melhora a confiabilidade do serviço, mas também garante que todos os usuários possam acessar e utilizar o supercomputador de forma eficaz. À medida que o sistema amadurece, melhorias e adaptações contínuas na estratégia de monitoramento desempenharão um papel integral em seu sucesso.
Título: Automated service monitoring in the deployment of ARCHER2
Resumo: The ARCHER2 service, a CPU based HPE Cray EX system with 750,080 cores (5,860 nodes), has been deployed throughout 2020 and 2021, going into full service in December of 2021. A key part of the work during this deployment was the integration of ARCHER2 into our local monitoring systems. As ARCHER2 was one of the very first large-scale EX deployments, this involved close collaboration and development work with the HPE team through a global pandemic situation where collaboration and co-working was significantly more challenging than usual. The deployment included the creation of automated checks and visual representations of system status which needed to be made available to external parties for diagnosis and interpretation. We will describe how these checks have been deployed and how data gathered played a key role in the deployment of ARCHER2, the commissioning of the plant infrastructure, the conduct of HPL runs for submission to the Top500 and contractual monitoring of the availability of the ARCHER2 service during its commissioning and early life.
Autores: Kieran Leach, Philip Cass, Steven Robson, Eimantas Kazakevicius, Martin Lafferty, Andrew Turner, Alan Simpson
Última atualização: 2023-03-21 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.11731
Fonte PDF: https://arxiv.org/pdf/2303.11731
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://checkmk.com/
- https://graphiteapp.org/
- https://grafana.com/
- https://docs.Checkmk.com/latest/en/distributed_monitoring.html
- https://graphite.readthedocs.io/en/latest/carbon-daemons.html
- https://wiki.lustre.org/Check_MK/Graphite/Graphios_Setup_Guide
- https://docs.Checkmk.com/latest/en/localchecks.html
- https://docs.Checkmk.com/latest/en/clustered_services.html
- https://www.archer2.ac.uk/support-access/status.html