Simple Science

La science de pointe expliquée simplement

# Informatique# Informatique distribuée, parallèle et en grappes

Supercalculateur ARCHER2 : Suivi des succès

Le système de surveillance d'ARCHER2 garantit un fonctionnement sans accroc pour les chercheurs à Édimbourg.

― 8 min lire


Aperçus de surveillanceAperçus de surveillanced'ARCHER2surveillance d'ARCHER2.Examen du succès du système de
Table des matières

ARCHER2 est un supercalculateur super puissant situé à Édimbourg, conçu pour aider les chercheurs dans leurs calculs et simulations. Il a un impressionnant nombre de 750 080 cœurs, ce qui lui permet d'effectuer des tâches complexes à grande vitesse. L'ordinateur était pleinement opérationnel en décembre 2021 après un long processus d'installation compliqué par la pandémie de COVID-19.

Une partie cruciale de la mise en service d'ARCHER2 a été le système de surveillance. Ce système aide à s'assurer que tout fonctionne bien en vérifiant régulièrement la santé et les performances de l'ordinateur. Étant donné qu'ARCHER2 était l'un des premiers supercalculateurs à utiliser la technologie HPE Cray EX, la mise en place de la surveillance a nécessité une planification minutieuse et une collaboration avec HPE.

Défis de déploiement

Le déploiement d'ARCHER2 a rencontré plusieurs défis. À l'origine, le plan était de fermer le système ARCHER précédent en février 2020 et de commencer à utiliser ARCHER2 en mai de la même année. Cependant, des problèmes de développement technologique et la pandémie ont entraîné des retards. Au lieu de lancer le système complet d'un coup, une version plus petite de 4 armoires a d'abord été déployée en juillet 2020. Cette version a permis aux utilisateurs de commencer à tester pendant que le système complet était préparé.

Finalement, en février 2021, la version complète d'ARCHER2 avec 23 armoires a été livrée, et en novembre, elle était disponible pour tous les utilisateurs. Tout au long de cette période, la Surveillance automatisée a été intégrée au déploiement dès le départ pour résoudre efficacement les problèmes.

Aperçu de la surveillance

Le système de surveillance utilisé pour ARCHER2 est basé sur Checkmk. Cet outil permet à l'équipe d'Édimbourg de voir la santé de tous les aspects du supercalculateur depuis un emplacement central. Avant Checkmk, la surveillance nécessitait de vérifier plusieurs systèmes manuellement, ce qui était chronophage et compliqué.

Avec Checkmk, divers contrôles peuvent être mis en place pour surveiller l'état du système, les métriques de performance et les erreurs critiques. Cela signifie que si quelque chose ne va pas, l'équipe peut être alertée immédiatement. Au fil du temps, le système a été ajusté pour répondre à des besoins spécifiques, y compris des vérifications pour certains composants matériels et logiciels.

Composants clés du système de surveillance

Checkmk et Graphite

Checkmk est un outil de surveillance qui permet aux équipes de déterminer à quel point les systèmes fonctionnent bien. Il suit les statistiques vitales concernant l'utilisation de l'énergie, de la mémoire et de la charge système, entre autres. Graphite est utilisé avec Checkmk pour créer des représentations visuelles des données, rendant plus facile la compréhension des tendances et des anomalies.

Les données collectées sont continuellement alimentées dans une base de données où elles peuvent être analysées, graphées et affichées sur des tableaux de bord. Cela garantit que toutes les parties prenantes ont accès aux informations dont elles ont besoin en temps réel.

Vérifications spéciales

Une force de Checkmk est sa capacité à permettre facilement à l'équipe de créer de nouveaux contrôles de surveillance. Par exemple, des vérifications personnalisées ont été développées pour suivre les états de santé des serveurs spécifiques, surveiller les états des travaux et même vérifier les problèmes avec le réseau qui transporte les données.

Ces vérifications spéciales se sont avérées utiles pour maintenir les performances d'ARCHER2, aidant à identifier les problèmes tôt. Lorsqu'un problème survient, l'équipe de surveillance peut rapidement accéder aux données pertinentes pour diagnostiquer et résoudre le problème.

Mise en œuvre de la surveillance pendant la configuration d'ARCHER2

Surveillance de l'énergie

Un domaine critique de la surveillance est la consommation d'énergie d'ARCHER2. Le système utilise une quantité significative d'énergie, donc il est essentiel de suivre son utilisation pour s'assurer que tout fonctionne dans les limites de conception. Les données sont collectées à partir des redresseurs qui fournissent de l'énergie, avec des relevés toutes les cinq secondes.

Ces informations sont affichées dans des graphiques en temps réel, permettant à l'équipe de voir combien d'énergie utilise chaque armoire et de surveiller la demande énergétique globale. Un suivi aussi détaillé aide à gérer efficacement les besoins énergétiques du système.

Surveillance de l'état des nœuds

Suivre l'état des nœuds, ou unités de traitement individuelles, est un autre aspect essentiel du système de surveillance. Cela signifie garder un œil sur les nœuds qui fonctionnent bien et ceux qui peuvent rencontrer des problèmes. En utilisant le planificateur Slurm, un outil populaire pour la gestion des ressources dans les supercalculateurs, le système de surveillance peut rendre compte de l'état de tous les nœuds de calcul.

Ces informations sont collectées automatiquement et aident l'équipe à maintenir une haute disponibilité pour les utilisateurs en identifiant rapidement les nœuds "hors service" et en résolvant les problèmes.

Surveillance de la disponibilité de la connexion

Assurer que les utilisateurs peuvent accéder à ARCHER2 est clé pour son fonctionnement. Un contrôle spécifique a été créé pour surveiller la disponibilité de la connexion en testant l'accès à intervalles réguliers. Cela impliquait de mettre en place un compte utilisateur test qui ne pouvait être accessible que depuis le serveur de surveillance. Le système vérifie la capacité de se connecter et signale toute défaillance immédiatement.

Impact de la surveillance sur le déploiement d'ARCHER2

Les phases d'installation et de test initiales d'ARCHER2 ont été considérablement facilitées par les systèmes de surveillance en place. Par exemple, l'équipe a rencontré divers problèmes avec les systèmes de noms de domaine (DNS) internes et externes. Avec la surveillance en place, ils ont rapidement été alertés de ces problèmes, leur permettant de les examiner et de les résoudre rapidement.

La surveillance s'est également révélée bénéfique lors des tests des benchmarks Linpack (HPL) haute performance. Pendant ces tests, des problèmes liés au cycle d'alimentation (où l'utilisation d'énergie chutait de manière inattendue) ont été repérés rapidement, permettant à l'équipe d'identifier et de résoudre les nœuds défectueux.

Lors des exécutions réussies, ARCHER2 a atteint des scores de benchmark impressionnants, se classant finalement 22e sur la liste Top500 des supercalculateurs avec une performance de 19,5 PFlop/s.

Surveillance automatisée pour les obligations contractuelles

Pour répondre aux obligations contractuelles avec les organismes de financement de la recherche, un système a été développé pour automatiser la surveillance des métriques essentielles comme la disponibilité des nœuds et la performance globale du service. Les données collectées par les outils de surveillance sont compilées et mises à disposition pour les rapports. Cela permet aux chefs de projet de générer des rapports complets sur la disponibilité du système pour les audits et évaluations.

Des graphiques en temps réel montrant la disponibilité des nœuds et la performance du service sont accessibles aux parties prenantes concernées, offrant transparence et assurance que le système fonctionne comme prévu.

Développements futurs dans la surveillance

Alors qu'ARCHER2 avance, des plans sont en place pour améliorer les capacités de surveillance. Cela inclut l'introduction de nouveaux outils pour l'analyse des journaux, des insights plus approfondis sur les rapports d'erreur et des statistiques par travail. Ces développements visent à augmenter l'utilisabilité et la fonctionnalité du système de surveillance.

De plus, rendre les données de surveillance plus accessibles aux utilisateurs aidera à encourager une approche collaborative de la gestion et du dépannage du système.

Conclusion

En résumé, le déploiement d'ARCHER2 et de son système de surveillance illustre une stratégie bien planifiée qui allie technologie et travail d'équipe. En utilisant des outils comme Checkmk et Graphite, l'équipe d'Édimbourg a créé un environnement robuste qui soutient des activités de recherche de haut niveau.

La surveillance continue de la santé et des performances du système non seulement améliore la fiabilité du service, mais garantit également que tous les utilisateurs peuvent accéder et utiliser le supercalculateur efficacement. À mesure que le système mûrit, les améliorations et adaptations continues de la stratégie de surveillance joueront un rôle intégral dans son succès.

Source originale

Titre: Automated service monitoring in the deployment of ARCHER2

Résumé: The ARCHER2 service, a CPU based HPE Cray EX system with 750,080 cores (5,860 nodes), has been deployed throughout 2020 and 2021, going into full service in December of 2021. A key part of the work during this deployment was the integration of ARCHER2 into our local monitoring systems. As ARCHER2 was one of the very first large-scale EX deployments, this involved close collaboration and development work with the HPE team through a global pandemic situation where collaboration and co-working was significantly more challenging than usual. The deployment included the creation of automated checks and visual representations of system status which needed to be made available to external parties for diagnosis and interpretation. We will describe how these checks have been deployed and how data gathered played a key role in the deployment of ARCHER2, the commissioning of the plant infrastructure, the conduct of HPL runs for submission to the Top500 and contractual monitoring of the availability of the ARCHER2 service during its commissioning and early life.

Auteurs: Kieran Leach, Philip Cass, Steven Robson, Eimantas Kazakevicius, Martin Lafferty, Andrew Turner, Alan Simpson

Dernière mise à jour: 2023-03-21 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.11731

Source PDF: https://arxiv.org/pdf/2303.11731

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires