Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Informatica distribuita, parallela e in cluster

Supercomputer ARCHER2: Monitoraggio del Successo

Il sistema di monitoraggio di ARCHER2 garantisce un funzionamento senza intoppi per i ricercatori a Edimburgo.

― 6 leggere min


Osservazioni sulOsservazioni sulMonitoraggio di ARCHER2monitoraggio di ARCHER2.Esaminando il successo del sistema di
Indice

ARCHER2 è un supercomputer potente situato a Edimburgo, progettato per aiutare i ricercatori con calcoli e simulazioni. Ha un'impressionante quantità di 750.080 core, che gli permette di eseguire compiti complessi ad alta velocità. Il computer è diventato completamente operativo entro dicembre 2021 dopo un lungo processo di installazione complicato dalla pandemia di COVID-19.

Una parte fondamentale dell'attivazione di ARCHER2 è stato il sistema di monitoraggio. Questo sistema aiuta a garantire che tutto funzioni senza problemi controllando regolarmente la salute e le prestazioni del computer. Poiché ARCHER2 è stato uno dei primi supercomputer a utilizzare la tecnologia HPE Cray EX, l'installazione del monitoraggio ha richiesto pianificazione e collaborazione accurata con HPE.

Sfide di Distribuzione

La distribuzione di ARCHER2 ha affrontato diverse sfide. Inizialmente, il piano era di spegnere il precedente sistema ARCHER a febbraio 2020 e iniziare a usare ARCHER2 a maggio dello stesso anno. Tuttavia, problemi con lo sviluppo della tecnologia e la pandemia hanno portato a ritardi. Invece di lanciare l'intero sistema tutto in una volta, è stata distribuita prima una versione più piccola, con 4 armadi, a luglio 2020. Questa versione ha permesso agli utenti di iniziare a testare mentre l'intero sistema veniva preparato.

Alla fine, a febbraio 2021, è stato consegnato il sistema completo di 23 armadi di ARCHER2, e a novembre era disponibile per tutti gli utenti. Durante questo periodo, il Monitoraggio Automatico è stato integrato nell'implementazione fin dall'inizio per affrontare i problemi in modo efficace.

Panoramica sul Monitoraggio

Il sistema di monitoraggio utilizzato per ARCHER2 si basa su Checkmk. Questo strumento consente al team di Edimburgo di vedere la salute di tutti gli aspetti del supercomputer da un'unica posizione centrale. Prima di Checkmk, il monitoraggio richiedeva di controllare manualmente più sistemi, il che era dispendioso in termini di tempo e complicato.

Con Checkmk, è possibile impostare vari controlli per monitorare lo stato del sistema, le metriche delle prestazioni e qualsiasi errore critico. Ciò significa che se qualcosa va storto, il team può essere avvisato immediatamente. Nel tempo, il sistema è stato perfezionato per soddisfare esigenze specifiche, inclusi controlli per particolari componenti hardware e software.

Componenti Chiave del Sistema di Monitoraggio

Checkmk e Graphite

Checkmk è uno strumento di monitoraggio che consente ai team di determinare quanto bene funzionano i sistemi. Tiene traccia di statistiche vitali su consumo energetico, memoria e carico di sistema, tra le altre cose. Graphite è utilizzato insieme a Checkmk per creare rappresentazioni visive dei dati, rendendo più facile capire tendenze e anomalie.

I dati raccolti vengono continuamente alimentati in un database dove possono essere analizzati, graficati e visualizzati su dashboard. Questo assicura che tutti i soggetti interessati abbiano accesso alle informazioni di cui hanno bisogno in tempo reale.

Controlli Speciali

Un punto di forza di Checkmk è quanto sia facile per il team creare nuovi controlli per il monitoraggio. Ad esempio, sono stati sviluppati controlli personalizzati per monitorare la salute di server specifici, monitorare lo stato dei lavori e persino controllare eventuali problemi con la rete che trasporta i dati.

Questi controlli speciali si sono rivelati utili per mantenere le prestazioni di ARCHER2, aiutando a identificare i problemi in anticipo. Quando si presenta un problema, il team di monitoraggio può accedere rapidamente ai dati pertinenti per diagnosticare e risolvere il problema.

Implementazione del Monitoraggio Durante l'Installazione di ARCHER2

Monitoraggio Energetico

Una delle aree critiche del monitoraggio è il consumo energetico di ARCHER2. Il sistema utilizza un'importante quantità di energia, quindi è fondamentale tenere traccia del suo utilizzo per assicurarsi che tutto funzioni entro i limiti di progetto. I dati vengono raccolti dai rettificatori che forniscono energia, fornendo letture ogni cinque secondi.

Queste informazioni vengono visualizzate in grafici in tempo reale, consentendo al team di vedere quanta energia sta utilizzando ciascun armadio e di monitorare il consumo energetico complessivo. Un tracciamento così dettagliato aiuta a gestire efficacemente le esigenze energetiche del sistema.

Monitoraggio dello Stato dei Nod

Tenere traccia dello stato dei nodi, o delle singole unità di elaborazione, è un altro aspetto essenziale del sistema di monitoraggio. Questo significa tenere d'occhio quali nodi funzionano bene e quali potrebbero avere problemi. Utilizzando il pianificatore Slurm, uno strumento popolare per gestire le risorse nei supercomputer, il sistema di monitoraggio può riportare lo stato di tutti i nodi di calcolo.

Queste informazioni vengono raccolte automaticamente e aiutano il team a mantenere alta disponibilità per gli utenti identificando rapidamente i nodi che sono "giù" e affrontando i problemi.

Monitoraggio della Disponibilità di Accesso

Assicurarsi che gli utenti possano accedere a ARCHER2 è fondamentale per il suo funzionamento. È stato creato un controllo specifico per monitorare la disponibilità di accesso testando l'accesso a intervalli regolari. Questo ha comportato la creazione di un account utente di test accessibile solo dal server di monitoraggio. Il sistema controlla la possibilità di accesso e riporta immediatamente eventuali fallimenti.

Impatto del Monitoraggio sull'Implementazione di ARCHER2

Le fasi iniziali di installazione e test di ARCHER2 sono state notevolmente supportate dai sistemi di monitoraggio in atto. Ad esempio, il team ha incontrato vari problemi con i sistemi di nomi di dominio (DNS) interni ed esterni. Con il monitoraggio attivo, sono stati avvisati rapidamente di questi problemi, permettendo loro di indagare e risolverli tempestivamente.

Il monitoraggio si è dimostrato utile anche durante i test dei benchmark ad alte prestazioni Linpack (HPL). Durante questi test, sono stati individuati rapidamente problemi legati al ciclo di alimentazione (dove il consumo di energia è diminuito inaspettatamente), consentendo al team di identificare e affrontare i nodi difettosi.

Durante le esecuzioni di successo, ARCHER2 ha raggiunto punteggi straordinari nei benchmark, classificandosi infine al 22° posto nella lista Top500 dei supercomputer con una prestazione di 19,5 PFlop/s.

Monitoraggio Automato per Obblighi Contrattuali

Per soddisfare gli obblighi contrattuali con gli enti di finanziamento della ricerca, è stato sviluppato un sistema per automatizzare il monitoraggio delle metriche fondamentali come la disponibilità dei nodi e le prestazioni complessive del servizio. I dati raccolti dagli strumenti di monitoraggio vengono compilati e resi disponibili per la reportistica. Questo consente ai project manager di generare rapporti dettagliati sulla disponibilità del sistema per audit e valutazioni.

Grafici in tempo reale che mostrano la disponibilità dei nodi e le prestazioni del servizio sono accessibili agli stakeholder pertinenti, fornendo trasparenza e garanzia che il sistema funzioni come previsto.

Sviluppi Futuri nel Monitoraggio

Con il progredire di ARCHER2, sono in programma potenziamenti delle capacità di monitoraggio. Questo include l'introduzione di nuovi strumenti per l'analisi dei log, approfondimenti più dettagliati nella segnalazione degli errori e statistiche per lavoro. Questi sviluppi mirano ad aumentare l'usabilità e la funzionalità del sistema di monitoraggio.

Inoltre, rendere i dati di monitoraggio più accessibili agli utenti aiuterà a incoraggiare un approccio collaborativo alla gestione del sistema e alla risoluzione dei problemi.

Conclusione

In sintesi, l'implementazione di ARCHER2 e del suo sistema di monitoraggio mostra una strategia ben pianificata che combina tecnologia e collaborazione. Utilizzando strumenti come Checkmk e Graphite, il team di Edimburgo ha creato un ambiente robusto che supporta attività di ricerca di alto livello.

Il monitoraggio continuo della salute e delle prestazioni del sistema non solo migliora l'affidabilità del servizio, ma assicura anche che tutti gli utenti possano accedere e utilizzare il supercomputer in modo efficace. Man mano che il sistema matura, i miglioramenti e le adattamenti costanti alla strategia di monitoraggio giocheranno un ruolo fondamentale nel suo successo.

Fonte originale

Titolo: Automated service monitoring in the deployment of ARCHER2

Estratto: The ARCHER2 service, a CPU based HPE Cray EX system with 750,080 cores (5,860 nodes), has been deployed throughout 2020 and 2021, going into full service in December of 2021. A key part of the work during this deployment was the integration of ARCHER2 into our local monitoring systems. As ARCHER2 was one of the very first large-scale EX deployments, this involved close collaboration and development work with the HPE team through a global pandemic situation where collaboration and co-working was significantly more challenging than usual. The deployment included the creation of automated checks and visual representations of system status which needed to be made available to external parties for diagnosis and interpretation. We will describe how these checks have been deployed and how data gathered played a key role in the deployment of ARCHER2, the commissioning of the plant infrastructure, the conduct of HPL runs for submission to the Top500 and contractual monitoring of the availability of the ARCHER2 service during its commissioning and early life.

Autori: Kieran Leach, Philip Cass, Steven Robson, Eimantas Kazakevicius, Martin Lafferty, Andrew Turner, Alan Simpson

Ultimo aggiornamento: 2023-03-21 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.11731

Fonte PDF: https://arxiv.org/pdf/2303.11731

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili