Nouveau système améliore le suivi énergétique dans les centres de données
Une nouvelle approche estime la consommation d'énergie au niveau des applications sans méthodes intrusives.
― 10 min lire
Table des matières
- Le besoin de surveiller
- Problèmes avec les techniques actuelles
- Une nouvelle approche pour la surveillance énergétique
- Analyse des charges de travail de production
- Caractéristiques de conception du système
- Analyse des caractéristiques des tâches
- Mise en œuvre et évaluation
- Applications concrètes
- Conclusion
- Source originale
- Liens de référence
Les centres de données se développent rapidement pour répondre aux tâches à forte demande comme l'apprentissage profond et le traitement de big data. Mais cette croissance soulève des inquiétudes sur la Consommation d'énergie et les émissions de carbone. Pour améliorer l'efficacité énergétique, il est crucial de surveiller la consommation d'énergie de manière précise pour des applications et des utilisateurs spécifiques. Les méthodes traditionnelles de mesure de la consommation d'énergie au niveau des serveurs ou des racks ne fournissent pas les détails nécessaires pour chaque application, surtout que de nombreux serveurs font tourner plusieurs applications en même temps.
Les techniques actuelles pour surveiller la consommation d'énergie au niveau des applications sont souvent intrusives. Elles nécessitent un accès spécial aux ressources du serveur et du matériel et logiciel supplémentaires, ce qui peut ne pas être faisable dans des environnements cloud. Pour surmonter ce problème, un nouveau système a été développé pour estimer l'utilisation de l'énergie pour des applications individuelles sans avoir besoin d'accès direct au système d'exploitation du serveur. Ce système analyse les mesures externes de la consommation totale d'énergie d'un serveur pour fournir des données énergétiques spécifiques aux applications.
Le besoin de surveiller
Alors que les centres de données s'agrandissent pour répondre à la demande croissante de puissance de calcul, la consommation d'énergie a également considérablement augmenté. Par exemple, la capacité des centres de données aurait augmenté de 6 fois entre 2010 et 2018. Cette explosion de capacité est alimentée par des applications comme l'apprentissage automatique, le cryptomining et l'analyse de données, qui nécessitent des ressources de traitement substantielles. Malgré les améliorations de l'efficacité énergétique, la consommation d'énergie des centres de données devrait augmenter fortement dans les années à venir à cause des limites des technologies actuelles.
La consommation d'énergie croissante a suscité des préoccupations quant à son impact environnemental. De nombreuses entreprises technologiques fixent désormais des objectifs ambitieux de neutralité carbone dans les prochaines décennies. Pour réduire efficacement l'utilisation d'énergie et les émissions de carbone, il est essentiel que les applications aient une visibilité sur leur consommation d'énergie. Malheureusement, la plupart des centres de données n'ont que des mesures grossières au niveau des serveurs ou des racks, ce qui rend difficile pour les applications d'évaluer leur utilisation énergétique spécifique.
Problèmes avec les techniques actuelles
Les méthodes existantes pour attribuer la consommation d'énergie à des applications spécifiques reposent généralement sur des métriques d'Utilisation des ressources de l'ensemble du serveur. Ces méthodes nécessitent souvent des capacités de surveillance matérielle qui ne sont pas disponibles pour les utilisateurs cloud faisant tourner plusieurs applications. De plus, la surveillance intrusive de l'énergie au niveau des processus peut créer une surcharge et n'est pas pratique pour de nombreux scénarios à cause des ressources nécessaires.
Un autre défi est le manque de standardisation dans les interfaces matérielles, ce qui signifie que les techniques existantes doivent souvent être conçues pour des types de matériel spécifiques. Ce manque de soutien complique les efforts pour permettre une surveillance fine au niveau des applications dans les environnements cloud. En conséquence, l'incapacité à mesurer précisément l'utilisation de l'énergie au niveau des applications constitue un obstacle à l'atteinte des objectifs d'efficacité énergétique et de durabilité.
Une nouvelle approche pour la surveillance énergétique
Pour relever ce défi, un nouveau système de surveillance de la consommation d'énergie au niveau des applications a été conçu. Ce système estime l'utilisation d'énergie en analysant les relevés de puissance agrégés de compteurs externes connectés aux serveurs ou aux racks. En utilisant des techniques de Désagrégation, il sépare la consommation d'énergie totale d'un serveur en valeurs spécifiques d'utilisation d'énergie pour chaque application sans nécessiter d'accès intrusif au serveur.
L'idée clé est que les caractéristiques de puissance des charges de travail dans les centres de données-comme la faible variabilité, la faible magnitude et les motifs réguliers-peuvent efficacement soutenir la séparation de la consommation totale d'énergie d'un serveur en valeurs spécifiques aux applications. Le système adapte les techniques d'apprentissage automatique existantes, initialement développées pour les bâtiments, et les applique aux mesures d'énergie des serveurs et des racks.
Analyse des charges de travail de production
Pour développer ce système, une analyse approfondie des caractéristiques des tâches à partir des charges de travail de production a été réalisée. L'analyse s'est concentrée sur les données d'utilisation des ressources collectées auprès des principaux fournisseurs de cloud sur une période spécifique. Ces données comprenaient des modèles d'utilisation des ressources, avec un accent mis sur la régularité et la variabilité de l'utilisation des ressources des tâches.
L'analyse a révélé que de nombreuses tâches présentent un modèle d'utilisation assez cohérent, caractérisé par une faible variabilité et un comportement périodique. De telles caractéristiques sont avantageuses pour désagréger l'utilisation de l'énergie. En capturant les caractéristiques de puissance au sein d'un ensemble de données à grande échelle, le système peut efficacement déduire la consommation d'énergie au niveau des applications.
Caractéristiques de conception du système
Le nouveau système comprend plusieurs composants clés : un formateur de modèle, un désagrégateur et un moniteur de performance.
Formateur de modèle
Le formateur de modèle est responsable de la création d'une bibliothèque de modèles qui peuvent désagréger l'utilisation d'énergie pour différents types d'applications. Il utilise des données historiques qui incluent l'utilisation d'énergie au niveau des applications, la consommation d'énergie au niveau des serveurs, et des méta-informations sur les applications.
Pour créer des modèles de désagrégation énergétique précis, le système utilise diverses techniques issues de la littérature existante. Il emploie une approche de fenêtre glissante, prenant les données récentes d'utilisation d'énergie comme entrée, permettant au modèle d'apprendre et de s'adapter efficacement aux motifs de puissance affichés par les applications individuelles.
Désagrégateur
Le désagrégateur fonctionne en temps réel, utilisant les modèles entraînés pour estimer la consommation d'énergie des applications individuelles en fonction des données agrégées du serveur. Chaque fois qu'un nouvel échantillon de puissance est rapporté, le désagrégateur l'analyse et déduit la consommation d'énergie moyenne pour chaque application fonctionnant sur le serveur.
Moniteur de performance
Le moniteur de performance suit la performance des modèles de désagrégation déployés. Si la précision d'un modèle diminue à cause de changements dans les caractéristiques d'application ou de charge de travail, le moniteur de performance signale au sélecteur de modèle qu'il doit choisir un nouveau modèle.
Analyse des caractéristiques des tâches
Différentes caractéristiques des tâches ont un impact significatif sur la précision avec laquelle leur utilisation d'énergie peut être désagrégée. Ces facteurs incluent la variabilité, la régularité et l'intensité de la consommation d'énergie.
Variabilité
La variabilité reflète combien la consommation d'énergie d'une tâche change au fil du temps. Plus la variabilité est élevée, plus il est difficile pour le modèle de désagréger correctement l'utilisation d'énergie. Les tâches avec une faible variabilité dans la consommation d'énergie facilitent la création d'un modèle fiable pour la désagrégation.
Régularité
La régularité fait référence à des motifs prévisibles dans l'utilisation de l'énergie d'une tâche. Les tâches qui présentent des motifs réguliers peuvent être désagrégées plus précisément, car le modèle peut apprendre ces motifs et les appliquer à de nouvelles données. Identifier le comportement périodique dans la consommation d'énergie est essentiel pour améliorer la précision de désagrégation.
Intensité
L'intensité est l'utilisation moyenne d'énergie d'une tâche. Les tâches qui ont une intensité très élevée ou très faible sont généralement plus faciles à désagréger par rapport à celles ayant une intensité moyenne. Cela s'explique par le fait qu'une utilisation d'énergie moyenne élevée ou faible offre moins de variation, ce qui facilite l'identification de la contribution de l'application à la consommation globale d'énergie.
Mise en œuvre et évaluation
Le système a été mis en œuvre et évalué en utilisant des traces de charges de travail réelles provenant de fournisseurs de cloud. L'évaluation s'est concentrée sur la mesure de la précision de la désagrégation énergétique par rapport aux données de consommation d'énergie réelles collectées auprès des serveurs dans un environnement contrôlé.
Test du système
Lors des tests, le système a pu désagréger l'utilisation d'énergie avec précision, atteignant de faibles erreurs absolues moyennes (MAE) et des erreurs absolues moyennes normalisées (NMAE) à travers divers types de tâches. Les résultats ont montré qu'une grande majorité des tâches avaient moins de 10 % d'erreur de désagrégation, indiquant que le système proposé peut fonctionner efficacement dans des environnements de centres de données réels.
Applications concrètes
Les implications de ce système sont significatives pour les opérateurs de centres de données cherchant à améliorer l'efficacité énergétique. En offrant une visibilité granulaire sur la consommation d'énergie au niveau des applications, les opérateurs peuvent mieux gérer les ressources et optimiser l'utilisation de l'énergie. Cela peut conduire à une réduction des coûts opérationnels et aider à atteindre les objectifs de durabilité en réduisant les émissions de carbone.
Conclusion
Dans l'ensemble, le système démontre une approche novatrice pour estimer sans intrusion la consommation d'énergie au niveau des applications grâce à l'utilisation de mesures externes des serveurs. Il répond aux limites des techniques de surveillance traditionnelles et fournit des informations utiles sur l'utilisation énergétique des applications fonctionnant sur des serveurs partagés. En permettant de meilleures pratiques de gestion énergétique, ce système contribue aux efforts continus pour promouvoir la durabilité et l'efficacité dans les centres de données.
Titre: WattScope: Non-intrusive Application-level Power Disaggregation in Datacenters
Résumé: Datacenter capacity is growing exponentially to satisfy the increasing demand for emerging computationally-intensive applications, such as deep learning. This trend has led to concerns over datacenters' increasing energy consumption and carbon footprint. The basic prerequisite for optimizing a datacenter's energy- and carbon-efficiency is accurately monitoring and attributing energy consumption to specific users and applications. Since datacenter servers tend to be multi-tenant, i.e., they host many applications, server- and rack-level power monitoring alone does not provide insight into their resident applications' energy usage and carbon emissions. At the same time, current application-level energy monitoring and attribution techniques are intrusive: they require privileged access to servers and require coordinated support in hardware and software, which is not always possible in cloud. To address the problem, we design WattScope, a system for non-intrusively estimating the power consumption of individual applications using external measurements of a server's aggregate power usage without requiring direct access to the server's operating system or applications. Our key insight is that, based on an analysis of production traces, the power characteristics of datacenter workloads, e.g., low variability, low magnitude, and high periodicity, are highly amenable to disaggregation of a server's total power consumption into application-specific values. WattScope adapts and extends a machine learning-based technique for disaggregating building power and applies it to server- and rack-level power meter measurements in data centers. We evaluate WattScope's accuracy on a production workload and show that it yields high accuracy, e.g., often
Auteurs: Xiaoding Guan, Noman Bashir, David Irwin, Prashant Shenoy
Dernière mise à jour: 2023-09-22 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.12612
Source PDF: https://arxiv.org/pdf/2309.12612
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://dx.doi.org/#1
- https://www.srgresearch.com/articles/hyperscale-data-center-count-reaches-541-mid-2020-another-176-pipeline
- https://digiconomist.net/bitcoin-energy-consumption
- https://openai.com/blog/ai-and-compute/
- https://datacenterfrontier.com/achieving-energy-efficiency-in-data-centers/
- https://google.com/about/datacenters/efficiency/
- https://www.reuters.com/article/us-amazon-environment/amazon-vows-to-be-carbon-neutral-by-2040-buying-100000-electric-vans-idUSKBN1W41ZV
- https://www.irishtimes.com/news/environment/facebook-commits-to-net-zero-carbon-emissions-by-2030-1.4354701
- https://www.vmware.com/radius/achieving-carbon-neutrality/
- https://techcrunch.com/2020/09/14/google-claims-net-zero-carbon-footprint-over-its-entire-lifetime-aims-to-only-use-carbon-free-energy-by/-2030/
- https://blogs.microsoft.com/blog/2020/01/16/microsoft-will-be-carbon-negative-by-2030/
- https://01.org/blogs/2014/running-average-power-limit-
- https://www.sec.gov/news/press-release/2022-46
- https://www.intel.com/content/www/us/en/products/docs/servers/ipmi/ipmi-second-gen-interface-spec-v2-rev1-1.html
- https://redfish.dmtf.org/
- https://inria.hal.science/hal-00772454
- https://github.com/ColinIanKing/stress-ng
- https://learn.microsoft.com/en-us/azure/data-explorer/anomaly-detection
- https://learn.microsoft.com/en-us/azure/data-explorer/kusto/query/series-periods-detectfunction