Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 分散・並列・クラスターコンピューティング# コンピュータと社会# パフォーマンス

新しいシステムがデータセンターのエネルギー監視を改善するよ

新しいアプローチが、侵入的な方法なしでアプリケーションレベルの電力使用を推定する。

― 1 分で読む


データセンターの革命的な電データセンターの革命的な電力監視高める。非侵入型システムがエネルギー追跡の精度を
目次

データセンターは、ディープラーニングやビッグデータ処理といった高需要なタスクを支えるために急速に成長してる。でも、この成長はエネルギー使用やカーボン排出についての懸念を引き起こしてるんだ。エネルギー効率を向上させるためには、特定のアプリケーションやユーザーのためにエネルギー消費を正確にモニタリングすることが重要なんだ。従来のサーバーやラックレベルでのエネルギー使用測定は、個々のアプリケーションには必要な詳細を提供できないし、多くのサーバーが同時に複数のアプリケーションを動かしてるから余計に難しい。

今のアプリケーションレベルでエネルギー使用をモニタリングする技術は、しばしば侵入的なんだ。サーバーリソースへの特別なアクセスや追加のハードウェア・ソフトウェアサポートが必要で、クラウド環境では実現が難しい場合もある。そこで、サーバーのオペレーティングシステムに直接アクセスせずに個々のアプリケーションの電力使用を推定する新しいシステムが開発された。このシステムは、サーバーの総電力使用量の外部測定を分析して、アプリケーションごとのエネルギーデータを提供するんだ。

モニタリングの必要性

データセンターが計算能力の増大に応じて拡大するに伴い、エネルギー消費も大幅に増加してる。たとえば、データセンターの容量は2010年から2018年の間に6倍に増加したって報告されてる。この容量の急増は、機械学習、クリプトマイニング、データ分析といったアプリケーションが大量の処理リソースを必要とするからなんだ。エネルギー効率が改善されても、データセンターのエネルギー消費は今後数年で急激に増加するって予測されてる。

このエネルギー消費の増加は、環境への影響についての懸念を引き起こしてる。多くのテクノロジー企業は、今後数十年以内にカーボンニュートラルを達成するための野心的な目標を設定してる。エネルギー使用やカーボン排出を効果的に削減するためには、アプリケーションが自分たちの電力消費を把握できることが不可欠なんだ。しかし、ほとんどのデータセンターはサーバーやラックレベルでの大まかな測定値しか持っていないから、アプリケーションは自分たちの具体的なエネルギー使用を把握するのが難しい。

現行技術の問題点

現行のアプローチは、特定のアプリケーションに電力使用を割り当てるために、サーバー全体のリソース利用メトリクスに依存してる。これらの方法は、複数のアプリケーションを動かしているクラウドユーザーには利用できないハードウェアモニタリング機能が必要なんだ。さらに、侵入的なプロセスレベルの電力モニタリングは、オーバーヘッドを生むし、必要なリソースのために多くのシナリオでは現実的ではない。

もう一つの課題は、ハードウェアインターフェースの標準化が欠如していること。だから既存の技術は特定のハードウェア用に設計しなければならないことが多い。このサポートの欠如が、クラウド環境でのアプリケーションレベルの細かいモニタリングを難しくしてる。その結果、アプリケーションレベルでの電力使用を正確に測定できないことが、エネルギー効率と持続可能性の目標を達成する妨げになってる。

電力モニタリングへの新しいアプローチ

この課題に対処するために、アプリケーションレベルの電力消費をモニタリングする新しいシステムが設計された。このシステムは、サーバーやラックに取り付けられた外部メーターからの集計電力データを分析して電力使用を推定する。分解技術を使って、サーバーの総電力消費を個々のアプリケーションの電力使用量に分けることができるんだ。

このシステムの鍵となるアイデアは、データセンターのワークロードの電力特性(遅い変動、低い大きさ、定期的なパターンなど)が、サーバーの総電力消費をアプリケーション特有の値に分けるのに役立つということ。既存の建物用に開発された機械学習技術を活用して、サーバーやラックの電力測定に応用するんだ。

プロダクションワークロードの分析

このシステムを開発するために、実際のプロダクションワークロードのジョブ特性についての広範な分析が行われた。この分析は、特定の期間にわたって主要なクラウドプロバイダーから収集されたリソース使用データに焦点を当ててる。このデータには、リソース利用パターンが含まれており、ジョブのリソース使用の定期性と変動性が重視された。

分析の結果、多くのジョブは比較的一貫した使用パターンを示し、低い変動性と周期的な挙動が特徴であることがわかった。こうした特性は、電力使用の分解にとって有利なんだ。大規模なデータセット内で電力特性を捉えることで、システムはアプリケーションレベルの電力消費を効果的に推測できるようになる。

システムの設計特徴

新しいシステムは、いくつかの主要なコンポーネントで構成されている:モデルトレーナー、分解器、パフォーマンスモニター。

モデルトレーナー

モデルトレーナーは、異なるタイプのアプリケーションのために電力使用を分解できるモデルのライブラリを作成する役割を担ってる。アプリケーションレベルの電力使用、サーバーレベルの電力消費、アプリケーションに関するメタ情報を含む履歴データを利用するんだ。

正確なエネルギー分解モデルを作成するために、システムは既存の文献からのさまざまな技術を活用してる。スライディングウィンドウアプローチを採用して、最近の電力使用データを入力として扱い、モデルが個々のアプリケーションの電力パターンを効果的に学習して適応できるようにしてる。

分解器

分解器はリアルタイムで動作し、訓練されたモデルを使って、集計されたサーバーデータに基づいて個々のアプリケーションの電力消費を推定する。新しい電力サンプルが報告されるたびに、分解器がそれを分析して、サーバー上で動作している各アプリケーションの平均電力使用を推定するんだ。

パフォーマンスモニター

パフォーマンスモニターは、展開された分解モデルのパフォーマンスを追跡する役割を果たす。アプリケーション特性やワークロードの変化によりモデルの精度が低下した場合には、パフォーマンスモニターがモデルセレクターに新しいモデルを選ぶように指示するんだ。

ジョブ特性の分析

ジョブのさまざまな特性は、その電力使用がどれだけ正確に分解できるかに大きな影響を与えるんだ。これらの要素には、変動性、定期性、電力消費の強度が含まれる。

変動性

変動性は、ジョブの電力消費が時間とともにどれだけ変わるかを示してる。変動性が高いほど、モデルが電力使用を正確に分解するのが難しくなる。電力消費の低い変動性を持つジョブは、信頼できる分解モデルを作成するのが容易になるんだ。

定期性

定期性は、ジョブの電力使用における予測可能なパターンを指す。定期的なパターンを示すジョブは、モデルがこれらのパターンを学習して新しいデータに適用できるため、より正確に分解することができる。電力消費における周期的な挙動を特定することは、分解精度を向上させるために重要なんだ。

強度

強度は、ジョブの平均電力使用を指す。非常に高いまたは非常に低い強度を持つジョブは、一般的に中程度の強度のジョブよりも分解しやすい。これは、高いまたは低い平均電力使用がほとんど変動を提供せず、アプリケーションの全体的な電力消費への寄与を特定しやすくなるためなんだ。

実装と評価

このシステムは、クラウドプロバイダーからの実際のワークロードトレースを使用して実装・評価された。評価では、制御された環境でサーバーから収集した実際の電力消費データに対する電力分解の精度を測定することに焦点が当てられた。

システムのテスト

テストでは、システムは電力使用を正確に分解でき、さまざまなジョブタイプで低い平均絶対誤差(MAE)および正規化平均絶対誤差(NMAE)を達成した。結果として、大多数のジョブに対して分解誤差が10%未満であることが示されていて、提案されたシステムが実際のデータセンター環境で効果的に機能することができるんだ。

実世界のアプリケーション

このシステムの影響は、エネルギー効率を改善したいデータセンターオペレーターにとって重要なんだ。アプリケーションレベルの電力消費の詳細な可視性を提供することにより、オペレーターはリソースをよりうまく管理し、エネルギー使用を最適化できる。これにより、運用コストを削減でき、カーボン排出を減らすことで持続可能性の目標を達成できるんだ。

結論

全体として、このシステムは、外部サーバー測定を通じてアプリケーションレベルの電力消費を非侵入的に推定する新しいアプローチを示してる。従来のモニタリング技術の制限に対処し、共有サーバー上で動作するアプリケーションのエネルギー使用についての有用な洞察を提供する。エネルギー管理の実践を改善することで、このシステムはデータセンターにおける持続可能性と効率の向上に寄与するんだ。

オリジナルソース

タイトル: WattScope: Non-intrusive Application-level Power Disaggregation in Datacenters

概要: Datacenter capacity is growing exponentially to satisfy the increasing demand for emerging computationally-intensive applications, such as deep learning. This trend has led to concerns over datacenters' increasing energy consumption and carbon footprint. The basic prerequisite for optimizing a datacenter's energy- and carbon-efficiency is accurately monitoring and attributing energy consumption to specific users and applications. Since datacenter servers tend to be multi-tenant, i.e., they host many applications, server- and rack-level power monitoring alone does not provide insight into their resident applications' energy usage and carbon emissions. At the same time, current application-level energy monitoring and attribution techniques are intrusive: they require privileged access to servers and require coordinated support in hardware and software, which is not always possible in cloud. To address the problem, we design WattScope, a system for non-intrusively estimating the power consumption of individual applications using external measurements of a server's aggregate power usage without requiring direct access to the server's operating system or applications. Our key insight is that, based on an analysis of production traces, the power characteristics of datacenter workloads, e.g., low variability, low magnitude, and high periodicity, are highly amenable to disaggregation of a server's total power consumption into application-specific values. WattScope adapts and extends a machine learning-based technique for disaggregating building power and applies it to server- and rack-level power meter measurements in data centers. We evaluate WattScope's accuracy on a production workload and show that it yields high accuracy, e.g., often

著者: Xiaoding Guan, Noman Bashir, David Irwin, Prashant Shenoy

最終更新: 2023-09-22 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2309.12612

ソースPDF: https://arxiv.org/pdf/2309.12612

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事