Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# ネットワーキングとインターネット・アーキテクチャ

SMaRTTの紹介: ネットワーク混雑制御への新しいアプローチ

SMaRTTは、素早い応答と効果的なルーティングを使ってAIワークロードのネットワークパフォーマンスを改善するよ。

― 1 分で読む


SMaRTT:SMaRTT:ネットワーキングのゲームチェンジャーまく対処。新しい混雑制御方法がAIデータの需要にう
目次

機械学習(ML)がデータセンターでどんどん使われるようになるにつれて、ネットワークの混雑を管理する従来の方法は追いつかなくなってきてる。MLトラフィックは予測が難しいし、ユーザー間の公平性を保つためには素早い反応が必要なんだ。遅延を待つだけの既存の混雑制御法は反応が遅くて、不公平な結果を招くこともある。

この問題に対処するために、SMaRTTという新しい方法を開発したよ。これは、Sender-based Marked Rapidly-adapting Trimmed Timed Transportの略。SMaRTTは2つの主要な信号を使ってる:往復時間(RTT)と明示的混雑通知(ECN)。ネットワークスイッチが許可する場合、SMaRTTはパケットをトリムして混雑に素早く反応することもできるんだ。

この新しいアプローチは、QuickAdaptというテクニックを導入してて、受信者の混雑信号に基づいて利用可能な帯域幅を推定するんだ。また、SMaRTTをREPSというトラフィックルーティング手法と連携させてる。REPSはRecycle Entropy Packet Sprayingの略で、混雑したエリアや信頼性の低いリンクを避けてパケットを再ルーティングするのを助けてくれる。テスト結果では、SMaRTTが既存の方法に比べてパフォーマンスを大幅に向上させることがわかったよ。

パフォーマンスの必要性が高まってる

今のAI中心のデータセンターでは、高いパフォーマンスと大規模なコンピューティングが急激に必要とされてる。これは、大規模なAIトレーニングの急成長や、クラウドで利用できる高性能コンピューティング(HPC)サービスの増加からも明らかだ。このシフトに伴い、速いデータ転送と低遅延が極めて重要になってきてる。これらの需要を満たすためには、適切なネットワークインフラとプロトコルが必要なんだ。

この需要の明確な兆候は統計に見られる:Azureのトラフィックの約70%がリモートダイレクトメモリアクセス(RDMA)技術を使っていて、主要なクラウドプロバイダーも同様の技術に多く投資してる。ただ、多くの既存のネットワークプロトコルは、現代のデータセンターの高帯域幅要求にうまく対応できてない。例えば、収束イーサネット(RoCE)を使うRDMAは、大量のスイッチバッファメモリが必要だったり、PFCストームが発生したり、パケットが特定の順序で配信される必要があったりするんだ。

SMaRTTとREPSの紹介

この課題に対抗するために、SMaRTTとREPSのロードバランシングスキームを紹介するよ。SMaRTTは損失のあるイーサネットネットワークで動作して、リアクティブで、可視性があって、簡単に展開できるように新しいワークロードや技術に適応するんだ。

SMaRTTの特徴

リアクティブ: 現代のデータセンターのトラフィックは、多くの小さなリクエストが同時に発生することが多いんだ。例えば、Googleのデータセンターでは、リモートプロシージャコール(RPC)の最大80%が小さな帯域幅遅延製品に収まってる。こういうバーストトラフィックのために、混雑制御は素早く反応する必要がある。遅延だけに焦点を当てた従来の方法は、短いバーストに対して反応が遅くなって、フロー完了時間が長くなったり、公平性が損なわれたりすることがある。SMaRTTはECNと遅延を組み合わせて、混雑に素早く反応するんだ。

可視性: 多くの混雑制御アルゴリズム、特に受信者の視点に基づくものは、ネットワークの最後のホップに主に焦点を当ててる。このアプローチは、新しいトランスポートプロトコルや、ネットワーク内で早い段階で混雑が発生するワークロードに対してパフォーマンスが悪くなることがある。SMaRTTは、ネットワーク全体での混雑を管理することで可視性を向上させて、帯域幅利用率を良くし、不必要な遅延を減らすんだ。

展開可能性: データセンターのノードやネットワークフローの数が増えるにつれて、フローステートを追跡するためのメモリが限られてくるんだ。SMaRTTは最小限のメモリを使うように設計されてて、帯域幅や複雑さが急増する環境に展開しやすくなってる。

SMaRTTの主要な貢献

  1. SMaRTT この送信者ベースの混雑制御メソッドは、ECNマークとRTT測定を使って、複雑なテレメトリに頼らずに素早く調整を行う。広範なメモリを必要とせず、パケットのトリミングがサポートされなくても効果的に適応できるんだ。

  2. REPS: この軽量な適応型ロードバランシングメカニズムは、パケットごとのエントロピリサイクリングを使ってパフォーマンスを改善する。REPSは高帯域幅レベルでのパフォーマンスを維持しつつ、混雑エリアを避けてパケットを再ルーティングすることができる。

  3. QuickAdapt: SMaRTTが変化するネットワーク条件に迅速に適応できるメカニズムで、パケットロスの回復時間を大幅に短縮するんだ。

  4. 公平な増加/減少: 最近のネットワークパフォーマンスに基づいて混雑ウィンドウを調整することで、帯域幅の割り当てでより良い公平性を実現するメソッドだよ。

既存のアルゴリズムとの比較

SMaRTTは、EQDSやSwiftのようなバリアントと比較されたんだ。その結果、SMaRTTはどちらにも大幅に優れてることが示された、特に複数のノードが同時にデータを送信する環境ではね。

パフォーマンス分析

評価では、さまざまなコミュニケーションワークロードに関するシナリオを見たよ:

  • インキャストワークロード: ここでは、たくさんのリクエストが同時に1つの受信者に送信される状況をシミュレートしてる。SMaRTTは特にここで効果的で、トラフィックや混雑をよりうまく管理することで従来の方法よりも優れた結果を出してる。

  • 置換シナリオ: これは、すべてのパケットがコアスイッチを通過しなければならないポイントツーポイント接続をテストしてる。メッセージサイズが増加するにつれて、SMaRTTはEQDSや他の方法に比べてパケットフローをより良く処理することができる。

  • 全対全通信: このワークロードはAI用途で一般的で、SMaRTTはこうした集団操作を管理するのにより良いパフォーマンスを示してる。

REPSを使うメリット

REPSはSMaRTTと一緒に動いてネットワークパフォーマンスを改善するんだ:

  • パケットをネットワーク経由で送信する際の遅延を減らし、フロー完了時間を改善する。
  • エントロピーをリサイクルすることでトラフィックの分配を良くし、より効率的なルーティングを実現する。
  • ネットワークの変化や障害が発生したときに迅速にルーティングパスを適応させることでレジリエンスを提供する。

ネットワーク問題への対処

SMaRTTとREPSは、故障や非対称性の管理でも優れてる。例えば、ネットワーク内のリンクが失敗した場合、REPSは利用可能なパスを通じてパケットを素早く再ルーティングすることで、パケットロスを大幅に減らし、こうしたイベント中のパフォーマンスを維持することができるんだ。

結論

要するに、SMaRTTとREPSは、データセンターにおける現代のMLワークロードによる増大する要求に対する効果的な解決策を提供するんだ。素早い反応時間、可視性、展開の容易さに注目することで、これらの方法はネットワークパフォーマンスを大幅に向上させてくれる。評価の結果、SMaRTTは既存のアルゴリズムに対して大きな差をつけて優れてることが示されたから、今日のAI中心の環境でネットワークトラフィックを管理するための不可欠なツールだよ。

データセンターが成長し続けて、高性能コンピューティングに依存する中で、SMaRTTやREPSのような方法は、すべてのユーザーにとって効率的で公平なネットワークパフォーマンスを確保するために重要な役割を果たすだろうね。

オリジナルソース

タイトル: ARCANE: Adaptive Routing with Caching and Network Exploration

概要: Most datacenter transport protocols traditionally depend on in-order packet delivery, a legacy design choice that prioritizes simplicity. However, technological advancements, such as RDMA, now enable the relaxation of this requirement, allowing for more efficient utilization of modern datacenter topologies like FatTree and Dragonfly. With the growing prevalence of AI/ML workloads, the demand for improved link utilization has intensified, creating challenges for single-path load balancers due to problems like ECMP collisions. In this paper, we present ARCANE, a novel, adaptive per-packet traffic load-balancing algorithm designed to work seamlessly with existing congestion control mechanisms. ARCANE dynamically routes packets to bypass congested areas and network failures, all while maintaining a lightweight footprint with minimal state requirements. Our evaluation shows that ARCANE delivers significant performance gains over traditional load-balancing methods, including packet spraying and other advanced solutions, substantially enhancing both performance and link utilization in modern datacenter networks.

著者: Tommaso Bonato, Abdul Kabbani, Ahmad Ghalayini, Mohammad Dohadwala, Michael Papamichael, Daniele De Sensi, Torsten Hoefler

最終更新: 2024-09-20 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2407.21625

ソースPDF: https://arxiv.org/pdf/2407.21625

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事