Présentation de SMaRTT : Une nouvelle approche pour le contrôle de la congestion réseau
SMaRTT améliore la performance du réseau pour les charges de travail IA grâce à une réponse rapide et un routage efficace.
― 8 min lire
Table des matières
Avec la croissance de l'utilisation de l'apprentissage automatique (ML) dans les centres de données, les méthodes traditionnelles de gestion de la Congestion du réseau ont du mal à suivre. Le trafic ML est souvent imprévisible et nécessite une réponse rapide pour maintenir l'équité entre les utilisateurs. Les méthodes de contrôle de la congestion existantes qui reposent sur l'attente des délais réagissent souvent trop lentement et peuvent mener à de l'inéquité.
Pour relever ces défis, on a développé une nouvelle méthode appelée SMaRTT, qui signifie Sender-based Marked Rapidly-adapting Trimmed Timed Transport. SMaRTT utilise deux signaux principaux : le temps de trajet aller-retour (RTT) et la notification explicite de congestion (ECN). Lorsque les commutateurs réseau le permettent, SMaRTT peut aussi réduire les paquets pour réagir rapidement à la congestion.
Cette nouvelle approche introduit une technique appelée QuickAdapt, qui estime la bande passante disponible côté récepteur en se basant sur les signaux de congestion. On lie aussi SMaRTT à une méthode de routage du trafic nommée REPS, qui signifie Recycled Entropy Packet Spraying. REPS aide à rediriger les paquets autour des zones de congestion et des liaisons peu fiables. Nos tests montrent que SMaRTT peut améliorer les performances de manière significative par rapport aux méthodes existantes.
Le Besoin Croissant de Performance
Aujourd'hui, dans un monde de centres de données lourdement axés sur l'IA, le besoin de haute performance et de calcul à grande échelle a explosé. Cela se voit dans la croissance rapide de l'entraînement à grande échelle de l'IA et l'augmentation des services de calcul haute performance (HPC) disponibles dans le cloud. Avec ce changement, la demande de transferts de données rapides et de faibles délais est devenue cruciale. Une partie clé pour satisfaire ces demandes est d'avoir la bonne infrastructure réseau et les bons protocoles.
Un signe clair de cette demande se voit dans les statistiques : environ 70 % du trafic d'Azure utilise maintenant la technologie Remote Direct Memory Access (RDMA), et les grands fournisseurs de cloud investissent massivement dans des technologies similaires. Cependant, de nombreux protocoles réseau existants ne sont pas adaptés pour gérer efficacement les exigences de bande passante élevées des centres de données modernes. Par exemple, le RDMA sur Ethernet Convergé (RoCE) fait face à plusieurs défis, comme la nécessité d'une grande quantité de mémoire tampon sur les commutateurs, les tempêtes de PFC et la nécessité que les paquets soient livrés dans un ordre spécifique.
Présentation de SMaRTT et REPS
Pour lutter contre ces défis, on présente SMaRTT avec le schéma d'équilibrage de charge REPS. SMaRTT fonctionne sur des réseaux Ethernet avec perte, s'adaptant à de nouvelles charges de travail et technologies en étant réactif, visible et facile à déployer.
Caractéristiques de SMaRTT
Réactivité : Le trafic moderne des centres de données implique souvent de nombreuses petites requêtes se produisant simultanément. Par exemple, jusqu'à 80 % des appels de procédure à distance (RPC) dans les centres de données de Google s'inscrivent dans un petit produit bande passante-délai. À cause de ce trafic burst, le contrôle de la congestion doit réagir rapidement. Les méthodes traditionnelles qui se concentrent uniquement sur les délais réagissent souvent trop lentement aux courtes poussées, entraînant des temps d'achèvement des flux plus longs et moins d'équité. SMaRTT utilise une combinaison d'ECN et de délais pour réagir plus vite à la congestion.
Visibilité : De nombreux algorithmes de contrôle de la congestion, surtout ceux basés sur la perspective du récepteur, se concentrent principalement sur la dernière étape du réseau. Cette approche peut mener à de mauvaises performances dans les nouveaux protocoles de transport et charges de travail qui éprouvent la congestion plus tôt dans le réseau à cause de la surabondance. SMaRTT améliore la visibilité en gérant la congestion dans tout le réseau, ce qui permet une meilleure utilisation de la bande passante et réduit les délais inutiles.
Déployabilité : Avec l’augmentation du nombre de nœuds de centres de données et de flux réseau, la mémoire disponible pour suivre l'état des flux devient limitée. SMaRTT est conçu pour utiliser peu de mémoire, facilitant son déploiement dans des environnements avec des augmentations rapides de bande passante et de complexité.
Contributions Clés de SMaRTT
SMaRTT : Ce méthode de contrôle de la congestion basée sur l'expéditeur utilise à la fois le marquage ECN et les mesures RTT pour faire des ajustements rapides sans dépendre de télémetrie complexe. Elle évite le besoin d'une mémoire étendue et peut s'adapter efficacement même quand le rétrécissement des paquets n'est pas supporté.
REPS : Ce mécanisme léger d'équilibrage de charge adaptatif utilise le recyclage d'entropies par paquet pour améliorer les performances. REPS aide à maintenir des performances à des niveaux de bande passante élevés et peut rediriger les paquets autour des zones de congestion sans nécessiter de support spécifique des commutateurs.
QuickAdapt : Un mécanisme qui permet à SMaRTT de s'ajuster rapidement aux conditions changeantes du réseau, réduisant considérablement le temps de récupération des pertes de paquets.
Augmentation/Diminution Équitable : Une méthode qui aide à atteindre une meilleure équité dans l'allocation de la bande passante en ajustant la fenêtre de congestion en fonction des performances récentes du réseau.
Comparaison avec les Algorithmes Existants
SMaRTT a été évalué par rapport à deux autres algorithmes : EQDS et une variante de type Swift. Les résultats indiquent que SMaRTT surpasse significativement les deux, surtout dans les environnements où plusieurs nœuds envoient des données simultanément.
Analyse de Performance
Dans notre évaluation, on a regardé divers scénarios impliquant différentes charges de communication :
Charges de Travail Incast : Ce scénario simule une situation où de nombreuses requêtes sont envoyées simultanément à un seul récepteur. SMaRTT est particulièrement efficace ici, surpassant les méthodes traditionnelles en gérant le trafic et la congestion plus efficacement.
Scénarios de Permutation : Cela teste les connexions point à point où tous les paquets doivent traverser les commutateurs centraux. SMaRTT montre une meilleure gestion du flux de paquets par rapport à EQDS et d'autres méthodes lorsque les tailles de message augmentent.
Communication Tous-à-Tous : Cette charge de travail est courante dans les applications d'IA, et SMaRTT démontre de meilleures performances dans la gestion de ces opérations collectives.
Avantages de l'Utilisation de REPS
REPS fonctionne aux côtés de SMaRTT pour améliorer les performances du réseau en :
- Réduisant les délais et en améliorant les temps d'achèvement des flux lors de l'envoi de paquets à travers le réseau.
- Permettant une meilleure distribution du trafic par le recyclage des entropies, ce qui conduit à un routage plus efficace.
- Fournissant une résilience en cas de changements ou de pannes du réseau en adaptant rapidement les chemins de routage.
Gestion des Problèmes Réseau
SMaRTT et REPS excellent aussi dans la gestion des pannes et des asymétries. Par exemple, si un lien dans le réseau tombe, REPS peut rapidement rediriger les paquets à travers les chemins disponibles, réduisant significativement la perte de paquets et maintenant de meilleures performances globales lors de tels événements.
Conclusion
En résumé, SMaRTT et REPS offrent des solutions efficaces aux défis posés par les demandes croissantes des charges de travail modernes de ML dans les centres de données. En se concentrant sur des temps de réponse rapides, la visibilité et la facilité de déploiement, ces méthodes améliorent significativement les performances du réseau. Notre évaluation montre que SMaRTT peut surpasser les algorithmes existants de manière substantielle, ce qui en fait un outil essentiel pour gérer le trafic réseau dans les environnements centrés sur l'IA d'aujourd'hui.
Avec la croissance continue des centres de données et leur dépendance à l'informatique haute performance, des méthodes comme SMaRTT et REPS joueront un rôle crucial pour garantir des performances réseau efficaces et équitables pour tous les utilisateurs.
Titre: ARCANE: Adaptive Routing with Caching and Network Exploration
Résumé: Most datacenter transport protocols traditionally depend on in-order packet delivery, a legacy design choice that prioritizes simplicity. However, technological advancements, such as RDMA, now enable the relaxation of this requirement, allowing for more efficient utilization of modern datacenter topologies like FatTree and Dragonfly. With the growing prevalence of AI/ML workloads, the demand for improved link utilization has intensified, creating challenges for single-path load balancers due to problems like ECMP collisions. In this paper, we present ARCANE, a novel, adaptive per-packet traffic load-balancing algorithm designed to work seamlessly with existing congestion control mechanisms. ARCANE dynamically routes packets to bypass congested areas and network failures, all while maintaining a lightweight footprint with minimal state requirements. Our evaluation shows that ARCANE delivers significant performance gains over traditional load-balancing methods, including packet spraying and other advanced solutions, substantially enhancing both performance and link utilization in modern datacenter networks.
Auteurs: Tommaso Bonato, Abdul Kabbani, Ahmad Ghalayini, Mohammad Dohadwala, Michael Papamichael, Daniele De Sensi, Torsten Hoefler
Dernière mise à jour: 2024-09-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.21625
Source PDF: https://arxiv.org/pdf/2407.21625
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.