Construyendo centros de datos para entrenar modelos de lenguaje grandes
Examinando los desafíos en la construcción de centros de datos para entrenar modelos de lenguaje grandes.
― 6 minilectura
Tabla de contenidos
- Objetivos del Centro de Datos
- Limitaciones de Infraestructura
- Suministro de energía y Ubicación
- Capacidad de Entrenamiento de Modelos
- Leyes de Escalamiento en Práctica
- Desafíos de Redes
- Requisitos de Memoria
- Sobrecarga de Comunicación
- Dividiendo el Centro de Datos
- Consideraciones de Entrenamiento de Amplia Escala
- Estrategias de Interconexión
- Protocolos de Transporte
- Direcciones de Investigación
- Conclusión
- Fuente original
- Enlaces de referencia
La investigación en redes de computadoras sigue siendo relevante, incluso con grandes empresas dominando la infraestructura. Este artículo explora los desafíos y oportunidades en el desarrollo de grandes Centros de Datos, centrándose específicamente en construir centros de datos capaces de entrenar grandes modelos de lenguaje (LLMs). El objetivo es iluminar los obstáculos técnicos y las posibles soluciones para alcanzar esta meta.
Objetivos del Centro de Datos
Microsoft tiene planes de construir un centro de datos masivo que pueda soportar extensas actividades de aprendizaje automático. Los objetivos principales son entrenar modelos de lenguaje que puedan procesar enormes cantidades de información. Examinamos los tipos de modelos que se podrían entrenar y los retos significativos que se encuentran en este proceso.
Limitaciones de Infraestructura
Uno de los primeros aspectos que analizamos es la necesidad de refrigeración y energía en estos centros de datos. Los requisitos de energía son enormes, lo que hace poco práctico construir una sola gran instalación. Las tendencias actuales indican que entrenar modelos puede requerir cientos de miles de unidades de procesamiento gráfico (GPUs), y con modelos que alcanzan billones de parámetros, la demanda de energía y refrigeración aumenta. El objetivo es encontrar ubicaciones que puedan soportar esta alta necesidad energética sin sobrecargar las redes eléctricas locales.
Suministro de energía y Ubicación
Identificar ubicaciones adecuadas para un gran centro de datos implica calcular el suministro máximo de energía disponible en varias regiones. Analizamos la capacidad de las redes eléctricas de EE. UU. para satisfacer estas demandas, considerando factores como la disposición geográfica y las fuentes de energía disponibles. Agrupando las fuentes de energía y evaluando sus salidas, localizamos regiones que podrían albergar la infraestructura necesaria.
Capacidad de Entrenamiento de Modelos
Elegir los modelos adecuados para entrenar es vital. Nos enfocamos en la arquitectura de transformadores tradicional, que es bien entendida y ampliamente utilizada. A través del análisis de la potencia de GPU disponible y la capacidad de computación, estimamos el tamaño de los modelos que podrían ser entrenados en un centro de datos propuesto. Los modelos existentes planteados por la investigación actual proporcionan ideas sobre los posibles tamaños máximos de modelos.
Leyes de Escalamiento en Práctica
Las leyes de escalamiento nos guían para entender cómo podría mejorar el rendimiento del modelo con aumentos en el tiempo de entrenamiento y recursos de computación disponibles. Calculamos cuánto tiempo tomaría entrenar modelos de diferentes tamaños basándonos en la infraestructura de GPU, considerando factores como memoria y ancho de banda de interconexión. Estos cálculos nos ayudan a crear una imagen realista de lo que se puede lograr dentro de marcos de tiempo específicos.
Desafíos de Redes
A medida que intentamos conectar un gran número de GPUs, el networking se vuelve cada vez más importante. La comunicación efectiva dentro del centro de datos es esencial para entrenar grandes modelos de manera eficiente. Se emplean técnicas como el paralelismo 3D, que implican distribuir capas del modelo entre GPUs, para minimizar los retrasos de comunicación. Este enfoque permite un mejor procesamiento al mantener los datos locales siempre que sea posible.
Requisitos de Memoria
Entrenar grandes modelos requiere recursos de memoria sustanciales. Evaluamos las necesidades de memoria tanto para el modelo como para las tareas de procesamiento asociadas. Al dividir el uso de memoria entre múltiples GPUs, podemos optimizar el proceso de entrenamiento general y reducir cuellos de botella causados por limitaciones de memoria.
Sobrecarga de Comunicación
La comunicación entre diferentes GPUs puede crear retrasos, que buscamos minimizar. Analizamos cómo la estructura de la red afecta los tiempos de transmisión de datos. Al organizar la comunicación de manera jerárquica, podemos mejorar la eficiencia y reducir el tiempo que se pasa esperando transferencias de datos.
Dividiendo el Centro de Datos
Dadas las enormes necesidades de energía de una sola instalación, consideramos dividir el centro de datos entre diferentes ubicaciones, como las costas Este y Oeste de los Estados Unidos. Esto nos permitiría equilibrar las cargas de energía de manera más efectiva mientras aprovechamos diversas fuentes de energía. Evaluamos la viabilidad de esta división y lo que significaría para el proceso general de entrenamiento de modelos.
Consideraciones de Entrenamiento de Amplia Escala
Al dividir el centro de datos, el entrenamiento aún debe ser efectivo a través de la distancia. Exploramos cómo mantener el rendimiento mientras sincronizamos datos entre múltiples ubicaciones. Se necesitarían ajustes en el diseño del proceso de entrenamiento para acomodar este cambio, asegurando que la comunicación entre centros de datos siga siendo eficiente.
Estrategias de Interconexión
La conectividad de miles de GPUs dentro del centro de datos es compleja y requiere una planificación cuidadosa. Investigamos varias estrategias para interconectar GPUs, enfocándonos en minimizar costos mientras aseguramos una comunicación rápida y eficiente. Se emplearán técnicas como topologías de múltiples rieles para mejorar el rendimiento de la red.
Protocolos de Transporte
Elegir los Protocolos de Comunicación adecuados también es crucial en nuestra estructura. Consideramos transportes de hardware optimizados para la transmisión de datos para facilitar la velocidad necesaria. Si bien los enfoques convencionales pueden ser suficientes, explorar opciones más nuevas podría generar mejores resultados en rendimiento.
Direcciones de Investigación
Para mantener el ritmo con las crecientes demandas de los LLMs, son esenciales avances significativos en técnicas de redes y comunicación. Esto incluye pasar a protocolos de transporte multipath que puedan soportar el ancho de banda requerido. También hay oportunidades para mejorar el agendamiento y adaptarse a varios tipos de cargas de trabajo.
Conclusión
En resumen, construir un gran centro de datos para entrenar la próxima generación de modelos de lenguaje presenta numerosos desafíos, pero también tiene un gran potencial. Desde abordar necesidades de energía y refrigeración hasta optimizar estrategias de networking, la investigación continua es vital. Esto ayudará a asegurar que la infraestructura pueda soportar iniciativas robustas de aprendizaje automático y satisfacer las crecientes necesidades del futuro. El camino por delante puede requerir creatividad, colaboración y adaptación continua para lograr estos ambiciosos objetivos.
Título: I've Got 99 Problems But FLOPS Ain't One
Resumen: Hyperscalers dominate the landscape of large network deployments, yet they rarely share data or insights about the challenges they face. In light of this supremacy, what problems can we find to solve in this space? We take an unconventional approach to find relevant research directions, starting from public plans to build a $100 billion datacenter for machine learning applications. Leveraging the language models scaling laws, we discover what workloads such a datacenter might carry and explore the challenges one may encounter in doing so, with a focus on networking research. We conclude that building the datacenter and training such models is technically possible, but this requires novel wide-area transports for inter-DC communication, a multipath transport and novel datacenter topologies for intra-datacenter communication, high speed scale-up networks and transports, outlining a rich research agenda for the networking community.
Autores: Alexandru M. Gherghescu, Vlad-Andrei Bădoiu, Alexandru Agache, Mihai-Valentin Dumitru, Iuliu Vasilescu, Radu Mantu, Costin Raiciu
Última actualización: 2024-10-23 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.12819
Fuente PDF: https://arxiv.org/pdf/2407.12819
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.usenix.org/system/files/nsdi24-jiang-ziheng.pdf
- https://escholarship.org/content/qt84p772fc/qt84p772fc.pdf
- https://www.pjm.com/-/media/library/reports-notices/load-forecast/2024-load-report.ashx
- https://datacenters.microsoft.com/wp-content/uploads/2023/05/Azure_Modern-Datacenter-Cooling_Infographic.pdf
- https://local.microsoft.com/wp-content/uploads/2022/06/Azure_HeatReUse_Infographic.pdf