Construindo Data Centers para Treinamento de Modelos de Linguagem Grande
Analisando os desafios de construir data centers pra treinar grandes modelos de linguagem.
― 6 min ler
Índice
- Metas do Data Center
- Restrições de Infraestrutura
- Fornecimento de Energia e Localização
- Capacidade de Treinamento de Modelos
- Leis de Escalonamento na Prática
- Desafios de Rede
- Requisitos de Memória
- Sobrecarga de Comunicação
- Dividindo o Data Center
- Considerações sobre Treinamento em Larga Escala
- Estratégias de Interconexão
- Protocolos de Transporte
- Direções de Pesquisa
- Conclusão
- Fonte original
- Ligações de referência
O campo de pesquisa em redes de computadores ainda é relevante, mesmo com grandes empresas dominando a infraestrutura. Este artigo explora os desafios e oportunidades no desenvolvimento de grandes data centers, focando especificamente na construção de data centers capazes de treinar grandes modelos de linguagem (LLMs). O objetivo é esclarecer os obstáculos técnicos e as possíveis soluções para alcançar essa meta.
Metas do Data Center
A Microsoft tem planos de construir um data center enorme que suporte atividades extensas de aprendizado de máquina. Os principais objetivos são treinar modelos de linguagem que consigam processar uma quantidade imensa de informação. Vamos analisar os tipos de modelos que poderiam ser treinados e os desafios significativos encontrados nesse processo.
Restrições de Infraestrutura
Uma das primeiras coisas que olhamos é a necessidade de resfriamento e energia nesses data centers. As demandas de energia são grandes, tornando inviável construir uma única instalação grande. As tendências atuais indicam que o Treinamento de Modelos pode exigir centenas de milhares de unidades de processamento gráfico (GPUs), e com modelos chegando a trilhões de parâmetros, a demanda por energia e resfriamento aumenta. O objetivo é encontrar locais que consigam suportar essa alta necessidade de energia sem sobrecarregar as redes elétricas locais.
Fornecimento de Energia e Localização
Identificar locais apropriados para um grande data center envolve calcular o fornecimento máximo de energia disponível em várias regiões. Analisamos a capacidade das redes elétricas dos EUA para atender essas demandas, considerando fatores como layout geográfico e fontes de energia disponíveis. Agrupando fontes de energia e avaliando suas saídas, identificamos regiões que poderiam abrigar a infraestrutura necessária.
Capacidade de Treinamento de Modelos
Escolher os modelos certos para treinar é vital. Focamos na arquitetura de transformador tradicional, que é bem entendida e amplamente usada. Analisando a potência disponível de GPUs e capacidade de computação, estimamos o tamanho dos modelos que poderiam ser treinados em um data center proposto. Os modelos existentes apresentados pela pesquisa atual fornecem insights sobre os tamanhos máximos de modelo.
Leis de Escalonamento na Prática
As leis de escalonamento nos guiam na compreensão de como o desempenho do modelo pode melhorar com o aumento do tempo de treinamento e dos recursos de computação disponíveis. Calculamos quanto tempo levaria para treinar modelos de diferentes tamanhos com base na infraestrutura de GPUs, considerando fatores como memória e largura de banda de interconexão. Esses cálculos ajudam a criar uma imagem realista do que pode ser alcançado em determinados prazos.
Desafios de Rede
À medida que tentamos conectar um grande número de GPUs, a rede se torna cada vez mais importante. A comunicação eficaz dentro do data center é essencial para treinar grandes modelos de forma eficiente. Técnicas como paralelismo 3D, que envolvem distribuir camadas de modelo entre as GPUs, são usadas para minimizar atrasos de comunicação. Essa abordagem permite um melhor processamento, mantendo os dados locais sempre que possível.
Requisitos de Memória
Treinar grandes modelos exige recursos de memória consideráveis. Avaliamos as necessidades de memória tanto para o modelo quanto para as tarefas de processamento associadas. Dividindo o uso da memória entre várias GPUs, podemos otimizar todo o processo de treinamento e reduzir os gargalos causados por limitações de memória.
Sobrecarga de Comunicação
A comunicação entre diferentes GPUs pode criar atrasos, que buscamos minimizar. Analisamos como a estrutura da rede afeta os tempos de transmissão de dados. Organizando a comunicação de forma hierárquica, podemos melhorar a eficiência e reduzir o tempo gasto esperando pelas transferências de dados.
Dividindo o Data Center
Dadas as enormes necessidades de energia de uma única instalação, consideramos dividir o data center em diferentes locais, como as costas Leste e Oeste dos Estados Unidos. Isso nos permitiria equilibrar as cargas de energia de forma mais eficaz, ao mesmo tempo que aproveitamos fontes de energia diversas. Avaliamos a viabilidade dessa divisão e o que significaria para o processo geral de treinamento de modelos.
Considerações sobre Treinamento em Larga Escala
Ao dividir o data center, o treinamento ainda precisa ser eficaz à distância. Exploramos como manter o desempenho enquanto sincronizamos dados entre vários locais. Ajustes no design do processo de treinamento seriam necessários para acomodar essa mudança, garantindo que a comunicação entre os data centers permaneça eficiente.
Estratégias de Interconexão
A conectividade de milhares de GPUs dentro do data center é complexa e exige planejamento cuidadoso. Investigamos várias estratégias para interconectar GPUs, focando em minimizar custos enquanto garantimos comunicação rápida e eficiente. Técnicas como topologias de múltiplos trilhos serão empregadas para melhorar o desempenho da rede.
Protocolos de Transporte
Escolher os Protocolos de Comunicação certos também é crucial na nossa estrutura. Consideramos transportes de hardware otimizados para transmissão de dados para facilitar a velocidade necessária. Embora abordagens convencionais possam ser suficientes, explorar opções mais novas pode trazer melhores resultados em desempenho.
Direções de Pesquisa
Para acompanhar as crescentes demandas dos LLMs, são necessários avanços significativos em técnicas de rede e comunicação. Isso inclui a transição para protocolos de transporte multipath que podem suportar a largura de banda exigida. Também há oportunidades para melhorar o agendamento e se adaptar a vários tipos de cargas de trabalho.
Conclusão
Resumindo, construir um grande data center para treinar a próxima geração de modelos de linguagem apresenta inúmeros desafios, mas também tem um grande potencial. Desde atender às necessidades de energia e resfriamento até otimizar estratégias de rede, a pesquisa contínua é vital. Isso ajudará a garantir que a infraestrutura possa suportar iniciativas robustas de aprendizado de máquina e atenda às crescentes necessidades do futuro. O caminho a seguir pode exigir criatividade, colaboração e adaptação contínua para alcançar esses objetivos ambiciosos.
Título: I've Got 99 Problems But FLOPS Ain't One
Resumo: Hyperscalers dominate the landscape of large network deployments, yet they rarely share data or insights about the challenges they face. In light of this supremacy, what problems can we find to solve in this space? We take an unconventional approach to find relevant research directions, starting from public plans to build a $100 billion datacenter for machine learning applications. Leveraging the language models scaling laws, we discover what workloads such a datacenter might carry and explore the challenges one may encounter in doing so, with a focus on networking research. We conclude that building the datacenter and training such models is technically possible, but this requires novel wide-area transports for inter-DC communication, a multipath transport and novel datacenter topologies for intra-datacenter communication, high speed scale-up networks and transports, outlining a rich research agenda for the networking community.
Autores: Alexandru M. Gherghescu, Vlad-Andrei Bădoiu, Alexandru Agache, Mihai-Valentin Dumitru, Iuliu Vasilescu, Radu Mantu, Costin Raiciu
Última atualização: 2024-10-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.12819
Fonte PDF: https://arxiv.org/pdf/2407.12819
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.usenix.org/system/files/nsdi24-jiang-ziheng.pdf
- https://escholarship.org/content/qt84p772fc/qt84p772fc.pdf
- https://www.pjm.com/-/media/library/reports-notices/load-forecast/2024-load-report.ashx
- https://datacenters.microsoft.com/wp-content/uploads/2023/05/Azure_Modern-Datacenter-Cooling_Infographic.pdf
- https://local.microsoft.com/wp-content/uploads/2022/06/Azure_HeatReUse_Infographic.pdf