Simple Science

Ciência de ponta explicada de forma simples

# Informática# Arquitetura de Hardware# Inteligência Artificial# Computação distribuída, paralela e em cluster

Limitação de Potência: Um Passo em Direção à IA Sustentável

Pesquisas mostram que limitar a potência das GPUs pode reduzir o consumo de energia e as temperaturas.

― 10 min ler


Limitação de Potência daLimitação de Potência daGPU para Economia deEnergiaenergia e o calor.potência das GPUs cortam o uso deEstudo revela que os limites de
Índice

À medida que a necessidade de inteligência artificial (IA) cresce, a demanda por recursos computacionais fortes também aumenta pra dar suporte. Treinar modelos complexos de IA, principalmente em áreas como processamento de linguagem natural e visão computacional, exige hardware potente. Modelos grandes precisam de muita energia e recursos, o que pode levar a altas emissões de carbono e maior demanda por hardware especializado, como GPUs.

Esse aumento na demanda levanta questões sobre eficiência energética e sustentabilidade em data centers onde os supercomputadores operam. Neste estudo, analisamos como limitar a energia usada pelas GPUs afeta a temperatura e o uso de energia em uma instalação de supercomputação. Ao definir cuidadosamente os limites de potência, descobrimos que podíamos reduzir tanto a temperatura quanto o consumo de energia das GPUs. Isso não só economiza energia, mas também pode ajudar a prolongar a vida útil do hardware, mantendo o desempenho dos trabalhos mais ou menos inalterado.

No entanto, existem desafios. Se os usuários notarem uma queda no desempenho dos trabalhos por causa dos limites de potência, eles podem tentar compensar executando mais trabalhos, o que poderia reverter quaisquer benefícios de energia obtidos com os limites. Nossa pesquisa é a primeira análise detalhada de como limitar a potência das GPUs funciona em grande escala em um centro de supercomputação. Esperamos que isso motive outros centros a considerar a limitação de potência como uma maneira de tornar a IA mais sustentável.

O Custo da IA Avançada

O progresso recente na IA trouxe resultados incríveis, como geração de texto realista e avanços em pesquisas médicas. No entanto, esses avanços têm um preço. Por exemplo, treinar grandes modelos de linguagem pode produzir tanto dióxido de carbono quanto as emissões totais de cinco carros durante toda a sua vida. Muitos desses modelos de IA têm centenas de milhões de parâmetros e levam semanas ou até meses para serem treinados em hardware potente com conjuntos de dados imensos.

Além disso, implementar esses modelos também pode consumir uma quantidade significativa de energia. Modelos populares como GPT-3 e GPT-4, que estão por trás de aplicativos como chatbots e mecanismos de busca, podem levar a um alto consumo de energia à medida que milhões de usuários acessam essas ferramentas diariamente. Além dos grandes modelos de linguagem, várias outras aplicações de IA também consomem energia considerável.

À medida que a IA continua a evoluir, ela exige mais recursos em termos de dados, poder computacional, tempo e energia. Quanto mais complexos esses sistemas se tornam, maior será seu impacto no meio ambiente, levantando preocupações sobre a sustentabilidade das fontes de energia e a demanda geral por recursos.

Encontrando o Equilíbrio

Abordar a questão da sustentabilidade na IA é crucial à medida que essas tecnologias se proliferam em diversas indústrias. Encontrar o equilíbrio certo entre desempenho, eficiência energética e sustentabilidade é importante tanto para o meio ambiente quanto para o futuro do desenvolvimento da IA. Esforços significativos foram feitos para melhorar a eficiência dos modelos por meio de várias técnicas, como reduzir o tamanho do modelo e usar conjuntos de dados menores para treinamento. No entanto, muitos desses métodos exigem habilidades técnicas avançadas e podem complicar os processos de treinamento e implementação.

Uma solução potencial para data centers e instalações de computação é limitar a energia que seu hardware usa. Em nossa pesquisa, apresentamos observações de um centro acadêmico de supercomputação onde definimos um limite de energia de 60% nas GPUs. Nossos achados indicam que essa limitação de energia pode reduzir significativamente o consumo de energia e as Temperaturas operacionais sem afetar muito o desempenho dos trabalhos.

Pesquisa Anterior

Embora a ideia de limitar o uso de energia para melhor eficiência energética não seja nova, pesquisas anteriores focaram principalmente em CPUs, e não em GPUs. Alguns estudos mostraram que limites de potência poderiam reduzir o uso de energia e as temperaturas operacionais enquanto aumentavam a confiabilidade do hardware. Com as GPUs se tornando essenciais para cargas de trabalho de IA, os pesquisadores começaram a investigar como a limitação da potência das GPUs afeta o desempenho.

Por exemplo, um estudo descobriu que limitar a energia durante o pré-treinamento do modelo BERT economizava energia sem perturbar muito as tarefas. Outra pesquisa examinou vários modelos de IA e confirmou que limites de potência para GPUs poderiam levar a economias de energia. No entanto, muitos desses experimentos em larga escala não foram tornados publicamente acessíveis ou passaram por uma análise aprofundada.

Configuração do Experimento

Conduzimos nossa pesquisa no MIT Supercloud, um sistema de computação de alto desempenho que utiliza GPUs NVIDIA Volta V100. O sistema é composto por vários nós que usam software de gerenciamento de recursos. Coletamos dados sobre utilização de GPUs, temperatura, consumo de energia e outros fatores em intervalos regulares. O conjunto de dados usado consistiu em mais de 123.000 trabalhos de GPU, com alguns trabalhos sujeitos a limites de potência.

Nossa análise focou na utilização de hardware a nível de trabalho para proteger a privacidade do usuário. Como as GPUs estavam altamente utilizadas, não conseguimos mudar frequentemente os níveis de limitação de potência sem arriscar interrupções. Resumimos os dados relevantes para vários trabalhos para analisar melhor os efeitos da limitação de potência.

Principais Resultados

Após implementar limites de potência em todo o sistema, notamos uma diminuição no uso de energia e na temperatura das GPUs. A queda no consumo de energia e nas temperaturas foi consistente com pesquisas anteriores. No entanto, o efeito geral sobre o consumo de energia permanece ambíguo, já que os usuários podem aumentar as solicitações de trabalho se perceberem degradação no desempenho. Isso poderia eliminar quaisquer ganhos feitos com a limitação de potência.

Para determinar a eficácia da limitação de potência, realizamos uma análise mais rigorosa do uso de temperatura e energia entre os trabalhos. Essa avaliação ajuda a esclarecer se as mudanças observadas foram significativas ou apenas devido a variação aleatória.

Análise do Consumo de Energia e Temperaturas

Agrupamos os resultados para visualizar como a limitação de potência influencia as temperaturas das GPUs e o uso de energia. Os dados mostraram que trabalhos com limites de potência tiveram temperaturas mais baixas do que aqueles sem, com uma diminuição consistente em todos os percentis medidos. A variância nas temperaturas das GPUs também diminuiu, indicando que os trabalhos limitados tiveram menos flutuação na temperatura.

Tendências semelhantes foram observadas para o consumo de energia das GPUs, confirmando que a limitação de potência conseguiu reduzir o uso de energia geral. Essa estabilidade nas temperaturas e no consumo de energia também pode implicar potenciais benefícios para prolongar a vida útil das GPUs e promover práticas sustentáveis de hardware nos data centers.

Testes Estatísticos

Para quantificar as mudanças no consumo de energia e temperatura das GPUs, aplicamos testes estatísticos. Esses testes nos ajudaram a determinar a significância das diferenças entre trabalhos com e sem limites de potência. Nossos achados indicaram que as reduções na temperatura e no consumo de energia eram estatisticamente significativas.

No geral, as evidências sugerem fortemente que a limitação de potência reduz efetivamente o uso de energia e a temperatura em configurações operacionais. As reduções que observamos poderiam ajudar a aumentar a confiabilidade do hardware e diminuir as chances de falhas precoces.

Estimativa do Efeito do Tratamento

Enquanto os testes de hipóteses destacaram diferenças significativas entre os dois grupos, entender quanto desse efeito foi realmente devido à limitação de potência era crucial. Para lidar com isso, procuramos estimar o efeito médio do tratamento (ATE) da limitação de potência no consumo de energia e temperatura das GPUs.

Nossas estimativas mostraram que a limitação de potência pode levar a reduções significativas no consumo de energia e temperatura das GPUs. Para trabalhos com utilização média de GPU, notamos reduções ligeiramente maiores em ambas as áreas. Isso sugere que trabalhos mais eficientes se beneficiam ainda mais das limitações de potência.

Combate ao Viés

Para abordar quaisquer viéses da atribuição não aleatória de limites de potência, aplicamos técnicas de correspondência para estimar o ATE. Categorizar as observações com base em suas características nos ajudou a identificar grupos semelhantes entre trabalhos com e sem limites. Essa abordagem nos permitiu controlar o viés potencial ao estimar os efeitos da limitação de potência.

Nossos achados continuaram a mostrar reduções significativas no consumo de energia e temperaturas, reforçando a ideia de que limites de potência podem ajudar a melhorar a eficiência energética de maneira prática.

Impacto no Desempenho dos Trabalhos

Após analisar os efeitos da limitação de potência na temperatura e no uso de energia, também examinamos sua influência no desempenho dos trabalhos. Para definir um limite de potência ideal, buscamos um equilíbrio entre o consumo de energia reduzido e o mínimo impacto no desempenho.

Ao considerar o treinamento de aprendizado profundo, descobrimos que a limitação de potência realmente gera economia de energia enquanto mantém o desempenho relativamente estável. Para vários modelos de IA, limites ideais reduziram significativamente o uso de energia sem desacelerar muito os tempos de treinamento.

Limites de potência mais rígidos poderiam economizar mais energia, mas vêm à custa de um desempenho reduzido. Portanto, identificamos "pontos ideais" na limitação de potência que podem maximizar as economias de energia enquanto mantém as perdas de desempenho dentro de limites aceitáveis.

Inferência do Modelo

O desempenho de inferência também merece atenção, especialmente para modelos como o LLaMA 65B, que usam métodos mais avançados. Testamos a limitação de potência nesse modelo e observamos que definir um limite gerou boas economias de energia com mínima degradação de desempenho.

Nossos resultados indicaram que, embora limites mais rigorosos proporcionassem mais economias de energia, também resultaram em quedas de velocidade perceptíveis. Isso destaca a importância de encontrar um limite de potência apropriado que se alinhe aos requisitos específicos da carga de trabalho para manter a eficiência sem perdas significativas de desempenho.

Conclusão

Nossa pesquisa oferece insights sobre o impacto da limitação de potência nas GPUs em larga escala. Observamos reduções significativas nas temperaturas das GPUs e no uso de energia, o que pode contribuir para melhor longevidade do hardware e redução da pegada de carbono. Permitir que os usuários controlem os limites de potência das GPUs pode capacitar os pesquisadores a tomar decisões mais sustentáveis no desenvolvimento de IA.

No entanto, muitas perguntas ainda permanecem sobre como várias cargas de trabalho interagem com a limitação de potência e como implementar melhor essas estratégias em diferentes configurações. Pesquisas futuras podem explorar sistemas dinâmicos de limitação de potência que se adaptem às demandas de carga de trabalho enquanto maximizam a eficiência energética.

Ao continuar estudando esses métodos, esperamos identificar melhores estratégias para melhorar a sustentabilidade e tornar o desenvolvimento de IA mais responsável.

Fonte original

Título: Sustainable Supercomputing for AI: GPU Power Capping at HPC Scale

Resumo: As research and deployment of AI grows, the computational burden to support and sustain its progress inevitably does too. To train or fine-tune state-of-the-art models in NLP, computer vision, etc., some form of AI hardware acceleration is virtually a requirement. Recent large language models require considerable resources to train and deploy, resulting in significant energy usage, potential carbon emissions, and massive demand for GPUs and other hardware accelerators. However, this surge carries large implications for energy sustainability at the HPC/datacenter level. In this paper, we study the aggregate effect of power-capping GPUs on GPU temperature and power draw at a research supercomputing center. With the right amount of power-capping, we show significant decreases in both temperature and power draw, reducing power consumption and potentially improving hardware life-span with minimal impact on job performance. While power-capping reduces power draw by design, the aggregate system-wide effect on overall energy consumption is less clear; for instance, if users notice job performance degradation from GPU power-caps, they may request additional GPU-jobs to compensate, negating any energy savings or even worsening energy consumption. To our knowledge, our work is the first to conduct and make available a detailed analysis of the effects of GPU power-capping at the supercomputing scale. We hope our work will inspire HPCs/datacenters to further explore, evaluate, and communicate the impact of power-capping AI hardware accelerators for more sustainable AI.

Autores: Dan Zhao, Siddharth Samsi, Joseph McDonald, Baolin Li, David Bestor, Michael Jones, Devesh Tiwari, Vijay Gadepally

Última atualização: 2024-02-24 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.18593

Fonte PDF: https://arxiv.org/pdf/2402.18593

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes