Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Informática y sociedad

Monitoreo de energía en centros de datos de IA

Un sistema sencillo para rastrear el uso de energía en centros de datos de IA.

― 8 minilectura


Rastreo del uso deRastreo del uso deenergía en la IAIA.energética en los centros de datos deConsejos para mejorar la eficiencia
Tabla de contenidos

Monitorear cuánta energía se usa en los centros de datos de IA es importante. Esto ayuda a reducir el Uso de energía e informa a los usuarios sobre su impacto en el medio ambiente. Este artículo presenta una forma sencilla de verificar el uso de energía en un centro de datos, para un solo usuario o incluso para un trabajo específico. El sistema se basa en software que puede medir el uso de energía, que verificamos con dispositivos externos más precisos. Nuestros hallazgos muestran que hay una buena oportunidad de usar la energía de manera más eficiente, lo que también puede motivar a los usuarios a prestar atención a sus hábitos energéticos.

La Necesidad de Monitorear la Energía

Con el auge de la IA, el consumo energético de sus aplicaciones genera preocupaciones sobre el impacto ambiental. Hay formas de medir este impacto, como usar herramientas de código abierto para rastrear el uso de energía durante la ejecución de un programa, o emplear métodos más amplios como el Análisis del Ciclo de Vida (ACV) que considera el uso de agua y otros factores.

Cuando salen nuevos estudios sobre IA, necesitamos incorporar estas ideas en cómo manejamos la energía en los centros de datos y entornos de investigación. Creemos que observar cómo los usuarios utilizan la energía también puede ayudar a mejorar su rendimiento. Al enfocarnos en los hábitos energéticos de los usuarios, podemos animarlos a reflexionar sobre su impacto ambiental. Algunos centros de datos equipados con Medidores de energía pueden apoyar este enfoque, pero dependen de que los usuarios monitoreen voluntariamente su consumo energético.

Los servicios en la nube informan sobre huellas de carbono, pero a menudo no ofrecen detalles sobre tareas individuales. Para reunir datos útiles sobre energía, debemos observar estadísticas de trabajos a un nivel más alto. Hasta ahora, la mayoría de las investigaciones sobre comportamientos energéticos se han limitado a simulaciones por computadora. Este trabajo tiene como objetivo abordar esa brecha al compartir una configuración diseñada para la investigación.

Nuestro Sistema de Monitoreo

Creamos un sistema para revisar los comportamientos energéticos en el centro de datos labia. Para cada trabajo ejecutado, registramos el uso de energía de las GPU y CPU, así como el consumo total de energía. Validamos nuestras mediciones con dispositivos externos precisos.

El clúster lab-ia, que está construido sobre tecnología SLURM, tiene 12 nodos con una mezcla de modelos de GPU. Este centro más pequeño apoya a los investigadores en el desarrollo de prototipos y la realización de pequeños experimentos. Usamos dispositivos externos Omegawatt para reemplazar los cables de energía de cada máquina por unos que contienen sensores. Estos sensores alimentan los datos de energía en nuestra base de datos.

También usamos herramientas como AIPowerMeter para recopilar datos de NVIDIA y RAPL. Nuestro proceso de recolección de datos se activó automáticamente cada vez que se lanzaba un trabajo. Dado que varios trabajos pueden ejecutarse en el mismo nodo, actualizamos regularmente la lista de procesos de trabajos para vincular el uso de energía a trabajos específicos según la cantidad de tiempo de CPU utilizada.

Comparamos los datos de energía de nuestro software con los dispositivos externos y encontramos que podíamos estimar las mediciones externas con solo un 16% de error en promedio. Este error puede deberse a dispositivos que no están monitoreados por RAPL, como discos duros y dispositivos de red.

Analizando Comportamientos Energéticos

Recopilamos datos sobre el uso de energía y el estado de los trabajos durante un período de 20 días en noviembre de 2023. Descubrimos que muchos trabajos no se completaron con éxito, incluidos trabajos FALLIDOS (13%), trabajos CANCELADOS (5%) y trabajos por TIEMPO DE ESPERA (41%), donde los trabajos se detuvieron automáticamente después de ejecutarse demasiado tiempo. De hecho, solo el 40% de la energía total utilizada provino de trabajos que se completaron. Estos hallazgos se alinean con estudios previos que destacan ineficiencias en el comportamiento de los usuarios.

Una pregunta clave es si las GPU se están utilizando al máximo. Nuestros datos mostraron que muchos trabajos no aprovechan al máximo las capacidades de las GPU. Los patrones de uso registrados sugieren que los usuarios podrían completar trabajos más rápido si modificaran sus tareas, como ajustar el tamaño del lote o simplificar el proceso de preparación de datos. Esto apoya nuestra creencia de que los usuarios pueden beneficiarse del Monitoreo de energía para mejorar su eficiencia.

Conclusión

Este estudio presenta un sistema sencillo para monitorear el comportamiento energético en un centro de datos de IA, utilizando herramientas accesibles que se pueden implementar rápidamente en la mayoría de los entornos. Nuestro análisis indica que las GPU a menudo se utilizan poco, y los trabajos enviados podrían planearse mejor. Si bien los impactos ambientales significativos pueden provenir de otras partes del ciclo de producción, al centrarnos en la eficiencia energética, podemos involucrar a los usuarios y crear conciencia sobre su consumo energético.

Este trabajo fue financiado por el programa "Réseau francilien en sciences informatiques", lo que refleja un compromiso creciente para abordar la huella ambiental de la IA. Los conocimientos obtenidos aquí pueden ayudar a informar estrategias futuras para la gestión de energía en centros de datos y apoyar la investigación en curso sobre el uso de energía en aplicaciones de IA.

La Creciente Importancia de la Eficiencia Energética en IA

En los últimos años, las preocupaciones sobre los efectos ambientales de la inteligencia artificial, particularmente de Deep Learning, han aumentado debido a dos factores principales: la creciente conciencia sobre el impacto de la actividad humana en la naturaleza y el uso generalizado de la IA que resultó de los avances en el aprendizaje automático en la década de 2010. Gran parte del conocimiento existente sobre este tema proviene del sector de TI.

Hoy en día, hay suficientes estudios sobre el impacto ambiental de la tecnología digital para ayudar a las organizaciones a tomar acciones adecuadas para reducirlo. Podemos evaluar factores como el consumo de energía, el uso de agua, la huella de carbono, el agotamiento de recursos y la toxicidad, a menudo cuantificando estas métricas o estimando órdenes de magnitud mediante herramientas como el Análisis del Ciclo de Vida, que puede adaptarse según el conocimiento y el tiempo disponible del usuario.

A nivel de tareas individuales, existen muchas soluciones de software para medir el uso de energía de los programas, ya sea que se ejecuten en servicios en la nube, centros de datos o clientes ligeros. Empresas como Scaphandre han comenzado a explorar metodologías centradas específicamente en el uso de energía en IA desde alrededor de 2020.

Cálculos de Consumo de Energía

Para ver si nuestros datos registrados de NVIDIA y RAPL corresponden a los valores de los dispositivos externos, observamos qué tan cerca estaban. Dado que usar medidores de energía externos puede ser costoso, esto es importante. Nuestra evaluación confirmó que los dos conjuntos de datos están generalmente relacionados, y determinamos cuán fuerte es esta correlación.

Para esto, nos basamos en un Modelo de Mezcla Gaussiana, que es más fácil de interpretar. Calculamos el resultado esperado a partir de los datos de validación. Al tomar un subconjunto de nuestros datos para estimar la distribución de muestreo, encontramos que los resultados eran consistentes en diferentes nodos y períodos de tiempo.

Los hallazgos indicaron una fuerte correlación entre los datos de RAPL y NVIDIA, lo que sugiere que podemos estimar rápidamente el uso de energía sin depender siempre de dispositivos externos. Sin embargo, reconocemos que evaluaciones más precisas podrían provenir de considerar factores adicionales y usar modelos de predicción más sofisticados.

Reflexiones Finales

La investigación indica que monitorear los comportamientos energéticos puede proporcionar información valiosa tanto para operadores de centros de datos como para usuarios. Hay oportunidades para mejorar la eficiencia, y los usuarios pueden adaptar sus prácticas basándose en una mejor conciencia del uso de energía. Involucrar a los usuarios en discusiones sobre eficiencia energética es crucial, no solo para el rendimiento individual, sino también para abordar los impactos ambientales más amplios asociados con las tecnologías de IA.

A medida que continuamos desarrollando e implementando estas técnicas de monitoreo, podemos aspirar a un futuro más sostenible en el campo de la inteligencia artificial, asegurando que los avances sean no solo innovadores, sino también conscientes de sus implicaciones en el medio ambiente.

Artículos similares