Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación distribuida, paralela y en clústeres

Nuevo marco combina compresión con pérdida y AMR

Un enfoque nuevo mejora el almacenamiento de datos y el rendimiento en computación de alto rendimiento.

― 7 minilectura


Avanzando en AMR conAvanzando en AMR conCompresión Perdidacompresión innovadoras.simulaciones a través de técnicas deMejorando el manejo de datos en
Tabla de contenidos

A medida que las supercomputadoras se vuelven más potentes, pueden manejar más datos. Sin embargo, este aumento en la cantidad de datos crea desafíos para almacenarlos y moverlos de manera eficiente. La Refinación Adaptativa de Malla (AMR) es un método que ayuda a abordar estos desafíos al permitir que las simulaciones se concentren en áreas importantes, usando una malla detallada donde se necesita, y una más gruesa en áreas menos importantes. Al mismo tiempo, las técnicas de Compresión con pérdida pueden reducir el tamaño de los datos que se procesan, pero ha habido pocos intentos de combinar AMR con compresión con pérdida de manera efectiva. Este artículo presenta un nuevo marco para la compresión con pérdida que funciona con aplicaciones AMR para mejorar tanto el almacenamiento de datos como el rendimiento.

Antecedentes

¿Qué es HDF5?

HDF5 es un formato de archivo y un conjunto de herramientas que se usan para manejar grandes cantidades de datos en escenarios de computación de alto rendimiento (HPC). Permite a los usuarios almacenar datos complejos y soporta entrada/salida (I/O) paralela, lo cual es crucial para acelerar el acceso a los datos cuando intervienen muchos procesadores. HDF5 también tiene opciones integradas para la compresión de datos, lo que significa que puede ayudar a reducir el tamaño de los datos que se escriben en disco sin comprometer la calidad de la información.

¿Por qué usar compresión con pérdida?

La compresión con pérdida es una técnica que reduce el tamaño de los datos eliminando cierta información. Este método puede lograr altos índices de compresión, especialmente para datos que no necesitan ser perfectamente precisos. Se usa comúnmente para datos de punto flotante en simulaciones científicas. Las métricas clave para medir la compresión con pérdida son el ratio de compresión, la distorsión de los datos y el rendimiento. El ratio de compresión indica cuánto más pequeños son los datos, la distorsión mide cuánto se diferencian los datos comprimidos del original, y el rendimiento muestra qué tan rápido se pueden comprimir los datos.

¿Qué es la Refinación Adaptativa de Malla?

AMR es un método que ajusta la resolución de las simulaciones usando una malla más fina en áreas que necesitan más detalle, mientras que usa una malla más gruesa en áreas menos críticas. Este enfoque adaptativo ahorra tanto recursos computacionales como espacio de almacenamiento, manteniendo la precisión donde más se necesita. Los datos generados por AMR están estructurados jerárquicamente, con diferentes niveles de resolución almacenados por separado.

Marco Propuesto para Compresión

Visión General de Nuestro Enfoque

El marco propuesto combina técnicas de compresión con pérdida con el proceso AMR para mejorar el almacenamiento de datos y el rendimiento. Modifica cómo se organiza y comprime los datos AMR usando el filtro HDF5, permitiendo una mejor eficiencia en el rendimiento y calidad de compresión. El marco está integrado en la biblioteca AMReX y se evalúa usando aplicaciones AMR del mundo real.

Pre-Procesamiento de Datos AMR

Para preparar los datos AMR para la compresión, el marco incorpora pasos de pre-procesamiento que eliminan datos redundantes, truncar datos y reorganizar bloques de datos según las necesidades de diferentes métodos de compresión. Al eliminar datos innecesarios y estructurarlos de una manera que maximiza la eficiencia durante la compresión, el proceso general se vuelve más ágil.

Técnicas de Optimización de Compresión

El marco utiliza varias técnicas para optimizar el rendimiento de los algoritmos de compresión con pérdida. Por ejemplo, al usar Codificación Sin Pérdida Compartida (SLE), el marco mejora la calidad de predicción de los datos, lo que ayuda a lograr mejores resultados de compresión. El tamaño de bloque para la compresión también se ajusta según las características específicas de los datos AMR, permitiendo resultados de compresión más efectivos.

Modificación del Mecanismo de Filtros HDF5

El filtro de compresión HDF5 es clave para habilitar la escritura eficiente de datos. El marco modifica el filtro para superar los desafíos relacionados con la organización de los datos AMR. Al mejorar la disposición de los datos para acomodar varios campos, se puede aumentar el tamaño de los bloques, mejorando así el ratio de compresión total y el rendimiento de I/O.

Configuración Experimental

Aplicaciones Usadas para Pruebas

El marco se evaluó usando dos aplicaciones científicas que utilizan AMR: Nyx, que simula cosmología, y WarpX, que trata simulaciones electromagnéticas. Estas aplicaciones generan grandes volúmenes de datos, lo que las convierte en candidatas adecuadas para probar la efectividad del marco de compresión propuesto.

Entorno de Pruebas

Los experimentos se llevaron a cabo en la supercomputadora Summit, una máquina de última generación equipada con múltiples procesadores y un sistema de archivos rápido. Se evaluó el rendimiento del método propuesto en comparación con la solución de compresión existente dentro de la biblioteca AMReX, centrándose en factores como el ratio de compresión y los tiempos de I/O.

Resultados

Evaluación del Ratio de Compresión

Los resultados de los experimentos muestran que el marco propuesto mejora significativamente el ratio de compresión en comparación con los métodos existentes. El nuevo marco puede alcanzar un ratio de compresión de hasta el 81%, lo que significa que puede reducir considerablemente el tamaño de los datos, lo cual es especialmente beneficioso para conjuntos de datos grandes generados por simulaciones.

Calidad de Datos Reconstruidos

La calidad de los datos reconstruidos, después de la compresión, es otro factor crítico. El marco propuesto proporciona una mejor calidad de reconstrucción, resultando en tasas de error más bajas en comparación con el método original de compresión AMReX. Esta mejora asegura que los datos comprimidos mantengan suficiente precisión para el análisis.

Tiempo de Escritura y Rendimiento de I/O

El tiempo total tomado para escribir datos en el almacenamiento es una consideración vital en la computación de alto rendimiento. Los resultados indican que el método propuesto puede reducir los tiempos de escritura de manera significativa, hasta un 90% en algunos casos. Esta reducción en el tiempo de I/O es esencial para manejar grandes conjuntos de datos de manera eficiente y contribuye a un mejor rendimiento general en las simulaciones.

Conclusión

En conclusión, el marco de compresión con pérdida propuesto combina efectivamente AMR con técnicas avanzadas de compresión para mejorar tanto el almacenamiento de datos como el rendimiento de I/O en entornos de computación de alto rendimiento. Los resultados experimentales demuestran mejoras sustanciales en los ratios de compresión, calidad de reconstrucción y tiempos de escritura en comparación con las soluciones existentes. Este marco muestra potencial para futuras aplicaciones en simulaciones AMR, lo que podría llevar a una mayor eficiencia en la gestión de datos y el rendimiento computacional. Se planean más investigaciones para explorar su aplicación en diferentes sistemas de computación y más aplicaciones AMR.

Direcciones Futuras

De cara al futuro, hay planes para expandir el uso de este marco en otras aplicaciones científicas y explorar su integración con sistemas adicionales de computación de alto rendimiento. Además, se considerarán más optimizaciones para mejorar tanto las técnicas de compresión como la usabilidad general del marco. El objetivo es desarrollar una herramienta poderosa que pueda agilizar los procesos de gestión de datos en varios campos de la investigación científica.

Fuente original

Título: AMRIC: A Novel In Situ Lossy Compression Framework for Efficient I/O in Adaptive Mesh Refinement Applications

Resumen: As supercomputers advance towards exascale capabilities, computational intensity increases significantly, and the volume of data requiring storage and transmission experiences exponential growth. Adaptive Mesh Refinement (AMR) has emerged as an effective solution to address these two challenges. Concurrently, error-bounded lossy compression is recognized as one of the most efficient approaches to tackle the latter issue. Despite their respective advantages, few attempts have been made to investigate how AMR and error-bounded lossy compression can function together. To this end, this study presents a novel in-situ lossy compression framework that employs the HDF5 filter to improve both I/O costs and boost compression quality for AMR applications. We implement our solution into the AMReX framework and evaluate on two real-world AMR applications, Nyx and WarpX, on the Summit supercomputer. Experiments with 4096 CPU cores demonstrate that AMRIC improves the compression ratio by up to 81X and the I/O performance by up to 39X over AMReX's original compression solution.

Autores: Daoce Wang, Jesus Pulido, Pascal Grosset, Jiannan Tian, Sian Jin, Houjun Tang, Jean Sexton, Sheng Di, Zarija Lukić, Kai Zhao, Bo Fang, Franck Cappello, James Ahrens, Dingwen Tao

Última actualización: 2023-07-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2307.09609

Fuente PDF: https://arxiv.org/pdf/2307.09609

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares