Nouveau cadre combine compression avec perte et AMR
Une nouvelle approche améliore le stockage de données et les performances dans le calcul haute performance.
― 7 min lire
Table des matières
Alors que les supercalculateurs deviennent de plus en plus puissants, ils peuvent traiter plus de données. Cependant, cette augmentation des données pose des défis pour les stocker et les transférer efficacement. La méthode Adaptive Mesh Refinement (AMR) aide à relever ces défis en permettant aux simulations de se concentrer sur les zones d'intérêt, en utilisant un maillage détaillé quand c'est nécessaire, et un maillage plus grossier dans les zones moins importantes. En même temps, les techniques de Compression avec perte peuvent réduire la taille des données traitées, mais il y a eu peu d'essais pour combiner efficacement AMR avec la compression avec perte. Cet article présente un nouveau cadre de compression avec perte qui fonctionne avec les applications AMR pour améliorer à la fois le stockage des données et la performance.
Contexte
HDF5 ?
Qu'est-ce queHDF5 est un format de fichier et un ensemble d'outils utilisé pour gérer de grandes quantités de données dans des scénarios de calcul haute performance (HPC). Il permet aux utilisateurs de stocker des données complexes et prend en charge l'entrée/sortie (I/O) parallèle, ce qui est crucial pour accélérer l'accès aux données quand plusieurs processeurs sont impliqués. HDF5 a aussi des options intégrées pour la compression des données, ce qui signifie qu'il peut aider à réduire la taille des données écrites sur disque sans compromettre la qualité de l'information.
Pourquoi utiliser la compression avec perte ?
La compression avec perte est une technique qui réduit la taille des données en supprimant certaines informations. Cette méthode peut atteindre de bons ratios de compression, surtout pour des données qui n'ont pas besoin d'être parfaitement précises. Elle est couramment utilisée pour des données à virgule flottante dans des simulations scientifiques. Les métriques clés pour mesurer la compression avec perte sont le ratio de compression, la distorsion des données et le débit. Le ratio de compression indique combien les données sont plus petites, la distorsion mesure l'écart entre les données compressées et l'original, et le débit montre à quelle vitesse les données peuvent être compressées.
Qu'est-ce que l'Adaptive Mesh Refinement ?
AMR est une méthode qui ajuste la résolution des simulations en utilisant une grille plus fine dans les zones nécessitant plus de détails, tout en utilisant une grille plus grossière dans les zones moins critiques. Cette approche adaptative fait gagner des ressources de calcul et de l'espace de stockage, tout en maintenant la précision là où c'est le plus nécessaire. Les données générées par AMR sont structurées de manière hiérarchique, avec différents niveaux de résolution stockés séparément.
Cadre de Compression Proposé
Aperçu de Notre Approche
Le cadre proposé combine des techniques de compression avec perte avec le processus AMR pour améliorer le stockage des données et la performance. Il modifie la façon dont les données AMR sont organisées et compressées en utilisant le filtre HDF5, permettant une meilleure efficacité tant en termes de performance que de qualité de compression. Le cadre est intégré à la bibliothèque AMReX et évalué à l'aide d'applications AMR réelles.
Prétraitement des Données AMR
Pour préparer les données AMR à la compression, le cadre intègre des étapes de prétraitement qui éliminent les données redondantes, tronquent les données et réorganisent les blocs de données selon les besoins des différentes méthodes de compression. En supprimant les données inutiles et en les structurant pour maximiser l'efficacité lors de la compression, le processus devient globalement plus fluide.
Techniques d'Optimisation de Compression
Le cadre utilise diverses techniques pour optimiser la performance des algorithmes de compression avec perte. Par exemple, en utilisant l'Encoding Sans Perte Partagé (SLE), le cadre améliore la qualité de prévision des données, ce qui aide à obtenir de meilleurs résultats de compression. La taille des blocs pour la compression est également ajustée en fonction des caractéristiques spécifiques des données AMR, permettant des résultats de compression plus efficaces.
Modification du Mécanisme de Filtrage HDF5
Le filtre de compression HDF5 est essentiel pour permettre une écriture efficace des données. Le cadre modifie le filtre pour surmonter les défis liés à l'organisation des données AMR. En améliorant la disposition des données pour accommoder différents champs, la taille des morceaux peut être augmentée, améliorant ainsi le ratio de compression global et la performance de l'I/O.
Configuration Expérimentale
Applications Utilisées pour les Tests
Le cadre a été évalué en utilisant deux applications scientifiques qui utilisent AMR : Nyx, qui simule la cosmologie, et WarpX, qui traite des simulations électromagnétiques. Ces applications génèrent de grands volumes de données, les rendant des candidates idéales pour tester l'efficacité du cadre de compression proposé.
Environnement de Test
Les expériences ont été réalisées sur le supercalculateur Summit, une machine de pointe équipée de plusieurs processeurs et d'un système de fichiers rapide. La performance de la méthode proposée a été évaluée par rapport à la solution de compression existante dans la bibliothèque AMReX, en se concentrant sur des facteurs tels que le ratio de compression et les temps d'I/O.
Résultats
Évaluation du Ratio de Compression
Les résultats des expériences montrent que le cadre proposé améliore significativement le ratio de compression par rapport aux méthodes existantes. Le nouveau cadre peut atteindre un ratio de compression allant jusqu'à 81 %, ce qui signifie qu'il peut réduire considérablement la taille des données, ce qui est particulièrement bénéfique pour les grands ensembles de données générés par les simulations.
Qualité des Données Reconstruites
La qualité des données reconstruites, après compression, est un autre facteur critique. Le cadre proposé offre une meilleure qualité de reconstruction, résultant en des taux d'erreur plus bas par rapport à la méthode de compression originale AMReX. Cette amélioration garantit que les données compressées conservent une précision suffisante pour l'analyse.
Temps d'Écriture et Performance I/O
Le temps total nécessaire pour écrire les données sur le stockage est une considération vitale en calcul haute performance. Les résultats indiquent que la méthode proposée peut réduire les temps d'écriture de façon significative, jusqu'à 90 % dans certains cas. Cette réduction du temps d'I/O est essentielle pour gérer efficacement de grands ensembles de données et contribue à une meilleure performance globale dans les simulations.
Conclusion
En conclusion, le cadre de compression avec perte proposé combine efficacement AMR avec des techniques de compression avancées pour améliorer à la fois le stockage des données et la performance de l'I/O dans des environnements de calcul haute performance. Les résultats expérimentaux montrent des améliorations substantielles en termes de ratios de compression, de qualité de reconstruction et de temps d'écriture par rapport aux solutions existantes. Ce cadre montre un potentiel pour de futures applications dans les simulations AMR, pouvant mener à une encore plus grande efficacité dans la gestion des données et la performance computationnelle. D'autres investigations sont prévues pour explorer son application sur différents systèmes informatiques et d'autres applications AMR.
Directions Futures
Pour l'avenir, il y a des projets d'étendre l'utilisation de ce cadre dans d'autres applications scientifiques et d'explorer son intégration avec des systèmes de calcul haute performance supplémentaires. De plus, d'autres optimisations seront envisagées pour améliorer à la fois les techniques de compression et l'utilisabilité générale du cadre. L'objectif est de développer un outil puissant qui puisse simplifier les processus de gestion des données à travers divers domaines de recherche scientifique.
Titre: AMRIC: A Novel In Situ Lossy Compression Framework for Efficient I/O in Adaptive Mesh Refinement Applications
Résumé: As supercomputers advance towards exascale capabilities, computational intensity increases significantly, and the volume of data requiring storage and transmission experiences exponential growth. Adaptive Mesh Refinement (AMR) has emerged as an effective solution to address these two challenges. Concurrently, error-bounded lossy compression is recognized as one of the most efficient approaches to tackle the latter issue. Despite their respective advantages, few attempts have been made to investigate how AMR and error-bounded lossy compression can function together. To this end, this study presents a novel in-situ lossy compression framework that employs the HDF5 filter to improve both I/O costs and boost compression quality for AMR applications. We implement our solution into the AMReX framework and evaluate on two real-world AMR applications, Nyx and WarpX, on the Summit supercomputer. Experiments with 4096 CPU cores demonstrate that AMRIC improves the compression ratio by up to 81X and the I/O performance by up to 39X over AMReX's original compression solution.
Auteurs: Daoce Wang, Jesus Pulido, Pascal Grosset, Jiannan Tian, Sian Jin, Houjun Tang, Jean Sexton, Sheng Di, Zarija Lukić, Kai Zhao, Bo Fang, Franck Cappello, James Ahrens, Dingwen Tao
Dernière mise à jour: 2023-07-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2307.09609
Source PDF: https://arxiv.org/pdf/2307.09609
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/SC23-AMRIC/SC23-AMRIC
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://www.acm.org/publications/proceedings-template
- https://capitalizemytitle.com/
- https://www.acm.org/publications/class-2012
- https://dl.acm.org/ccs/ccs.cfm
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://www.acm.org/publications/taps/describing-figures/