Simple Science

La science de pointe expliquée simplement

# Informatique# Génie logiciel

Denum : Une approche intelligente pour la compression de logs

Denum améliore la compression des logs en se concentrant sur les tokens numériques pour plus d'efficacité.

Siyu Yu, Yifan Wu, Ying Li, Pinjia He

― 9 min lire


Dénom: Compression de LogDénom: Compression de LogIntelligentenumériques.logs en se concentrant sur les tokensAméliorer l'efficacité du stockage des
Table des matières

Les logs jouent un rôle super important dans le fonctionnement des systèmes, en gardant une trace des événements et des activités. Mais, à mesure que la quantité de données dans les logs augmente, stocker et gérer ces infos devient compliqué. Une solution à ce problème, c'est la Compression des logs. Cette méthode réduit la taille des fichiers de logs pour économiser de l'espace et faciliter leur traitement.

Ces dernières années, des méthodes de compression des logs qui se concentrent sur la façon dont les logs sont structurés ont attiré l'attention. Ces méthodes recherchent des motifs dans les logs pour les compresser plus efficacement. Parmi ces méthodes, il y a un nouvel approche appelée Denum, qui améliore la façon dont on compresse les données de logs en prêtant une attention particulière aux chiffres.

Pourquoi compresser les logs ?

Les logs sont essentiels pour la maintenance et le fonctionnement des systèmes. Ils aident dans des tâches comme détecter des erreurs, analyser des problèmes et modéliser des états de système. Garder les logs pendant un certain temps est souvent nécessaire pour l'analyse post-incident. Par exemple, certains services cloud demandent que les logs soient conservés pendant au moins six mois. À mesure que les systèmes grandissent, le volume de logs augmente aussi. Dans certains cas, la génération quotidienne de logs peut atteindre des téraoctets. Cette augmentation rapide des données entraîne des coûts de stockage plus élevés, rendant la compression des logs nécessaire.

Méthodes de compression actuelles

Traditionnellement, les logs sont compressés en utilisant des outils de compression généralistes comme gzip et bzip2. Bien que ces outils soient polyvalents et peuvent gérer divers types de données, ils n'exploitent pas pleinement la structure unique des fichiers de logs. Certains chercheurs ont développé des compresseurs de logs spécifiques qui utilisent la structure des logs pour améliorer la compression. Par exemple, les compresseurs de logs basés sur un analyseur analysent les logs et les organisent en formats structurés avant d'appliquer des méthodes de compression générales.

Limitations des méthodes existantes

Bien qu'il existe de nombreuses méthodes de compression des logs, elles font souvent face à des limitations. D'une part, elles peuvent ne pas s'aligner parfaitement avec leurs objectifs de parsing et de compression des données. Ce désalignement peut signifier que les caractéristiques distinctes des logs, surtout les valeurs numériques, ne sont pas pleinement exploitées. De plus, la performance des compresseurs basés sur un analyseur peut varier considérablement selon les logs échantillons qu'ils utilisent, entraînant des résultats incohérents. Il y a aussi le temps de traitement, car certaines méthodes peuvent prendre pas mal de temps pour traiter les logs.

Présentation de Denum

Denum propose une nouvelle perspective sur la compression des logs. Elle se concentre principalement sur les tokens numériques dans les logs, qui représentent la plupart des données trouvées dans ces fichiers. L'idée clé derrière Denum est qu'en compressant efficacement les valeurs numériques, on peut considérablement améliorer la compression globale des logs.

Caractéristiques clés de Denum

Denum se compose de deux composants principaux : le module d'analyse des tokens numériques et le module de traitement des chaînes.

  1. Module d'analyse des tokens numériques : Ce module identifie et extrait les tokens numériques des logs. Les tokens numériques peuvent être des nombres purs, des nombres combinés avec des caractères spéciaux (comme des horodatages), ou des variables numériques (qui n'ont pas de signification spécifique). Une fois extraits, ces tokens sont étiquetés en fonction de leurs motifs. Cette étiquetage permet à Denum de traiter des tokens numériques similaires de manière standardisée et d'appliquer des stratégies de compression efficaces.

  2. Module de traitement des chaînes : Après avoir traité les tokens numériques, les données log restantes (celles sans nombres) sont traitées. Denum utilise une méthode qui emploie un dictionnaire pour stocker les entrées de logs récurrentes. Cela permet d'assurer un stockage et une récupération efficaces des données de logs.

Fonctionnement de Denum

Denum suit un processus simple pour compresser les logs.

  1. Extraction des tokens numériques : La première étape consiste à scanner les logs et à identifier tous les tokens numériques en utilisant des expressions régulières. Différentes expressions sont utilisées pour capturer des nombres purs, des nombres avec des caractères spéciaux, et des variables numériques.

  2. Étiquetage et regroupement : Chaque token numérique reçoit une étiquette basée sur ses caractéristiques. Les étiquettes aident à regrouper des tokens similaires, permettant à Denum d'appliquer des stratégies de compression adaptées à chaque groupe. Par exemple, les petits nombres pourraient ne pas nécessiter d'opérations complexes, tandis que les valeurs plus grandes pourraient être traitées différemment.

  3. Stockage des données log : Après que les tokens numériques ont été traités, les données log restantes sont stockées en utilisant une méthode indexée par dictionnaire. Cette méthode remplace essentiellement les entrées de logs par des IDs qui renvoient au contenu original stocké dans un dictionnaire.

  4. Compression finale : Denum utilise ensuite un compresseur généraliste sur les fichiers de sortie pour réduire encore leur taille.

Performance de Denum

Denum a été testé par rapport à diverses méthodes de compression existantes et montre des résultats prometteurs. Elle atteint des Taux de compression plus élevés sur plusieurs ensembles de données de référence largement utilisés, qui incluent des logs de divers systèmes, applications et environnements.

Ratios de compression

La performance de Denum en termes de ratios de compression a été plutôt impressionnante. Dans de nombreux cas, Denum surpasse les méthodes traditionnelles et même certains compresseurs de logs spécialisés. Par exemple, elle peut atteindre un ratio de compression qui est significativement plus élevé que gzip et bzip2, montrant qu'elle est non seulement efficace mais aussi performante pour les données de logs.

Vitesse de compression

En plus d'obtenir des rapports de compression élevés, Denum est également connue pour sa rapidité. Comparée à d'autres compresseurs de logs existants, Denum compresse les logs à un rythme plus rapide, ce qui la rend adaptée aux applications en temps réel. La vitesse moyenne de l'implémentation C++ de Denum à travers divers ensembles de données a été observée comme étant significativement plus rapide que celle de beaucoup d'autres dans le domaine.

Intégration avec des compresseurs existants

Un des avantages notables de Denum est sa compatibilité avec les compresseurs de logs existants. Denum peut être intégrée avec d'autres méthodes de compression de logs pour améliorer leurs performances. Associée à des compresseurs établis, le module d'analyse de tokens numériques de Denum a aidé à augmenter les ratios et les vitesses de compression de ces systèmes.

Impact sur d'autres compresseurs

Lorsqu'elle est combinée avec d'autres compresseurs de logs, l'approche de Denum permet une meilleure gestion des données numériques. Par exemple, quand sa méthode d'analyse numérique est ajoutée à LogShrink ou LogReducer, ces deux systèmes montrent de meilleurs ratios de compression et vitesses. Cette adaptabilité signifie que Denum peut être utilisée dans divers scénarios pour améliorer la gestion globale des logs.

Évaluation et résultats

Des tests approfondis ont été réalisés pour évaluer la performance de Denum. Différents indicateurs comme le ratio de compression (CR) et la vitesse de compression (CS) ont été utilisés pour mesurer son efficacité.

Ensembles de données de référence

Les tests ont été effectués en utilisant des ensembles de données de référence largement acceptés, qui incluent des logs de divers systèmes tels que des environnements informatiques distribués, des systèmes d'exploitation, et des applications mobiles. Ces ensembles de données fournissent une vue complète de la performance de Denum dans différents scénarios de logging.

Analyse comparative

Denum a constamment montré qu'elle peut surpasser de nombreux compresseurs de logs existants. Dans la plupart des cas, elle atteint un ratio de compression et une vitesse plus élevés que des méthodes établies comme LogShrink et LogReducer. Les résultats indiquent que Denum non seulement compresse mieux les logs mais le fait aussi en moins de temps.

Implications pratiques

Les avantages de Denum sont significatifs pour les entreprises et les organisations qui dépendent fortement des logs pour les opérations système. Alors que les logs augmentent en volume, utiliser une méthode de compression efficace comme Denum peut entraîner des économies substantielles en matière de stockage.

Efficacité économique

Utiliser Denum peut aider les organisations à réduire leurs besoins de stockage, ce qui est particulièrement pertinent compte tenu des coûts croissants associés au stockage de données. En compressant les logs de manière plus efficace, les entreprises peuvent réduire leurs coûts tout en maintenant les données nécessaires pour l'analyse et le dépannage.

Traitement amélioré

Avec des vitesses de compression plus élevées, Denum permet un traitement plus rapide des logs, ce qui est bénéfique pour les applications en temps réel. Les organisations qui ont besoin d'analyser les logs en temps réel peuvent tirer parti de la rapidité de Denum pour obtenir des insights plus rapidement et améliorer leurs réponses opérationnelles.

Conclusion

La compression des logs est cruciale pour gérer et stocker la grande quantité de données générées par les systèmes. Denum introduit une approche innovante à la compression des logs, en se concentrant sur les tokens numériques pour obtenir de meilleures performances. Sa méthode en deux volets - l'analyse des tokens numériques et le traitement des chaînes - garantit que les logs sont compressés de manière efficace et efficiente.

Les résultats positifs des tests approfondis montrent que Denum non seulement fournit des taux de compression élevés mais améliore également la vitesse par rapport aux méthodes existantes. Sa capacité à s'intégrer à d'autres compresseurs renforce encore sa place en tant qu'outil précieux dans le domaine de la gestion des logs.

Alors que les systèmes continuent de générer plus de données, avoir des méthodes efficaces comme Denum à notre disposition sera vital pour des solutions d'analyse et de stockage des logs efficaces.

Source originale

Titre: Unlocking the Power of Numbers: Log Compression via Numeric Token Parsing

Résumé: Parser-based log compressors have been widely explored in recent years because the explosive growth of log volumes makes the compression performance of general-purpose compressors unsatisfactory. These parser-based compressors preprocess logs by grouping the logs based on the parsing result and then feed the preprocessed files into a general-purpose compressor. However, parser-based compressors have their limitations. First, the goals of parsing and compression are misaligned, so the inherent characteristics of logs were not fully utilized. In addition, the performance of parser-based compressors depends on the sample logs and thus it is very unstable. Moreover, parser-based compressors often incur a long processing time. To address these limitations, we propose Denum, a simple, general log compressor with high compression ratio and speed. The core insight is that a majority of the tokens in logs are numeric tokens (i.e. pure numbers, tokens with only numbers and special characters, and numeric variables) and effective compression of them is critical for log compression. Specifically, Denum contains a Numeric Token Parsing module, which extracts all numeric tokens and applies tailored processing methods (e.g. store the differences of incremental numbers like timestamps), and a String Processing module, which processes the remaining log content without numbers. The processed files of the two modules are then fed as input to a general-purpose compressor and it outputs the final compression results. Denum has been evaluated on 16 log datasets and it achieves an 8.7%-434.7% higher average compression ratio and 2.6x-37.7x faster average compression speed (i.e. 26.2MB/S) compared to the baselines. Moreover, integrating Denum's Numeric Token Parsing into existing log compressors can provide an 11.8% improvement in their average compression ratio and achieve 37% faster average compression speed.

Auteurs: Siyu Yu, Yifan Wu, Ying Li, Pinjia He

Dernière mise à jour: 2024-08-11 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2408.05760

Source PDF: https://arxiv.org/pdf/2408.05760

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires

Électrons fortement corrélésExploiter la génération d'harmoniques élevées dans des chaînes antiferromagnétiques

Explorer les ondes de spin à haute fréquence dans des matériaux antiferromagnétiques pour un traitement de données avancé.

Mohsen Yarmohammadi, Michael H. Kolodrubetz

― 8 min lire