Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Ingeniería del software

Denum: Un Enfoque Inteligente para la Compresión de Registros

Denum mejora la compresión de logs al centrarse en los tokens numéricos para ser más eficiente.

Siyu Yu, Yifan Wu, Ying Li, Pinjia He

― 9 minilectura


Nombre: Compresión de LogNombre: Compresión de LogInteligentetokens numéricos.almacenamiento de logs con enfoque enMejorando la eficiencia del
Tabla de contenidos

Los logs son súper importantes para el funcionamiento de los sistemas, ya que registran eventos y actividades. Pero, a medida que crece la cantidad de datos en los logs, almacenar y gestionar esa info se vuelve un reto. Una solución a este problema es la Compresión de logs. Este método reduce el tamaño de los archivos de logs para ahorrar espacio y facilitar su procesamiento.

En los últimos años, han ganado atención métodos de compresión de logs que se centran en cómo están estructurados. Estos métodos buscan patrones dentro de los logs para comprimirlos de manera más efectiva. Uno de estos métodos es un nuevo enfoque llamado Denum, que mejora la forma en que comprimimos los datos de logs prestando especial atención a los números.

¿Por qué comprimir logs?

Los logs son esenciales para el mantenimiento y operación de los sistemas. Ayudan en tareas como detectar errores, analizar problemas y modelar estados del sistema. Muchas veces, se necesita mantener los logs por un tiempo determinado para análisis posteriores a incidentes. Por ejemplo, algunos servicios en la nube requieren que los logs se almacenen durante un mínimo de seis meses. A medida que los sistemas crecen, también lo hace el volumen de logs. En algunos casos, la generación diaria de logs puede llegar a terabytes. Este aumento rápido en los datos lleva a costos más altos de almacenamiento, haciendo que la compresión de logs sea necesaria.

Métodos de compresión actuales

Tradicionalmente, los logs se comprimen usando herramientas de compresión de propósito general como gzip y bzip2. Aunque estas herramientas son versátiles y pueden manejar varios tipos de datos, no aprovechan al máximo la estructura única de los archivos de logs. Algunos investigadores han desarrollado compresores de logs específicos que usan la estructura de los logs para mejorar la compresión. Por ejemplo, los compresores de logs basados en parser analizan los logs y los organizan en formatos estructurados antes de aplicar métodos de compresión generales.

Limitaciones de los métodos existentes

Aunque existen muchos métodos de compresión de logs, a menudo enfrentan limitaciones. Por un lado, pueden no alinearse perfectamente con sus objetivos de analizar y comprimir datos. Esta desalineación puede significar que las características distintas de los logs, especialmente los valores numéricos, no se capitalicen completamente. Además, el rendimiento de los compresores basados en parser puede variar significativamente dependiendo de los logs de muestra que usan, lo que lleva a resultados inconsistentes. También está el tema del tiempo de procesamiento, ya que algunos métodos pueden tardar bastante en manejar los logs.

Presentando Denum

Denum presenta una nueva perspectiva sobre la compresión de logs. Se centra principalmente en los tokens numéricos dentro de los logs, que representan la mayor parte de los datos encontrados en estos archivos. La idea principal detrás de Denum es que, al comprimir de manera efectiva los valores numéricos, podemos mejorar significativamente la compresión total de logs.

Características clave de Denum

Denum consta de dos componentes principales: el módulo de análisis de tokens numéricos y el módulo de procesamiento de cadenas.

  1. Módulo de Análisis de Tokens Numéricos: Este módulo identifica y extrae tokens numéricos de los logs. Los tokens numéricos pueden ser números puros, números combinados con caracteres especiales (como marcas de tiempo) o variables numéricas (que carecen de significado específico). Una vez extraídos, estos tokens se etiquetan según sus patrones. Esta etiquetación permite a Denum tratar tokens numéricos similares de una manera estandarizada y aplicar estrategias de compresión efectivas.

  2. Módulo de Procesamiento de Cadenas: Después de manejar los tokens numéricos, se procesa el resto de los datos del log (los que no tienen números). Denum utiliza un método que emplea un diccionario para almacenar entradas de logs recurrentes. Esto asegura un almacenamiento y recuperación eficientes de los datos del log.

Cómo funciona Denum

Denum sigue un proceso sencillo para comprimir logs.

  1. Extracción de Tokens Numéricos: El primer paso implica escanear los logs e identificar todos los tokens numéricos usando expresiones regulares. Se utilizan diferentes expresiones para capturar números puros, números con caracteres especiales y variables numéricas.

  2. Etiquetado y Agrupación: Cada token numérico recibe una etiqueta según sus características. Las etiquetas ayudan a agrupar tokens similares, permitiendo a Denum aplicar estrategias de compresión personalizadas para cada grupo. Por ejemplo, los números más pequeños pueden no necesitar operaciones complejas, mientras que los valores más grandes pueden ser procesados de manera diferente.

  3. Almacenamiento de Datos del Log: Después de que se han procesado los tokens numéricos, se almacenan los datos restantes del log utilizando un método de índice de diccionario. Este método esencialmente reemplaza las entradas de log con IDs que remiten de vuelta al contenido original almacenado en un diccionario.

  4. Compresión final: Luego, Denum utiliza un compresor de propósito general en los archivos de salida para reducir aún más su tamaño.

Rendimiento de Denum

Denum ha sido probado contra varios métodos de compresión existentes y muestra resultados prometedores. Logra mayores tasas de compresión en varios conjuntos de datos de referencia ampliamente utilizados, que incluyen logs de varios sistemas, aplicaciones y entornos.

Tasas de compresión

El desempeño de Denum en términos de tasas de compresión ha sido bastante impresionante. En muchos casos, Denum supera a los métodos tradicionales e incluso a algunos compresores de logs especializados. Por ejemplo, puede lograr una tasa de compresión que es significativamente más alta que gzip y bzip2, demostrando que no solo es efectivo sino también eficiente para datos de logs.

Velocidad de compresión

Además de lograr altas tasas de compresión, Denum también es conocido por su velocidad. Al compararlo con compresores de logs existentes, Denum comprime logs a un ritmo más rápido, lo que lo hace adecuado para aplicaciones en tiempo real. Se ha observado que la velocidad promedio de la implementación en C++ de Denum a través de varios conjuntos de datos es significativamente más rápida que la de muchos otros en el campo.

Integración con compresores existentes

Una de las ventajas notables de Denum es su compatibilidad con compresores de logs existentes. Denum se puede integrar con otros métodos de compresión de logs para potenciar su rendimiento. Cuando se empareja con compresores establecidos, el módulo de análisis de tokens numéricos de Denum ha ayudado a aumentar las tasas de compresión y velocidades de estos sistemas.

Impacto en otros compresores

Cuando se combina con otros compresores de logs, el enfoque de Denum permite un mejor manejo de los datos numéricos. Por ejemplo, cuando se añade su método de análisis numérico a LogShrink o LogReducer, ambos sistemas demuestran mejores tasas de compresión y velocidades. Esta adaptabilidad significa que Denum se puede usar en varios escenarios para mejorar la gestión general de logs.

Evaluación y resultados

Se han realizado pruebas exhaustivas para evaluar el rendimiento de Denum. Se han utilizado diversas métricas como la tasa de compresión (CR) y la velocidad de compresión (CS) para medir su efectividad.

Conjuntos de datos de referencia

Las pruebas se llevaron a cabo utilizando conjuntos de datos de referencia aceptados, que incluyen logs de sistemas diversos como entornos de computación distribuida, sistemas operativos y aplicaciones móviles. Estos conjuntos de datos proporcionan una visión integral del rendimiento de Denum en diferentes escenarios de logging.

Análisis comparativo

Denum ha demostrado consistentemente que puede superar a muchos compresores de logs existentes. En la mayoría de los casos, logra una tasa de compresión y velocidad más altas que métodos establecidos como LogShrink y LogReducer. Los resultados indican que Denum no solo comprime logs mejor, sino que también lo hace en menos tiempo.

Implicaciones prácticas

Los beneficios de Denum son significativos para las empresas y organizaciones que dependen en gran medida del logging para las operaciones del sistema. A medida que los logs crecen en volumen, usar un método de compresión efectivo como Denum puede llevar a importantes ahorros de costos en términos de almacenamiento.

Eficiencia de costos

Usar Denum puede ayudar a las organizaciones a reducir sus necesidades de almacenamiento, lo que es especialmente relevante dado el aumento de los costos asociados con el almacenamiento de datos. Al comprimir los logs de manera más efectiva, las empresas pueden bajar sus costos mientras mantienen los datos necesarios para análisis y resolución de problemas.

Procesamiento mejorado

Con velocidades de compresión más rápidas, Denum permite un procesamiento más ágil de los logs, lo que es beneficioso para aplicaciones en tiempo real. Las organizaciones que necesitan analizar logs en tiempo real pueden aprovechar la velocidad de Denum para obtener información más rápido y mejorar sus respuestas operativas.

Conclusión

La compresión de logs es crucial para gestionar y almacenar la gran cantidad de datos generados por los sistemas. Denum introduce un enfoque innovador a la compresión de logs, centrándose en los tokens numéricos para lograr un mejor rendimiento. Su método de dos frentes-análisis de tokens numéricos y procesamiento de cadenas-asegura que los logs se compriman de forma eficiente y efectiva.

Los resultados positivos de pruebas exhaustivas demuestran que Denum no solo proporciona altas tasas de compresión, sino que también mejora la velocidad en comparación con métodos existentes. Su capacidad de integrarse con otros compresores refuerza aún más su lugar como una herramienta valiosa en el ámbito de la gestión de logs.

A medida que los sistemas continúan generando más datos, tener métodos eficientes como Denum a nuestra disposición será vital para análisis y soluciones de almacenamiento de logs efectivas.

Fuente original

Título: Unlocking the Power of Numbers: Log Compression via Numeric Token Parsing

Resumen: Parser-based log compressors have been widely explored in recent years because the explosive growth of log volumes makes the compression performance of general-purpose compressors unsatisfactory. These parser-based compressors preprocess logs by grouping the logs based on the parsing result and then feed the preprocessed files into a general-purpose compressor. However, parser-based compressors have their limitations. First, the goals of parsing and compression are misaligned, so the inherent characteristics of logs were not fully utilized. In addition, the performance of parser-based compressors depends on the sample logs and thus it is very unstable. Moreover, parser-based compressors often incur a long processing time. To address these limitations, we propose Denum, a simple, general log compressor with high compression ratio and speed. The core insight is that a majority of the tokens in logs are numeric tokens (i.e. pure numbers, tokens with only numbers and special characters, and numeric variables) and effective compression of them is critical for log compression. Specifically, Denum contains a Numeric Token Parsing module, which extracts all numeric tokens and applies tailored processing methods (e.g. store the differences of incremental numbers like timestamps), and a String Processing module, which processes the remaining log content without numbers. The processed files of the two modules are then fed as input to a general-purpose compressor and it outputs the final compression results. Denum has been evaluated on 16 log datasets and it achieves an 8.7%-434.7% higher average compression ratio and 2.6x-37.7x faster average compression speed (i.e. 26.2MB/S) compared to the baselines. Moreover, integrating Denum's Numeric Token Parsing into existing log compressors can provide an 11.8% improvement in their average compression ratio and achieve 37% faster average compression speed.

Autores: Siyu Yu, Yifan Wu, Ying Li, Pinjia He

Última actualización: 2024-08-11 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2408.05760

Fuente PDF: https://arxiv.org/pdf/2408.05760

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares