Sci Simple

New Science Research Articles Everyday

# Informática # Bases de datos # Inteligencia artificial # Lenguajes de programación

Avances en herramientas de generación de consultas de registros

Revolucionando la forma en que consultamos registros con modelos afinados.

Vishwanath Seshagiri, Siddharth Balyan, Vaastav Anand, Kaustubh Dhole, Ishan Sharma, Avani Wildani, José Cambronero, Andreas Züfle

― 7 minilectura


Herramientas de Consulta Herramientas de Consulta de Logs Mejoradas las consultas de logs. Los modelos ajustados mejoran muchísimo
Tabla de contenidos

En el mundo de los datos y la tecnología, poder hacer preguntas y obtener respuestas de los registros es muy útil. Piensa en los registros como esos apuntes que cuentan lo que pasó en un sistema informático, como un diario pero para máquinas. Para facilitar las cosas, los investigadores han estado trabajando en herramientas que pueden convertir preguntas comunes en consultas que las computadoras entienden. Este proceso se conoce como Generación de consultas.

Marco de Evaluación para la Generación de Consultas

Para evaluar qué tan bien funcionan estas herramientas, los expertos crearon un sistema completo para evaluarlas. Este sistema investiga varias áreas importantes. Primero, compara modelos que han sido Ajustados, o mejorados, con respecto a los básicos. Segundo, examina cómo el tamaño de los datos usados para afinar los modelos afecta su rendimiento. Tercero, verifica qué tan bien pueden funcionar estos modelos en diferentes entornos o aplicaciones. Por último, se realiza una revisión detallada de las consultas generadas, utilizando una puntuación especial para medir su calidad.

Usar este enfoque estructurado ayuda a tener una visión clara de qué tan confiables son estas herramientas y qué tan bien pueden adaptarse a diversas situaciones.

Preparando los Datos

Para asegurarse de que todo funcione bien con el sistema de indexación de la computadora, los registros fueron procesados en un formato que el sistema pudiera entender. Esto se hizo siguiendo plantillas. Se crearon pares clave-valor a partir de las plantillas, con etiquetas compuestas por claves de registro específicas. Luego, se usaron herramientas existentes para extraer los valores necesarios de cada línea en los registros.

Como el sistema busca consultas basadas en el tiempo, las marcas de tiempo en los registros se actualizaron. Se cambiaron a fechas más recientes mientras se mantenía el orden correcto de las líneas del registro. La mayoría de las consultas de registro necesitan buscar datos de la última semana, así que este paso fue muy importante para facilitar la búsqueda y el análisis de los registros.

Ejecutando las Pruebas

Preguntas en lenguaje natural de un conjunto de pruebas se ejecutaron a través de diferentes herramientas, como los modelos y servicios más recientes. Las consultas generadas se ejecutaron en un sistema local, asegurando que no hubiera problemas con retrasos de red. Los resultados de estas consultas se compararon en base a diferentes métricas de rendimiento.

Rendimiento de los Modelos Ajustados

Durante las pruebas, el equipo quería ver qué tan bien podían generar consultas los modelos mejorados en comparación con los básicos. Usaron la mitad de las Muestras para mejorar los modelos, siguiendo un método específico. Los resultados mostraron mejoras significativas en obtener respuestas precisas y generar consultas relevantes.

La mayoría de las consultas generadas eran utilizables. Sin embargo, alrededor del 10% de ellas tenían errores de sintaxis, como líneas de registro faltantes o expresiones incorrectas. Entre los modelos mejorados, uno destacó por su rendimiento superior, mostrando puntuaciones de precisión impresionantes después de ser ajustado.

Algunos modelos mostraron mejoras notables, con la precisión saltando de niveles muy bajos a niveles razonablemente altos. Aunque un modelo hizo los avances más significativos, otros también mostraron ganancias significativas, mejorando su capacidad para generar consultas correctas. Las puntuaciones de perplejidad también indicaron que ciertos modelos tenían mejor coherencia, mostrando su capacidad para predecir salidas útiles.

Ejemplos de Consultas Antes y Después del Ajuste

Para ver la diferencia antes y después del ajuste, se analizaron algunos ejemplos de consultas generadas. Antes del ajuste, los modelos tenían varios errores comunes. Estos incluían uso incorrecto de etiquetas, marcas de tiempo mal colocadas y problemas de sintaxis. Por ejemplo, una consulta incorrecta tenía un uso de etiqueta erróneo, mientras que otra tenía errores en el formato de tiempo.

Después del ajuste, la calidad de las consultas generadas mejoró enormemente. Las versiones corregidas implementaron la sintaxis adecuada y capturaron los datos del registro deseado de manera más efectiva. Las consultas generadas ahora coincidían con los formatos necesarios, demostrando el efecto positivo del proceso de mejora.

Analizando los Efectos de los Muestras Ajustadas

Los investigadores exploraron cómo el número de muestras utilizadas para el entrenamiento afectaba a los modelos. Usaron diferentes tamaños de muestra para el ajuste y evaluaron el rendimiento de los modelos en un conjunto de pruebas. Los resultados mostraron consistentemente un patrón: a medida que aumentaba el número de muestras, el rendimiento mejoraba hasta llegar a una meseta.

Por ejemplo, un modelo mostró un aumento significativo en la precisión del 20% al 60% de los datos de entrenamiento. Después de alcanzar el 60%, las mejoras se volvieron menos notables, sugiriendo que hay un límite en cuánto puede mejorar un modelo con más datos de entrenamiento. La mayoría de las mejoras ocurrieron en las primeras etapas de aumento de tamaños de muestra.

Transferibilidad de los Modelos Ajustados

Para comprobar si los modelos mejorados podían manejar diferentes aplicaciones, los investigadores los probaron con datos que no habían visto antes. Los modelos fueron ajustados usando datos de dos aplicaciones y luego evaluados en una tercera, no familiar. Los resultados mostraron que, aunque los modelos ajustados desempeñaron mejor que los no ajustados, aún tenían algunas limitaciones.

Un modelo, en particular, mostró un rendimiento bastante bueno en todas las aplicaciones. A pesar de que los resultados variaron, aún superó significativamente a los modelos que no habían sido mejorados. Los modelos más pequeños mostraron algo de mejora, pero aún lucharon por capturar todos los patrones de registro necesarios.

Análisis de Calidad del Código

Para revisar la calidad de las consultas generadas, los investigadores emplearon un sistema de puntuación especial. Ajustaron el modelo de puntuación para poder evaluar la calidad de las salidas con precisión. La puntuación mostró que un modelo consistentemente alcanzó las calificaciones más altas en todas las aplicaciones, indicando que sus consultas estaban muy cerca de las mejores consultas de referencia.

Por otro lado, otro modelo obtuvo una puntuación mucho más baja, sugiriendo que su salida necesita una mejora significativa para funcionar correctamente. El tercer modelo mostró un rendimiento moderado, indicando que aún tenía trabajo por hacer para mejorar su generación de consultas.

Conclusión

En general, esta evaluación demostró que los modelos ajustados pueden generar consultas de registros de manera efectiva. Algunos modelos claramente sobresalieron sobre otros, siendo uno el que más destacó en precisión y calidad. Sin embargo, los modelos menos exitosos muestran que hay espacio para mejorar, particularmente en la generación de consultas válidas y confiables.

Todo este proceso es como cocinar; necesitas los ingredientes adecuados y una buena receta para hacer un plato delicioso. Ajustar los modelos es esencialmente agregar las especias correctas para asegurarte de que sirvan consultas perfectas cada vez. Y al igual que dominar una receta requiere práctica, mejorar estos modelos requiere más trabajo y ajustes para alcanzar su máximo potencial en la generación de consultas de registro precisas.

Fuente original

Título: Chatting with Logs: An exploratory study on Finetuning LLMs for LogQL

Resumen: Logging is a critical function in modern distributed applications, but the lack of standardization in log query languages and formats creates significant challenges. Developers currently must write ad hoc queries in platform-specific languages, requiring expertise in both the query language and application-specific log details -- an impractical expectation given the variety of platforms and volume of logs and applications. While generating these queries with large language models (LLMs) seems intuitive, we show that current LLMs struggle with log-specific query generation due to the lack of exposure to domain-specific knowledge. We propose a novel natural language (NL) interface to address these inconsistencies and aide log query generation, enabling developers to create queries in a target log query language by providing NL inputs. We further introduce ~\textbf{NL2QL}, a manually annotated, real-world dataset of natural language questions paired with corresponding LogQL queries spread across three log formats, to promote the training and evaluation of NL-to-loq query systems. Using NL2QL, we subsequently fine-tune and evaluate several state of the art LLMs, and demonstrate their improved capability to generate accurate LogQL queries. We perform further ablation studies to demonstrate the effect of additional training data, and the transferability across different log formats. In our experiments, we find up to 75\% improvement of finetuned models to generate LogQL queries compared to non finetuned models.

Autores: Vishwanath Seshagiri, Siddharth Balyan, Vaastav Anand, Kaustubh Dhole, Ishan Sharma, Avani Wildani, José Cambronero, Andreas Züfle

Última actualización: 2024-12-04 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.03612

Fuente PDF: https://arxiv.org/pdf/2412.03612

Licencia: https://creativecommons.org/publicdomain/zero/1.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares