Sci Simple

New Science Research Articles Everyday

# Informática # Bases de dados # Inteligência Artificial # Linguagens de programação

Avanços em Ferramentas de Geração de Consultas de Log

Revolucionando a maneira como consultamos logs com modelos ajustados.

Vishwanath Seshagiri, Siddharth Balyan, Vaastav Anand, Kaustubh Dhole, Ishan Sharma, Avani Wildani, José Cambronero, Andreas Züfle

― 6 min ler


Ferramentas de Consulta Ferramentas de Consulta de Log Melhoradas consultas de log. Modelos ajustados melhoram muito as
Índice

No mundo dos dados e da tecnologia, conseguir fazer perguntas e obter respostas a partir de logs é super útil. Pense nos logs como aqueles registros que contam o que rolou num sistema de computador, meio que um diário, mas para máquinas. Pra facilitar, os pesquisadores vêm desenvolvendo ferramentas que conseguem transformar perguntas comuns em consultas que os computadores entendem. Esse processo é chamado de Geração de Consultas.

Estrutura de Avaliação para Geração de Consultas

Pra ver como essas ferramentas funcionam, os especialistas criaram um sistema bem detalhado pra avaliá-las. Esse sistema analisa várias áreas importantes. Primeiro, compara modelos que foram Ajustados, ou melhorados, com os básicos. Depois, examina como o tamanho dos dados usados pra ajustar os modelos afeta o Desempenho deles. Em terceiro lugar, verifica como esses modelos se saem em diferentes configurações ou aplicações. Por último, uma revisão detalhada das consultas geradas é feita, usando uma pontuação especial pra medir a qualidade delas.

Usar essa abordagem estruturada ajuda a ter uma visão clara de quão confiáveis essas ferramentas são e como elas conseguem se adaptar a várias situações.

Preparando os Dados

Pra ter certeza de que tudo funcionava direitinho com o sistema de indexação do computador, os logs foram processados em um formato que o sistema conseguia entender. Isso foi feito seguindo modelos. Pareamentos de chave-valor foram criados a partir dos modelos, com rótulos feitos de chaves específicas dos logs. Depois, ferramentas existentes foram usadas pra extrair os valores necessários de cada linha nos logs.

Como o sistema busca consultas baseadas no tempo, os timestamps nos logs foram atualizados. Eles foram mudados pra datas mais recentes, mantendo a ordem das linhas do log correta. A maioria das consultas de log precisa procurar dados da última semana, então essa etapa foi muito importante pra facilitar a busca e análise dos logs.

Executando os Testes

Questões em linguagem natural de um conjunto de testes foram rodadas em diferentes ferramentas, como os modelos e serviços mais recentes. As consultas geradas foram testadas em um sistema local, garantindo que não houvesse problemas com atrasos de rede. Os resultados dessas consultas foram comparados com base em diferentes métricas de desempenho.

Desempenho dos Modelos Ajustados

Durante os testes, a equipe queria ver como os modelos melhorados conseguiam gerar consultas em comparação com os modelos básicos. Eles usaram metade das Amostras pra aprimorar os modelos, seguindo um método específico. Os resultados mostraram melhorias significativas em obter respostas precisas e produzir consultas relevantes.

A maioria das consultas feitas era utilizável. No entanto, cerca de 10% delas tinham erros de Sintaxe, como linhas de log faltando ou expressões erradas. Dentre os modelos aprimorados, um se destacou pelo desempenho superior, mostrando pontuações de precisão impressionantes após o ajuste.

Alguns modelos mostraram melhorias notáveis, com a precisão saltando de níveis muito baixos pra níveis razoavelmente altos. Enquanto um modelo fez o maior progresso, outros também apresentaram ganhos significativos, melhorando sua capacidade de gerar consultas corretas. As pontuações de perplexidade também indicaram que certos modelos tinham melhor coerência, mostrando sua habilidade de prever saídas úteis.

Exemplos de Consultas Antes e Depois do Ajuste

Pra ver a diferença antes e depois do ajuste, alguns exemplos de consultas geradas foram analisados. Antes do ajuste, os modelos tinham vários erros comuns. Isso incluía uso incorreto de rótulos, timestamps fora do lugar e problemas com sintaxe. Por exemplo, uma consulta errada tinha uso incorreto de rótulo, enquanto outra tinha erros na formatação da hora.

Depois do ajuste, a qualidade das consultas geradas melhorou muito. As versões corrigidas implementaram uma sintaxe adequada e capturaram os dados do log pretendidos de forma mais eficaz. As consultas geradas agora estavam no formato certo, demonstrando o efeito positivo do processo de aprimoramento.

Analisando os Efeitos do Ajuste das Amostras

Os pesquisadores exploraram como a quantidade de amostras usadas para treinamento afetou os modelos. Eles usaram diferentes tamanhos de amostras para o ajuste e avaliaram o desempenho dos modelos em um conjunto de testes. Os resultados mostraram um padrão consistente: à medida que o número de amostras aumentava, o desempenho melhorava até atingir um platô.

Por exemplo, um modelo mostrou um aumento significativo na precisão, passando de 20% para 60% dos dados de treinamento. Depois de alcançar 60%, as melhorias se tornaram menos visíveis, sugerindo que há um limite pra quão melhor um modelo pode ficar com mais dados de treinamento. A maioria das melhorias aconteceu nas primeiras etapas do aumento do tamanho das amostras.

Transferibilidade dos Modelos Ajustados

Pra checar se os modelos melhorados conseguiam lidar com diferentes aplicações, os pesquisadores testaram eles em dados que não tinham visto antes. Os modelos foram ajustados usando dados de duas aplicações e depois avaliados numa terceira aplicação, que era desconhecida. Os resultados mostraram que, embora os modelos ajustados se saíssem melhor do que os não ajustados, ainda tinham algumas limitações.

Um modelo, em particular, apresentou um desempenho bem legal em todas as aplicações. Mesmo com os resultados variando, ele ainda superou significativamente os modelos que não tinham sido melhorados. Modelos menores mostraram alguma melhoria, mas ainda tinham dificuldade em capturar todos os padrões de log necessários.

Análise da Qualidade do Código

Pra olhar a qualidade das consultas geradas, os pesquisadores usaram um sistema de pontuação especial. Eles ajustaram o modelo de pontuação pra conseguir avaliar a qualidade das saídas com precisão. A pontuação mostrou que um modelo consistentemente alcançou as classificações mais altas em todas as aplicações, indicando que suas consultas estavam muito próximas das melhores consultas de referência.

Por outro lado, outro modelo pontuou bem mais baixo, sugerindo que sua saída precisa de melhorias significativas pra funcionar corretamente. O terceiro modelo mostrou um desempenho moderado, indicando que ainda tinha trabalho a fazer pra melhorar sua geração de consultas.

Conclusão

No geral, essa avaliação demonstrou que modelos ajustados conseguem gerar consultas de log de forma eficaz. Alguns modelos claramente se saíram melhor que outros, com um se destacando em precisão e qualidade. No entanto, os modelos menos bem-sucedidos mostram que ainda há espaço pra melhorias, especialmente na geração de consultas válidas e confiáveis.

Esse processo todo é como cozinhar; você precisa dos ingredientes certos e de uma boa receita pra fazer um prato delicioso. Ajustar os modelos é basicamente adicionar os temperos certos pra garantir que eles sirvam consultas perfeitas toda vez. E assim como dominar uma receita leva prática, melhorar esses modelos exige mais trabalho e ajustes pra alcançar todo o potencial em gerar consultas de log precisas.

Fonte original

Título: Chatting with Logs: An exploratory study on Finetuning LLMs for LogQL

Resumo: Logging is a critical function in modern distributed applications, but the lack of standardization in log query languages and formats creates significant challenges. Developers currently must write ad hoc queries in platform-specific languages, requiring expertise in both the query language and application-specific log details -- an impractical expectation given the variety of platforms and volume of logs and applications. While generating these queries with large language models (LLMs) seems intuitive, we show that current LLMs struggle with log-specific query generation due to the lack of exposure to domain-specific knowledge. We propose a novel natural language (NL) interface to address these inconsistencies and aide log query generation, enabling developers to create queries in a target log query language by providing NL inputs. We further introduce ~\textbf{NL2QL}, a manually annotated, real-world dataset of natural language questions paired with corresponding LogQL queries spread across three log formats, to promote the training and evaluation of NL-to-loq query systems. Using NL2QL, we subsequently fine-tune and evaluate several state of the art LLMs, and demonstrate their improved capability to generate accurate LogQL queries. We perform further ablation studies to demonstrate the effect of additional training data, and the transferability across different log formats. In our experiments, we find up to 75\% improvement of finetuned models to generate LogQL queries compared to non finetuned models.

Autores: Vishwanath Seshagiri, Siddharth Balyan, Vaastav Anand, Kaustubh Dhole, Ishan Sharma, Avani Wildani, José Cambronero, Andreas Züfle

Última atualização: 2024-12-04 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.03612

Fonte PDF: https://arxiv.org/pdf/2412.03612

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes