Avaliando Texto com Modelos de Prompt: Um Estudo
Um estudo sobre o uso de modelos de prompt para avaliar tradução automática e sumarização.
― 6 min ler
Índice
- O Que Estamos Estudando?
- Descobertas de Nosso Estudo
- Trabalhos Relacionados
- Diferentes Técnicas de Prompting
- Estabilidade dos Prompts
- Como Testamos os Prompts
- Métricas de Avaliação
- Visão Geral dos Resultados
- Contribuições Chave
- Limitações do Estudo
- Considerações Éticas
- Conclusão
- Fonte original
- Ligações de referência
Modelos de linguagem grandes (LLMs) mudaram a forma como trabalhamos com processamento de linguagem natural (NLP). Eles podem aprender a partir de exemplos em contexto, o que os ajuda a avaliar textos gerados por máquinas. Isso é especialmente útil quando os recursos são limitados ou quando não há muito tempo para avaliações. Neste artigo, discutiremos um estudo em larga escala de diferentes métodos de prompt para métricas utilizadas em Tradução Automática e sumarização.
O Que Estamos Estudando?
Desenvolvemos um sistema chamado PrExMe para explorar vários modelos de prompt. Um prompt é uma maneira de pedir ao modelo um tipo específico de resposta. Em nosso estudo, analisamos mais de 700 modelos de prompt diferentes para ver como eles funcionavam ao avaliar textos em duas áreas principais: tradução automática e sumarização. Ao realizar essa grande comparação, nosso objetivo era alcançar duas metas:
- Fazer um benchmark de quão bem os LLMs de código aberto recentes se desempenham como Métricas de Avaliação.
- Ver quão estáveis ou variáveis eram os resultados com diferentes estratégias de prompting.
Descobertas de Nosso Estudo
Nossas descobertas mostram que, enquanto alguns Prompts levaram a resultados consistentes, outros foram sensíveis a pequenos ajustes. Por exemplo, alguns modelos preferiram dar rótulos de texto ao avaliar textos gerados, enquanto outros optaram por pontuações numéricas. Mudar o pedido de resultados de uma escala de "0 a 100" para uma faixa de "-1 a +1" alterou significativamente a classificação dos textos avaliados.
Trabalhos Relacionados
Nos últimos anos, houve um aumento no uso de LLMs para medir a qualidade de textos gerados. A maior parte do trabalho existente se concentrou em modelos ajustados, o que significa que eles foram especificamente treinados para se desempenhar bem em certas tarefas. No entanto, nosso estudo almeja modelos de código aberto e se baseia exclusivamente em como os prompts podem guiar esses modelos a produzir avaliações sem treinamento adicional.
Diferentes Técnicas de Prompting
Existem várias técnicas para criar prompts em nosso estudo. Alguns dos métodos mais proeminentes incluem:
- Prompting Zero-Shot: Esse método permite que o modelo dê uma resposta sem exemplos.
- Chain-of-Thought (CoT): Essa técnica incentiva o modelo a raciocinar passo a passo antes de fornecer uma resposta.
- Prompts que Induzem Emoção: Esses prompts são projetados para fazer o modelo considerar emoções enquanto responde, o que pode afetar sua avaliação dos textos gerados.
Estabilidade dos Prompts
Mesmo com uma variedade de prompts, descobrimos que alguns eram mais estáveis do que outros. Estabilidade significa que a eficácia de um prompt não muda muito quando alteramos outros aspectos, como o conjunto de dados ou o modelo usado. Ao analisar como esses prompts se desempenharam em diferentes cenários, pudemos identificar quais prompts consistentemente geravam resultados fortes.
Nossas investigações mostraram que os modelos específicos que usamos também tinham preferências. Por exemplo, alguns modelos se saíram melhor com pontuações numéricas, enquanto outros foram mais eficazes com rótulos textuais.
Como Testamos os Prompts
Projetamos uma configuração de teste que envolveu duas fases principais:
- Fase Um: Avaliamos todas as 720 combinações de prompts usando um conjunto de dados de treinamento. Isso nos permitiu restringir os melhores prompts.
- Fase Dois: Testamos os prompts selecionados em conjuntos de dados completos para verificar sua generalizabilidade, ou seja, queríamos ver se eles ainda se sairiam bem fora do conjunto de treinamento.
Métricas de Avaliação
Para medir quão bem nossos prompts funcionaram, usamos diferentes métodos estatísticos para ver quão de perto as pontuações do modelo corresponderam aos julgamentos humanos. As principais métricas que usamos incluíram:
- Correlação de Kendall: Isso mede quão bem as classificações do modelo se alinham com as classificações baseadas em julgamentos humanos.
- Correlação de Spearman e Pearson: Estas são outras formas de medidas estatísticas que ajudam na comparação das classificações.
Visão Geral dos Resultados
No geral, diferentes modelos se desempenharam de forma variável em tarefas. Para tarefas de tradução automática, métricas dedicadas como XComet, que são especificamente treinadas para essas avaliações, mostraram desempenho mais forte em comparação com os modelos que testamos. No entanto, nossos LLMs demonstraram versatilidade, pois também conseguiram lidar com tarefas de sumarização de forma eficaz.
Contribuições Chave
Através de nosso trabalho, destacamos a importância da construção de prompts e como isso impacta significativamente o desempenho das métricas baseadas em LLM. Fornecemos insights sobre quais prompts tendem a gerar os melhores resultados e fizemos recomendações para avaliações futuras neste campo.
Limitações do Estudo
Embora nosso estudo seja extenso, ele possui limitações. Apesar de avaliarmos uma grande variedade de prompts, muitas mais possibilidades existem que ainda não examinamos. Além disso, o processo de seleção dos melhores prompts foi baseado em pontuações máximas em vez de pontuações medianas, o que pode ignorar algumas opções estáveis. Pesquisas futuras devem considerar uma escala maior de experimentos e mais dimensões de técnicas de prompting.
Considerações Éticas
Ao usar modelos para avaliar textos gerados, existe o risco de avaliações incorretas ou "alucinações", onde o modelo pode gerar informações enganosas. No entanto, acreditamos que nosso trabalho pode ajudar a desenvolver abordagens mais confiáveis e reduzir tais riscos.
Conclusão
Este estudo apresenta o PrExMe, uma exploração abrangente de modelos de prompt para métricas de avaliação de código aberto na geração de linguagem natural. Avaliamos mais de 700 modelos diferentes e fornecemos insights e recomendações valiosas para aprimorar a robustez dessas métricas. Ao fazer isso, estabelecemos uma compreensão fundamental das melhores práticas para usar LLMs na avaliação de texto gerado e abrimos a porta para pesquisas futuras nesta área.
Título: PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation
Resumo: Large language models (LLMs) have revolutionized NLP research. Notably, in-context learning enables their use as evaluation metrics for natural language generation, making them particularly advantageous in low-resource scenarios and time-restricted applications. In this work, we introduce PrExMe, a large-scale Prompt Exploration for Metrics, where we evaluate more than 720 prompt templates for open-source LLM-based metrics on machine translation (MT) and summarization datasets, totalling over 6.6M evaluations. This extensive comparison (1) benchmarks recent open-source LLMs as metrics and (2) explores the stability and variability of different prompting strategies. We discover that, on the one hand, there are scenarios for which prompts are stable. For instance, some LLMs show idiosyncratic preferences and favor to grade generated texts with textual labels while others prefer to return numeric scores. On the other hand, the stability of prompts and model rankings can be susceptible to seemingly innocuous changes. For example, changing the requested output format from "0 to 100" to "-1 to +1" can strongly affect the rankings in our evaluation. Our study contributes to understanding the impact of different prompting approaches on LLM-based metrics for MT and summarization evaluation, highlighting the most stable prompting patterns and potential limitations.
Autores: Christoph Leiter, Steffen Eger
Última atualização: 2024-11-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.18528
Fonte PDF: https://arxiv.org/pdf/2406.18528
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://nl2g.github.io/
- https://github.com/Gringham/PrExMe
- https://huggingface.co/Open-Orca/OpenOrca-Platypus2-13B/tree/main
- https://huggingface.co/NousResearch/Nous-Hermes-13b
- https://huggingface.co/TheBloke/Platypus2-Instruct-GPTQ
- https://huggingface.co/Unbabel/XCOMET-XXL
- https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct
- https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GPTQ
- https://huggingface.co/Unbabel/TowerInstruct-13B-v0.1
- https://huggingface.co/facebook/bart-large-cnn
- https://github.com/google-research/mt-metrics-eval
- https://github.com/features/copilot