Avaliando Texto com Modelos de Prompt: Um Estudo

Um estudo sobre o uso de modelos de prompt para avaliar tradução automática e sumarização.

2025-07-24T00:56:06+00:00 ― 6 min ler

Índice

O Que Estamos Estudando?
Descobertas de Nosso Estudo
Trabalhos Relacionados
Diferentes Técnicas de Prompting
Estabilidade dos Prompts
Como Testamos os Prompts
Métricas de Avaliação
Visão Geral dos Resultados
Contribuições Chave
Limitações do Estudo
Considerações Éticas
Conclusão
Fonte original
Ligações de referência

Modelos de linguagem grandes (LLMs) mudaram a forma como trabalhamos com processamento de linguagem natural (NLP). Eles podem aprender a partir de exemplos em contexto, o que os ajuda a avaliar textos gerados por máquinas. Isso é especialmente útil quando os recursos são limitados ou quando não há muito tempo para avaliações. Neste artigo, discutiremos um estudo em larga escala de diferentes métodos de prompt para métricas utilizadas em Tradução Automática e sumarização.

O Que Estamos Estudando?

Desenvolvemos um sistema chamado PrExMe para explorar vários modelos de prompt. Um prompt é uma maneira de pedir ao modelo um tipo específico de resposta. Em nosso estudo, analisamos mais de 700 modelos de prompt diferentes para ver como eles funcionavam ao avaliar textos em duas áreas principais: tradução automática e sumarização. Ao realizar essa grande comparação, nosso objetivo era alcançar duas metas:

Fazer um benchmark de quão bem os LLMs de código aberto recentes se desempenham como Métricas de Avaliação.
Ver quão estáveis ou variáveis eram os resultados com diferentes estratégias de prompting.

Descobertas de Nosso Estudo

Nossas descobertas mostram que, enquanto alguns Prompts levaram a resultados consistentes, outros foram sensíveis a pequenos ajustes. Por exemplo, alguns modelos preferiram dar rótulos de texto ao avaliar textos gerados, enquanto outros optaram por pontuações numéricas. Mudar o pedido de resultados de uma escala de "0 a 100" para uma faixa de "-1 a +1" alterou significativamente a classificação dos textos avaliados.

Trabalhos Relacionados

Nos últimos anos, houve um aumento no uso de LLMs para medir a qualidade de textos gerados. A maior parte do trabalho existente se concentrou em modelos ajustados, o que significa que eles foram especificamente treinados para se desempenhar bem em certas tarefas. No entanto, nosso estudo almeja modelos de código aberto e se baseia exclusivamente em como os prompts podem guiar esses modelos a produzir avaliações sem treinamento adicional.

Diferentes Técnicas de Prompting

Existem várias técnicas para criar prompts em nosso estudo. Alguns dos métodos mais proeminentes incluem:

Prompting Zero-Shot: Esse método permite que o modelo dê uma resposta sem exemplos.
Chain-of-Thought (CoT): Essa técnica incentiva o modelo a raciocinar passo a passo antes de fornecer uma resposta.
Prompts que Induzem Emoção: Esses prompts são projetados para fazer o modelo considerar emoções enquanto responde, o que pode afetar sua avaliação dos textos gerados.

Estabilidade dos Prompts

Mesmo com uma variedade de prompts, descobrimos que alguns eram mais estáveis do que outros. Estabilidade significa que a eficácia de um prompt não muda muito quando alteramos outros aspectos, como o conjunto de dados ou o modelo usado. Ao analisar como esses prompts se desempenharam em diferentes cenários, pudemos identificar quais prompts consistentemente geravam resultados fortes.

Nossas investigações mostraram que os modelos específicos que usamos também tinham preferências. Por exemplo, alguns modelos se saíram melhor com pontuações numéricas, enquanto outros foram mais eficazes com rótulos textuais.

Como Testamos os Prompts

Projetamos uma configuração de teste que envolveu duas fases principais:

Fase Um: Avaliamos todas as 720 combinações de prompts usando um conjunto de dados de treinamento. Isso nos permitiu restringir os melhores prompts.
Fase Dois: Testamos os prompts selecionados em conjuntos de dados completos para verificar sua generalizabilidade, ou seja, queríamos ver se eles ainda se sairiam bem fora do conjunto de treinamento.

Métricas de Avaliação

Para medir quão bem nossos prompts funcionaram, usamos diferentes métodos estatísticos para ver quão de perto as pontuações do modelo corresponderam aos julgamentos humanos. As principais métricas que usamos incluíram:

Correlação de Kendall: Isso mede quão bem as classificações do modelo se alinham com as classificações baseadas em julgamentos humanos.
Correlação de Spearman e Pearson: Estas são outras formas de medidas estatísticas que ajudam na comparação das classificações.

Visão Geral dos Resultados

No geral, diferentes modelos se desempenharam de forma variável em tarefas. Para tarefas de tradução automática, métricas dedicadas como XComet, que são especificamente treinadas para essas avaliações, mostraram desempenho mais forte em comparação com os modelos que testamos. No entanto, nossos LLMs demonstraram versatilidade, pois também conseguiram lidar com tarefas de sumarização de forma eficaz.

Contribuições Chave

Através de nosso trabalho, destacamos a importância da construção de prompts e como isso impacta significativamente o desempenho das métricas baseadas em LLM. Fornecemos insights sobre quais prompts tendem a gerar os melhores resultados e fizemos recomendações para avaliações futuras neste campo.

Limitações do Estudo

Embora nosso estudo seja extenso, ele possui limitações. Apesar de avaliarmos uma grande variedade de prompts, muitas mais possibilidades existem que ainda não examinamos. Além disso, o processo de seleção dos melhores prompts foi baseado em pontuações máximas em vez de pontuações medianas, o que pode ignorar algumas opções estáveis. Pesquisas futuras devem considerar uma escala maior de experimentos e mais dimensões de técnicas de prompting.

Considerações Éticas

Ao usar modelos para avaliar textos gerados, existe o risco de avaliações incorretas ou "alucinações", onde o modelo pode gerar informações enganosas. No entanto, acreditamos que nosso trabalho pode ajudar a desenvolver abordagens mais confiáveis e reduzir tais riscos.

Conclusão

Este estudo apresenta o PrExMe, uma exploração abrangente de modelos de prompt para métricas de avaliação de código aberto na geração de linguagem natural. Avaliamos mais de 700 modelos diferentes e fornecemos insights e recomendações valiosas para aprimorar a robustez dessas métricas. Ao fazer isso, estabelecemos uma compreensão fundamental das melhores práticas para usar LLMs na avaliação de texto gerado e abrimos a porta para pesquisas futuras nesta área.

Avaliando Texto com Modelos de Prompt: Um Estudo

Um estudo sobre o uso de modelos de prompt para avaliar tradução automática e sumarização.

#O Que Estamos Estudando?

#Descobertas de Nosso Estudo

#Trabalhos Relacionados

#Diferentes Técnicas de Prompting

#Estabilidade dos Prompts

#Como Testamos os Prompts

#Métricas de Avaliação

#Visão Geral dos Resultados

#Contribuições Chave

#Limitações do Estudo

#Considerações Éticas

#Conclusão

Ligações de referência

Tópicos referenciados