Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliação do Seguimento de Instruções Sequenciais em LLMs

Um novo benchmark avalia quão bem os modelos de linguagem seguem múltiplas instruções em sequência.

― 5 min ler


Novo Benchmark de LLMNovo Benchmark de LLMReveladoinstruções complexas.Avaliando a capacidade da IA de seguir
Índice

Seguir múltiplas instruções é uma habilidade chave para modelos de linguagem de grande porte (LLMs). No entanto, avaliar essa habilidade apresenta desafios, incluindo conexões pouco claras entre instruções, o efeito da ordem das instruções no desempenho e a falta de tarefas que possam ser verificadas de forma objetiva.

Para enfrentar esses desafios, apresentamos um benchmark destinado a testar quão bem os modelos podem lidar com tarefas que exigem seguir etapas em sequência. Em nosso benchmark, a eficácia de completar todas as instruções pode ser verificada apenas observando a última tarefa. Isso permite uma avaliação abrangente em quatro tarefas: Modificação de Texto, Resposta a Perguntas, Matemática e seguimento de regras de segurança.

Desafios na Avaliação do Seguimento de Instruções

Os métodos atuais de avaliação de LLMs geralmente se concentram em instruções únicas ou carecem de coerência ao envolver múltiplas etapas. Isso pode dificultar a avaliação de como um modelo se sai de maneira geral. Outro problema é que a ordem em que as instruções são dadas pode impactar a qualidade da resposta de um modelo, o que pode distorcer os resultados. Finalmente, muitas tarefas de avaliação não se prestam facilmente a uma verificação clara.

Para superar essas questões, nosso benchmark enfatiza o seguimento de instruções sequenciais (SIFo). Nesse formato, cada passo está vinculado ao anterior, levando a uma avaliação baseada apenas na instrução final. Esse design ajuda a garantir que as instruções fluam logicamente e reduz o viés introduzido pela sua ordem.

Tarefas no Benchmark SIFo

Modificação de Texto (TM)

Essa tarefa examina a capacidade do modelo de modificar texto. Ela requer a inserção, substituição ou remoção de palavras em um contexto específico. O conjunto de dados para essa tarefa é criado usando artigos da Wikipedia e inclui de 3 a 6 instruções diferentes para cada amostra.

Resposta a Perguntas (QA)

A tarefa QA testa a compreensão da linguagem. O modelo deve primeiro recuperar informações de um contexto para responder a uma pergunta e, em seguida, ajustar o contexto com base nessa resposta. Isso adiciona camadas de complexidade e exige que o modelo processe várias instruções em uma ordem lógica.

Matemática

Na tarefa de matemática, os modelos resolvem uma sequência de problemas, onde cada um depende da resposta ao anterior. Essa estrutura garante que a lógica dos passos anteriores seja mantida ao longo do processo.

Seguimento de Regras de Segurança

Essa tarefa envolve um cenário em que o modelo deve seguir instruções de segurança específicas. Os comandos dependem de alterações anteriores em permissões ou regras, o que adiciona uma camada de complexidade que deve ser navegada corretamente para manter a precisão.

Descobertas da Avaliação de LLMs

Avaliamos uma variedade de LLMs bem conhecidos em nosso benchmark. Nossos resultados indicam que modelos maiores e mais recentemente desenvolvidos se saem melhor nas tarefas SIFo em comparação com seus pares menores e mais antigos. No entanto, todos os modelos enfrentaram dificuldades em seguir sequências de instruções, destacando áreas para melhoria em sua robustez.

Tendências de Desempenho

Em todas as tarefas, notamos um declínio constante no desempenho à medida que a complexidade das tarefas aumentava. Isso foi mais evidente entre os modelos de código aberto, que lutaram significativamente com as tarefas, especialmente nas etapas finais. Em contraste, os modelos de código fechado mais avançados mostraram melhor estabilidade, embora ainda enfrentassem desafios em manter a precisão ao longo de várias etapas.

Diferenças no Desempenho das Tarefas

Nossa avaliação revelou níveis de desempenho variados nas diferentes tarefas SIFo. Os modelos se saíram relativamente bem em matemática e tarefas de segurança, enquanto enfrentaram mais dificuldades com modificação de texto e revisão de conhecimento nas tarefas de QA. Essas disparidades sugerem que, embora os modelos apresentem pontos fortes em certas áreas, precisam melhorar em outras.

Conclusão

Introduzimos o SIFo como um benchmark para avaliar quão efetivamente os LLMs podem seguir instruções de maneira sequencial. Ao focar em tarefas que estão logicamente conectadas e que podem ser verificadas objetivamente, podemos avaliar melhor as capacidades dos modelos de linguagem modernos. Nossas descobertas enfatizam a necessidade de melhorias nas habilidades de seguimento de instruções em geral, especialmente à medida que olhamos para futuros avanços na modelagem de linguagem.

Trabalhos Futuros

Há potencial para expandir o benchmark SIFo para incluir tarefas e desafios adicionais. Isso poderia levar a uma avaliação mais abrangente das habilidades de seguimento de instruções sequenciais em LLMs.

Esperamos que este benchmark contribua para uma compreensão mais profunda de como os LLMs podem lidar com conjuntos complexos de instruções e guiar o desenvolvimento de modelos mais capazes no futuro.

Fonte original

Título: The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models

Resumo: Following multiple instructions is a crucial ability for large language models (LLMs). Evaluating this ability comes with significant challenges: (i) limited coherence between multiple instructions, (ii) positional bias where the order of instructions affects model performance, and (iii) a lack of objectively verifiable tasks. To address these issues, we introduce a benchmark designed to evaluate models' abilities to follow multiple instructions through sequential instruction following (SIFo) tasks. In SIFo, the successful completion of multiple instructions is verifiable by examining only the final instruction. Our benchmark evaluates instruction following using four tasks (text modification, question answering, mathematics, and security rules), each assessing different aspects of sequential instruction following. Our evaluation of popular LLMs, both closed-source and open-source, shows that more recent and larger models significantly outperform their older and smaller counterparts on the SIFo tasks, validating the benchmark's effectiveness. All models struggle with following sequences of instructions, hinting at an important lack of robustness of today's language models.

Autores: Xinyi Chen, Baohao Liao, Jirui Qi, Panagiotis Eustratiadis, Christof Monz, Arianna Bisazza, Maarten de Rijke

Última atualização: 2024-10-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.19999

Fonte PDF: https://arxiv.org/pdf/2406.19999

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes