Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Usando LLMs pra Melhorar Conjuntos de Dados de Compreensão de Leitura

Esse artigo fala sobre como os LLMs podem criar novos conjuntos de dados para tarefas de compreensão de leitura.

― 7 min ler


Aumentando a CompreensãoAumentando a Compreensãode Leitura com LLMssintéticos.conjuntos de dados de leituraLLMs melhoram o aprendizado gerando
Índice

Modelos de Linguagem Grande (LLMs) têm mostrado habilidades incríveis em várias tarefas de linguagem. Um uso interessante dos LLMs é criar novos conjuntos de dados sintéticos para tarefas de Compreensão de Leitura. Isso é especialmente útil quando não tem dado suficiente por aí. Neste artigo, vamos ver como LLMs como o GPT-4 podem ajudar a melhorar conjuntos de dados de compreensão de leitura que têm um número limitado de exemplos. Esses modelos podem facilitar o processo de criação de conjuntos de dados, que normalmente leva muito tempo e esforço.

A Importância da Compreensão de Leitura

Compreensão de leitura é o processo onde os sistemas respondem perguntas baseadas em um texto dado. Essa habilidade é importante em várias áreas como saúde, atendimento ao cliente, e entender políticas. Modelos anteriores, especialmente os baseados em BERT, têm se saído muito bem quando treinados com grandes conjuntos de dados. Mas a performance deles cai quando enfrentam assuntos onde não tem dado suficiente, como tópicos emergentes tipo COVID-19.

O Papel da Aumento de Dados

Aumento de dados é uma técnica usada pra melhorar a performance do modelo em situações onde não tem dado suficiente. No contexto de perguntas e respostas, a maioria dos métodos de aumento de dados depende de encontrar textos não rotulados, tipo os que estão na Wikipedia, pra criar novos pares de contexto-pergunta-resposta. Porém, essa abordagem enfrenta desafios em áreas especializadas onde textos relevantes são raros. LLMs podem gerar textos significativos que imitam o estilo de escrita humana. Essa característica pode ser usada pra criar novos contextos e as perguntas e respostas relacionadas.

Nossa Abordagem

A gente usa o GPT-4 pra melhorar conjuntos de dados de compreensão de leitura que têm poucos recursos. Nossa metodologia foca em gerar novos contextos, perguntas, e respostas pra adicionar aos conjuntos de treinamento existentes. Começamos dando exemplos dos conjuntos de dados originais pro GPT-4, permitindo que ele aprenda com essas amostras. Isso ajuda a produzir dados que refletem muito bem os materiais originais.

Depois de gerar os dados, aplicamos uma técnica de filtragem pra selecionar os exemplos de melhor qualidade. Testamos nossa abordagem em três conjuntos de dados de baixo recurso: CovidQA, PolicyQA, e TechQA. Os resultados mostram que nossa abordagem melhora a performance no conjunto de dados CovidQA em 23% e no PolicyQA em 5%.

Trabalhos Relacionados

Os LLMs têm sido cruciais na geração de conjuntos de dados sintéticos pra diferentes tarefas de linguagem. Modelos anteriores, incluindo o GPT-2, foram usados em várias aplicações tipo entender idiomas, criar diálogos e raciocinar. Modelos recentes melhoraram bastante a qualidade dos dados sintéticos, levando a uma performance melhor em várias tarefas.

Trabalhos passados focaram principalmente em criar perguntas a partir de textos encontrados online, tipo os da Wikipedia. A gente está entre os primeiros a usar LLMs pra criar contextos completos, perguntas e respostas pra tarefas de compreensão de leitura de baixo recurso.

Conjuntos de Dados de Baixo Recurso

Na nossa pesquisa, usamos três conjuntos de dados de compreensão de leitura:

  1. CovidQA: Esse conjunto inclui 2.019 pares de pergunta-resposta sobre temas relacionados ao COVID-19.
  2. PolicyQA: Esse conjunto tem 12.102 pares de pergunta-resposta sobre políticas de imigração e viagem nos EUA.
  3. TechQA: Esse conjunto consiste em 1.808 exemplos focados em problemas de suporte técnico em computação.

Esses conjuntos são bem adequados pros nossos experimentos já que representam diferentes áreas e têm tamanhos de treinamento pequenos.

Metodologia

A gente descreve nossa metodologia usando o PolicyQA como exemplo. Nosso processo de geração de dados segue dois passos principais:

1. Geração de Contexto

Nesse passo, a gente dá pro GPT-4 um ou dois exemplos de contextos do conjunto de treinamento original. Esses exemplos ajudam o GPT-4 a entender o estilo e conteúdo dos dados. Depois disso, geramos novos contextos pedindo pro GPT-4 escrever parágrafos adicionais.

2. Geração de Pergunta-Resposta

Em seguida, criamos pares de perguntas-respostas sintéticas baseadas nos novos contextos. Novamente, fornecemos um ou dois exemplos do conjunto original pra ajudar o GPT-4 a entender o formato dos pares de pergunta-resposta. Depois, pedimos pro GPT-4 gerar perguntas e respostas que se relacionem com os contextos sintéticos que criamos.

Esse processo em dois passos permite a gente gerar conjuntos de dados que mantêm as características dos dados originais. Criamos diferentes quantidades de dados sintéticos, variando de um a dez vezes o tamanho dos conjuntos de dados originais, pra ver como isso afeta a performance.

Filtragem de Retorno

Pra melhorar a qualidade dos pares de perguntas-respostas gerados, implementamos uma técnica chamada filtragem de retorno. Depois que o GPT-4 cria uma pergunta e uma resposta, a gente fornece a pergunta de volta pro modelo sem a resposta. Então, checamos se a nova resposta combina com a original. Se combinar, a gente mantém o par; se não, a gente descarta. Essa filtragem ajuda a gente a reter apenas os pares mais confiáveis.

Treinando o Modelo

Pros nossos experimentos, a gente treina um modelo de compreensão de leitura extrativa usando o modelo RoBERTA-Base. Seguimos práticas padrão na definição de taxas de aprendizado, tamanhos de batch e o número de épocas. Pra cada experimento, medimos a pontuação F1 e as pontuações de Exata Correspondência.

Como base pra geração de perguntas-respostas, a gente usa um modelo baseado em T5 treinado no conjunto de dados SQuAD.

Resultados Experimentais

Nos testes, descobrimos que adicionar dados sintéticos do GPT-4 melhorou a performance no conjunto de dados CovidQA. Começando com os exemplos de treinamento originais, tanto exemplos sintéticos de um shot quanto de dois shots melhoraram a performance em termos de correspondência exata e pontuações F1. Os melhores resultados vieram da geração de dados de um shot combinada com o processo de filtragem de retorno.

Para o conjunto de dados PolicyQA, o maior dos nossos conjuntos, usar dados sintéticos de um shot sem filtragem atingiu a melhor performance. Essa abordagem melhorou as pontuações em comparação a usar apenas os exemplos originais. O tamanho do conjunto PolicyQA fez com que a filtragem de alta precisão fosse menos crítica, permitindo que o modelo se beneficiasse da variedade que os dados sintéticos ofereciam.

No conjunto de dados TechQA, o menor dos três, os resultados foram menos claros. O modelo base se saiu bem com apenas os exemplos originais, enquanto diferentes configurações de dados sintéticos não mostraram melhorias consistentes. O tamanho pequeno do conjunto de dados provavelmente dificultou a generalização eficaz.

Conclusão

Nossos resultados indicam que modelos de linguagem grande podem gerar dados sintéticos de forma eficaz pra melhorar tarefas de compreensão de leitura. Nas áreas CovidQA e PolicyQA, onde existem quantidades moderadas de dados de treinamento, aumentar com exemplos sintéticos levou consistentemente a uma melhor performance. Isso destaca o potencial dos LLMs em ampliar conjuntos de dados enquanto minimiza a necessidade de mão de obra humana na rotulação.

Porém, desafios permanecem, especialmente em áreas onde os dados são extremamente limitados. Nessas situações, os LLMs podem ter dificuldades em produzir exemplos úteis. Há uma necessidade urgente de melhorias em aprendizado com poucos exemplos, além de mecanismos pra melhor filtragem de dados sintéticos pra garantir qualidade e diversidade.

Resumindo, enquanto LLMs como o GPT-4 mostram promessas em superar limitações de dados, futuras pesquisas devem focar em refinar essas ferramentas pra torná-las eficazes em diversos cenários. O campo está evoluindo rapidamente, e o trabalho contínuo vai determinar quão bem os LLMs podem apoiar a melhoria do aprendizado em tarefas de linguagem com dados limitados.

Fonte original

Título: Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges

Resumo: Large Language Models (LLMs) have demonstrated impressive zero shot performance on a wide range of NLP tasks, demonstrating the ability to reason and apply commonsense. A relevant application is to use them for creating high quality synthetic datasets for downstream tasks. In this work, we probe whether GPT-4 can be used to augment existing extractive reading comprehension datasets. Automating data annotation processes has the potential to save large amounts of time, money and effort that goes into manually labelling datasets. In this paper, we evaluate the performance of GPT-4 as a replacement for human annotators for low resource reading comprehension tasks, by comparing performance after fine tuning, and the cost associated with annotation. This work serves to be the first analysis of LLMs as synthetic data augmenters for QA systems, highlighting the unique opportunities and challenges. Additionally, we release augmented versions of low resource datasets, that will allow the research community to create further benchmarks for evaluation of generated datasets.

Autores: Vinay Samuel, Houda Aynaou, Arijit Ghosh Chowdhury, Karthik Venkat Ramanan, Aman Chadha

Última atualização: 2024-07-09 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.12426

Fonte PDF: https://arxiv.org/pdf/2309.12426

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes