Avanços em Modelos de Linguagem Menores
Treinando modelos pra lidar melhor com perguntas complexas usando multitarefas e recuperação.
― 7 min ler
Índice
Nos últimos anos, modelos de linguagem menores tem feito progresso em entender e responder perguntas complexas. Esses modelos conseguem lidar com perguntas que nunca viram antes, o que é essencial em aplicações do mundo real. Este artigo fala sobre como podemos treinar um modelo de linguagem menor pra responder perguntas difíceis usando duas estratégias principais: multitarefa e recuperação de informações relevantes.
O Desafio
Os modelos de linguagem foram treinados com uma porção enorme de dados de texto, permitindo que respondessem a várias perguntas. No entanto, esses modelos muitas vezes têm dificuldade com questões complexas que exigem raciocínio sobre várias informações. As perguntas também podem ser complicadas, já que podem não dar contexto suficiente ou podem ser vagas.
Por exemplo, se alguém pergunta: "Quem é o cônjuge do artista verde?" sem mais detalhes, pode ser difícil para um modelo entender a qual artista a pergunta se refere. Mesmo modelos avançados muitas vezes não conseguem entender tais perguntas, o que destaca a necessidade de técnicas melhores.
A Solução
Pra enfrentar esses desafios, propomos um método de Treinamento que combina dois elementos:
Pré-treinamento Supervisionado Multitarefa: Isso envolve treinar o modelo em várias tarefas diferentes ao mesmo tempo, permitindo que ele aprenda várias habilidades de raciocínio. Nós projetamos um total de 93 tarefas, oferecendo desafios diversos pro modelo. Ao não focar apenas em um tipo de pergunta, o modelo pode ficar melhor em generalizar seu conhecimento.
Sistema de Recuperação Densa: Em vez de depender apenas do conhecimento armazenado nos parâmetros do modelo, introduzimos um sistema pra recuperar informações relevantes de um conjunto maior de textos, como artigos da Wikipédia. Quando enfrenta uma pergunta, o modelo pode buscar informações úteis pra ajudar a formular uma resposta.
Entendendo a Recuperação
Recuperação é o processo de localizar informações relevantes de um conjunto maior de dados. Quando um modelo recebe uma pergunta, ele procura fragmentos de texto que possam conter a resposta. Essa abordagem permite que o modelo aproveite conhecimento externo que ele pode não ter memorizado durante o treinamento.
Por exemplo, se perguntarem sobre um evento específico, o modelo pode recuperar artigos ou parágrafos relacionados a esse evento, aumentando sua capacidade de responder com precisão. Esse processo é útil, especialmente pra perguntas que exigem várias informações pra serem respondidas corretamente.
Treinando o Modelo
Pra treinar nosso modelo de linguagem menor, usamos um processo de duas etapas:
Pré-treinamento: Inicialmente, o modelo passa por uma fase de pré-treinamento, onde aprende com uma variedade de tarefas. Durante essa fase, as tarefas são selecionadas com base na dificuldade e diversidade, garantindo que o modelo tenha uma compreensão ampla.
Treinamento Aumentado por Recuperação: Nesta fase, introduzimos o sistema de recuperação juntamente com o treinamento multitarefa. Criamos conjuntos de treinamento especificamente projetados pra ajudar o modelo a aprender a incorporar informações recuperadas em suas respostas.
Avaliando o Modelo
Depois de treinar, precisamos avaliar o desempenho do modelo. Usamos vários conjuntos de dados de avaliação, cada um apresentando perguntas únicas que exigem diferentes habilidades de raciocínio. Os principais conjuntos de dados que focamos incluem:
- StrategyQA: Esse conjunto contém perguntas de senso comum que precisam de raciocínio em várias etapas.
- CommonsenseQA: Uma coleção de perguntas de múltipla escolha que exigem conhecimento prévio.
- DROP: Um conjunto onde as respostas muitas vezes envolvem Raciocínio Numérico baseado no texto fornecido.
- IIRC: Esse conjunto inclui perguntas que dependem de recuperar contexto adicional de vários parágrafos.
Cada conjunto de dados é projetado pra desafiar a capacidade do modelo de responder efetivamente com base nas técnicas que implementamos.
Resultados
Nossas descobertas revelam que, ao adicionar treinamento baseado em recuperação, o desempenho do modelo melhora significativamente. Por exemplo, quando testado no StrategyQA e CommonsenseQA, nosso modelo deu respostas mais precisas do que seus antecessores que não tinham treinamento de recuperação.
Além disso, ao avaliar o modelo em tarefas de raciocínio numérico no conjunto DROP, ele mostrou uma forte capacidade de deduzir respostas através das informações recuperadas. No entanto, ainda existem desafios, especialmente em entender perguntas ambíguas ou aquelas que exigem respostas numéricas precisas.
Desafios com Ambiguidade
Um dos maiores obstáculos na compreensão de linguagem é a ambiguidade da língua humana. As perguntas podem muitas vezes ser vagas ou pouco claras, levando à confusão. Por exemplo, se uma pergunta refere-se a um "artista", pode não estar claro qual artista é mencionado sem contexto adicional.
Pra mitigar esses problemas, queremos melhorar como o modelo lida com referências ambíguas. Isso envolve treiná-lo pra fazer perguntas esclarecedoras ou usar o contexto ao redor de forma mais eficaz.
Avanços em Raciocínio Numérico
Raciocínio numérico é outra área onde os desafios persistem. Perguntas que exigem respostas numéricas podem ser particularmente complicadas. Por exemplo, uma pergunta pode pedir o total de certos números mencionados em um texto, mas o modelo pode ter dificuldade em fazer isso com precisão sem exemplos semelhantes em seus dados de treinamento.
Pra resolver isso, incorporamos conjuntos de dados de treinamento específicos focados em tarefas numéricas. Esse treinamento adicional ajuda o modelo a desenvolver uma melhor alfabetização numérica e responder corretamente a perguntas relacionadas.
Direções Futuras
Olhando para o futuro, há várias áreas pra aprimoramento:
Técnicas de Recuperação Melhoradas: Podemos aprimorar ainda mais o processo de recuperação incluindo algoritmos mais sofisticados que entendem melhor o contexto e as nuances.
Conjuntos de Dados de Treinamento Expandidos: Ao diversificar os conjuntos de dados usados para treinamento, podemos ajudar o modelo a aprender com uma gama mais ampla de exemplos, melhorando suas habilidades de generalização.
Lidar com Perguntas Sem Resposta: Algumas perguntas podem não ter respostas claras. Planejamos treinar o modelo pra reconhecer quando ele não consegue fornecer uma resposta válida, o que poderia evitar que ele fizesse declarações incorretas.
Impactos Mais Amplos
Embora modelos de linguagem menores tragam benefícios como menor latência e custos reduzidos, eles não estão isentos de riscos. Como seus colegas maiores, esses modelos podem às vezes produzir respostas erradas ou enganosas. É essencial ter cautela e validar seus resultados, especialmente em aplicações críticas.
Além disso, o desenvolvimento desses modelos pode levar a avanços significativos em várias áreas, desde educação até atendimento ao cliente, tornando soluções baseadas em IA mais acessíveis a diversas audiências.
Conclusão
A jornada pra melhorar modelos de linguagem menores ainda tá rolando, mas tá prometendo. Ao combinar aprendizado multitarefa com estratégias de recuperação eficazes, permitimos que esses modelos enfrentem perguntas complexas e desconhecidas de forma mais eficiente. Embora ainda haja desafios a serem superados, os avanços nesse campo têm um potencial significativo pra aplicações futuras. Com contínua refinamento e exploração, podemos abrir caminho pra sistemas de compreensão de linguagem mais confiáveis e capazes.
Título: Teaching Smaller Language Models To Generalise To Unseen Compositional Questions
Resumo: We equip a smaller Language Model to generalise to answering challenging compositional questions that have not been seen in training. To do so we propose a combination of multitask supervised pretraining on up to 93 tasks designed to instill diverse reasoning abilities, and a dense retrieval system that aims to retrieve a set of evidential paragraph fragments. Recent progress in question-answering has been achieved either through prompting methods against very large pretrained Language Models in zero or few-shot fashion, or by fine-tuning smaller models, sometimes in conjunction with information retrieval. We focus on the less explored question of the extent to which zero-shot generalisation can be enabled in smaller models with retrieval against a corpus within which sufficient information to answer a particular question may not exist. We establish strong baselines in this setting for diverse evaluation datasets (StrategyQA, CommonsenseQA, IIRC, DROP, Musique and ARC-DA), and show that performance can be significantly improved by adding retrieval-augmented training datasets which are designed to expose our models to a variety of heuristic reasoning strategies such as weighing partial evidence or ignoring an irrelevant context.
Autores: Tim Hartill, Neset Tan, Michael Witbrock, Patricia J. Riddle
Última atualização: 2023-08-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.00946
Fonte PDF: https://arxiv.org/pdf/2308.00946
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.