Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Avanços na Resumação de Texto em Baixos Recursos

Um novo método melhora a resumação com dados de treinamento limitados.

― 5 min ler


Melhorando a Resumir comMelhorando a Resumir comDados Limitadosrecursos.resumição em contextos de poucosNovos métodos aumentam a eficiência da
Índice

A sumarização de textos com poucos recursos é uma área de pesquisa importante que não tem recebido a atenção que merece. A maioria dos estudos existentes foca em criar resumos que parafraseiam os pontos principais dos textos ou usam modelos de linguagem avançados para gerar esses resumos diretamente. Neste estudo, apresentamos um método inovador para enfrentar o desafio de resumir textos quando há dados limitados disponíveis para treinamento.

Nosso método usa um Modelo de Linguagem de código aberto para criar novos documentos, combinando informações de diferentes tópicos. Em vez de simplesmente gerar documentos individuais, misturamos detalhes de múltiplas fontes, o que ajuda o modelo de sumarização a aprender de forma mais eficaz. Medimos a qualidade dos resumos gerados usando métodos de pontuação específicos que comparam o quão bem os resumos se alinham aos textos originais.

Realizamos uma variedade de testes usando diferentes conjuntos de dados para avaliar nossa abordagem. Os resultados mostram que nosso método se sai melhor do que técnicas anteriores que dependem de prompts fixos para produzir resumos em contextos com poucos recursos. Além disso, mostramos como transferir conhecimento de um grande modelo de linguagem para um modelo de sumarização menor e eficiente.

A sumarização de textos é essencial no mundo rico em informação de hoje, com aplicações que vão de artigos de notícias a trabalhos acadêmicos. Embora existam diferentes maneiras de resumir textos, a Sumarização Extrativa é frequentemente escolhida por sua simplicidade e confiabilidade. No entanto, a eficácia desses sistemas geralmente é limitada pela quantidade de Dados de Treinamento disponíveis.

Para resolver esse problema, técnicas de Aumento de Dados se tornaram populares para melhorar várias tarefas de processamento de linguagem, incluindo a sumarização. Métodos tradicionais de aumento de dados, como substituir palavras por sinônimos ou alterar estruturas de frases, podem ser parcialmente eficazes, mas muitas vezes não conseguem capturar significados mais profundos.

Recentemente, modelos de linguagem grandes surgiram como uma ferramenta poderosa para aumento de dados. Esses modelos podem gerar uma variedade de variações textuais ricas, mostrando potencial em várias tarefas de linguagem natural. No entanto, seu uso na sumarização extrativa, especialmente quando os dados são escassos, ainda não foi amplamente estudado.

Em nosso trabalho, focamos em cenários onde temos apenas alguns pares de documentos e resumos para trabalhar. Nosso objetivo é sintetizar documentos diversos que misturem tópicos de várias fontes, que então usamos para criar resumos extrativos. Realizamos extensos experimentos em vários conjuntos de dados bem conhecidos para avaliar a validade do nosso método proposto.

Para criar nosso conjunto de treinamento com poucas amostras, começamos organizando os artigos de treinamento originais por tópicos comuns sem definir esses tópicos explicitamente. Usamos uma técnica de agrupamento para encontrar grupos e, em seguida, selecionamos um número igual de documentos de cada grupo para formar nosso conjunto de dados menor. Isso garante uma cobertura mais ampla de tópicos nos dados que geramos.

Nosso método consiste em dois passos principais. Primeiro, orientamos um modelo de linguagem a produzir novos documentos que incluam informações de diferentes tópicos. Segundo, pedimos ao modelo para criar resumos extrativos para esses documentos. Ao separar essas tarefas, simplificamos as instruções dadas ao modelo e tornamos o processo de sumarização mais gerenciável.

Para nossos experimentos, usamos vários conjuntos de dados populares que contêm materiais textuais de diversos domínios. Isso inclui conversas reais de atendimento ao cliente, artigos instrucionais e trabalhos científicos. Avaliando os resumos gerados em relação aos resumos originais, podemos verificar o quão bem nossa abordagem funciona.

Fizemos inúmeros testes para comparar nosso método com técnicas existentes. Os resultados mostram que nossa abordagem supera significativamente os métodos tradicionais de aumento de dados. Além disso, descobrimos que nossa estrutura é competitiva com métodos de aprendizado semi-supervisionado onde a maior parte dos dados de treinamento é não rotulada.

Para avaliação, usamos tanto sistemas de pontuação padrão quanto métodos mais novos que refletem melhor as preferências humanas na sumarização de textos. Enquanto as métricas tradicionais medem a sobreposição entre os resumos previstos e os textos originais, nosso método escolhido também considera a qualidade dos resumos gerados de uma maneira mais sutil.

Através dos nossos resultados, concluímos que usar modelos de linguagem para aumento de dados pode melhorar efetivamente o desempenho da sumarização, especialmente em situações onde os recursos de treinamento são limitados. Enfatizamos que esse tipo de aumento leva a uma melhor generalização em cenários de dados não vistos.

Existem implicações notáveis para futuras pesquisas com base em nossas descobertas. Expandir nossa abordagem para cobrir mais idiomas e melhorar o manuseio de documentos longos são áreas chave a serem exploradas.

Além disso, precisamos permanecer atentos a preconceitos nos dados gerados e garantir que considerações éticas sejam uma prioridade enquanto desenvolvemos essas soluções tecnológicas. Para abordar potenciais preconceitos em modelos de linguagem, propomos implementar estratégias de moderação e desvio.

No geral, acreditamos que promover métodos de aumento de dados na sumarização de textos vai gerar mais interesse na área e incentivar soluções inovadoras para desafios contínuos. Ao demonstrar como modelos menores podem se beneficiar de modelos grandes pré-treinados, nosso trabalho abre novas avenidas para estratégias de sumarização eficazes no processamento de linguagem.

Fonte original

Título: MixSumm: Topic-based Data Augmentation using LLMs for Low-resource Extractive Text Summarization

Resumo: Low-resource extractive text summarization is a vital but heavily underexplored area of research. Prior literature either focuses on abstractive text summarization or prompts a large language model (LLM) like GPT-3 directly to generate summaries. In this work, we propose MixSumm for low-resource extractive text summarization. Specifically, MixSumm prompts an open-source LLM, LLaMA-3-70b, to generate documents that mix information from multiple topics as opposed to generating documents without mixup, and then trains a summarization model on the generated dataset. We use ROUGE scores and L-Eval, a reference-free LLaMA-3-based evaluation method to measure the quality of generated summaries. We conduct extensive experiments on a challenging text summarization benchmark comprising the TweetSumm, WikiHow, and ArXiv/PubMed datasets and show that our LLM-based data augmentation framework outperforms recent prompt-based approaches for low-resource extractive summarization. Additionally, our results also demonstrate effective knowledge distillation from LLaMA-3-70b to a small BERT-based extractive summarizer.

Autores: Gaurav Sahu, Issam H. Laradji

Última atualização: 2024-07-09 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.07341

Fonte PDF: https://arxiv.org/pdf/2407.07341

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes