Melhorando a Robustez do Modelo de PNL com LLM-TTA
Uma nova abordagem pra melhorar o desempenho de modelos de NLP em dados que nunca foram vistos.
― 4 min ler
Índice
Modelos de aprendizado de máquina geralmente se saem bem com dados que já conhecem, mas enfrentam desafios com entradas novas e desconhecidas. Muitos métodos que visam melhorar o desempenho do modelo em dados incomuns precisam de acesso ao funcionamento interno do modelo. Isso pode ser um problema quando os modelos são tratados como caixas-pretas-como quando seus pesos estão fixos ou quando são acessados através de uma API. Uma técnica chamada aumento no tempo de teste (TTA) ajuda a melhorar o desempenho do modelo ao reunir previsões de várias versões alteradas da entrada de teste. No entanto, o TTA não foi aplicado de forma eficaz em processamento de linguagem natural (NLP) devido às dificuldades em criar aumentos de texto adequados.
Neste trabalho, introduzimos um método chamado LLM-TTA, que usa aumentos gerados por grandes modelos de linguagem (LLMs) para melhorar o TTA. Nossos experimentos mostram que o LLM-TTA aumenta o desempenho em várias tarefas sem reduzir a eficácia do modelo com dados familiares.
Propósito do Estudo
Modelos de Classificação de Texto destinados ao uso no mundo real precisam lidar bem com entradas familiares e também ser robustos contra entradas desconhecidas. Melhorar a robustez para novos dados desconhecidos é crítico em áreas sensíveis como moderação de conteúdo e saúde. A complexidade dos dados de linguagem natural, junto com o potencial para exemplos adversariais, torna isso um desafio significativo.
Normalmente, melhorar a robustez requer acesso aos pesos do modelo ou implica em modificar o modelo. Isso pode ser difícil, especialmente quando o re-treinamento é caro ou quando não há rótulos suficientes para dados incomuns. Assim, focar nas entradas do modelo se torna vital.
Aumento no Tempo de Teste
O TTA permite previsões melhores ao reunir várias previsões sobre versões aumentadas da entrada de teste. Escolher a função de aumento certa é essencial porque esses aumentos devem permanecer diversos enquanto mantêm o significado original intacto, uma tarefa com a qual os métodos convencionais têm dificuldade.
Os avanços em LLMs em áreas como tradução e parafraseação os tornam adequados para criar aumentos de texto de alta qualidade. Em nosso estudo, comparamos dois métodos: parafraseação zero-shot, onde o LLM gera novas versões do texto sem exemplos anteriores, e Reescrita em Contexto (ICR), que envolve reescrever o texto para se parecer com exemplos fornecidos.
Principais Descobertas
LLM-TTA Melhora a Robustez: O ICR aumenta a precisão de um classificador BERT em dados incomuns. O aumento média é de cerca de 4.86% para análise de sentimento e 6.85% para detecção de toxicidade, afetando minimamente o desempenho em dados familiares.
Métodos Convencionais Podem Prejudicar o Desempenho: Em contraste, usar métodos de aumento tradicionais geralmente reduz o desempenho tanto em dados familiares quanto em desconhecidos.
Aumento Seletivo Melhora a Eficiência: Ao aumentar seletivamente entradas com base na incerteza da previsão do modelo, conseguimos diminuir o número de aumentos caros com LLM, levando a reduções significativas de custo enquanto mantemos os níveis de desempenho.
Metodologia
Avaliamo o impacto do LLM-TTA em diferentes tarefas de NLP, focando em classificação de texto de curto prazo em um ambiente de caixa-preta. Nossa metodologia explora vários conjuntos de dados em análise de sentimento, detecção de toxicidade e classificação de tópicos de notícias.
Para cada tarefa, treinamos modelos em dados familiares e depois testamos como eles lidam com vários conjuntos de dados desconhecidos. Usando as arquiteturas BERT e T5, utilizamos tanto TTA com aumentos convencionais quanto LLM-TTA para comparar os resultados.
Eficiência e Disponibilidade de Dados
Através de nossos experimentos, examinamos se o LLM-TTA pode funcionar de maneira eficiente tanto em ambientes ricos em dados quanto escassos. Os resultados indicam a eficácia do método em diferentes escalas de dados.
Descobrimos que, embora o LLM-TTA possa melhorar a robustez mesmo em casos com exemplos limitados, os ganhos de desempenho geral tendem a ser pequenos em configurações de baixa recursos. No entanto, essas descobertas confirmam que o LLM-TTA funciona bem em diferentes escalas de dados.
Conclusões
Resumindo, o LLM-TTA se destaca como uma maneira eficaz de melhorar a robustez do modelo para tarefas de NLP. Ele permite melhorias sem precisar de acesso direto aos pesos do modelo ou re-treinamento extenso. Ao aproveitar a entropia para focar os aumentos em previsões incertas, podemos otimizar ainda mais o desempenho enquanto reduzimos custos. Embora o LLM-TTA ofereça benefícios claros, é necessário um trabalho contínuo para garantir que os modelos possam se adaptar totalmente a mudanças na distribuição de dados.
Título: Improving Black-box Robustness with In-Context Rewriting
Resumo: Machine learning models for text classification often excel on in-distribution (ID) data but struggle with unseen out-of-distribution (OOD) inputs. Most techniques for improving OOD robustness are not applicable to settings where the model is effectively a black box, such as when the weights are frozen, retraining is costly, or the model is leveraged via an API. Test-time augmentation (TTA) is a simple post-hoc technique for improving robustness that sidesteps black-box constraints by aggregating predictions across multiple augmentations of the test input. TTA has seen limited use in NLP due to the challenge of generating effective natural language augmentations. In this work, we propose LLM-TTA, which uses LLM-generated augmentations as TTA's augmentation function. LLM-TTA outperforms conventional augmentation functions across sentiment, toxicity, and news classification tasks for BERT and T5 models, with BERT's OOD robustness improving by an average of 4.48 percentage points without regressing average ID performance. We explore selectively augmenting inputs based on prediction entropy to reduce the rate of expensive LLM augmentations, allowing us to maintain performance gains while reducing the average number of generated augmentations by 57.74\%. LLM-TTA is agnostic to the task model architecture, does not require OOD labels, and is effective across low and high-resource settings. We share our data, models, and code for reproducibility.
Autores: Kyle O'Brien, Nathan Ng, Isha Puri, Jorge Mendez, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi, Thomas Hartvigsen
Última atualização: 2024-08-04 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.08225
Fonte PDF: https://arxiv.org/pdf/2402.08225
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://huggingface.co/facebook/wmt19-en-de
- https://huggingface.co/facebook/wmt19-de-en
- https://www.reuters.co.uk/financeQuoteLookup.jhtml?ticker=MDT.N
- https://huggingface.co/princeton-nlp/sup-simcse-roberta-large
- https://huggingface.co/datasets/Kyle1668/LLM-TTA-Augmentation-Logs
- https://github.com/Kyle1668/In-Context-Domain-Transfer-Improves-Out-of-Domain-Robustness
- https://github.com/Kyle1668/LLM-TTA
- https://huggingface.co/collections/Kyle1668/
- https://github.com/goodfeli/dlbook_notation
- https://openreview.net/forum?id=XXXX