Migliorare la robustezza dei modelli NLP con LLM-TTA
Un nuovo modo per migliorare le prestazioni dei modelli NLP su dati mai visti prima.
― 4 leggere min
Indice
I modelli di machine learning spesso vanno alla grande con dati familiari, ma fanno fatica con input nuovi e mai visti prima. Molti metodi per migliorare le prestazioni del modello su dati insoliti richiedono l'accesso ai meccanismi interni del modello. Questo può essere un problema quando i modelli vengono trattati come delle scatole nere, tipo quando i loro pesi sono fissi o quando vengono usati tramite un'API. Una tecnica chiamata test-time augmentation (TTA) aiuta a migliorare le prestazioni del modello raccogliendo previsioni da varie versioni alterate dell'input di test. Tuttavia, TTA non è stata applicata in modo efficace nel processing del linguaggio naturale (NLP) a causa delle difficoltà nel creare delle giuste augmentazioni testuali.
In questo lavoro, introduciamo un metodo chiamato LLM-TTA, che usa augmentazioni generate da grandi modelli linguistici (LLMs) per migliorare il TTA. I nostri esperimenti mostrano che LLM-TTA migliora le prestazioni in vari compiti senza ridurre l'efficacia del modello su dati familiari.
Scopo dello Studio
I modelli di Classificazione del testo pronti per l'uso nel mondo reale devono gestire bene gli input familiari e allo stesso tempo essere robusti contro quelli sconosciuti. Migliorare la robustezza per nuovi dati mai visti è fondamentale in aree sensibili come la moderazione dei contenuti e la sanità. La complessità dei dati linguistici naturali, insieme alla possibilità di esempi avversariali, rende questo un grande problema.
Tipicamente, migliorare la robustezza richiede accesso ai pesi del modello o implica modificare il modello. Questo può essere difficile, specialmente quando il riaddestramento è costoso o quando non ci sono abbastanza etichette per dati insoliti. Quindi, concentrarsi sugli input del modello diventa vitale.
Test-Time Augmentation
Il TTA permette previsioni migliori assemblando più previsioni su versioni augmentate dell'input di test. Scegliere la giusta funzione di augmentation è fondamentale perché queste augmentazioni devono rimanere diverse mantenendo intatto il significato originale, un compito in cui i metodi convenzionali fanno fatica.
I progressi negli LLM in settori come la traduzione e il parafrasare li rendono adatti a creare augmentazioni testuali di alta qualità. Nel nostro studio, confrontiamo due metodi: il parafrasare senza esempi (zero-shot), dove l'LLM genera nuove versioni del testo senza esempi precedenti, e il riscrivere in contesto (ICR), che implica riscrivere il testo per assomigliare a esempi forniti.
Risultati Chiave
LLM-TTA Migliora la Robustezza: L'ICR aumenta l'accuratezza di un classificatore BERT su dati insoliti. L'aumento medio è di circa il 4,86% per l'analisi del sentiment e del 6,85% per la rilevazione della tossicità, mentre l'impatto sulle prestazioni dei dati familiari è minimo.
Metodi Convenzionali Possono Ridurre le Prestazioni: Al contrario, usare metodi di augmentation tradizionali generalmente riduce le prestazioni sia per dati familiari che per dati insoliti.
Augmentation Selettiva Migliora l'Efficienza: Se augmentiamo selettivamente gli input in base all'incertezza delle previsioni del modello, possiamo ridurre il numero di costose augmentazioni LLM, portando a significativi risparmi di costi mantenendo i livelli di prestazione.
Metodologia
Valutiamo l'impatto di LLM-TTA su diversi compiti di NLP, concentrandoci sulla classificazione di brevi testi in un contesto a scatola nera. La nostra metodologia esplora diversi dataset su analisi del sentiment, rilevazione della tossicità e classificazione di argomenti di notizie.
Per ogni compito, alleniamo modelli su dati familiari e poi testiamo come si comportano con vari dataset sconosciuti. Utilizzando architetture BERT e T5, impieghiamo sia TTA con augmentazioni convenzionali che LLM-TTA per confrontare i risultati.
Efficienza e Disponibilità dei Dati
Attraverso i nostri esperimenti, esaminiamo se LLM-TTA può funzionare in modo efficiente sia in ambienti ricchi di dati che in quelli scarsi. I risultati indicano l'efficacia del metodo su diverse scale di dati.
Abbiamo scoperto che mentre LLM-TTA può migliorare la robustezza anche in casi con esempi limitati, i guadagni complessivi di prestazione tendono a essere piccoli in contesti a bassa risorsa. Tuttavia, questi risultati confermano che LLM-TTA funziona bene su scale di dati variabili.
Conclusioni
In sintesi, LLM-TTA si distingue come un modo efficace per migliorare la robustezza del modello per compiti di NLP. Permette miglioramenti senza necessitare accesso diretto ai pesi del modello o a un riaddestramento estensivo. Sfruttando l'entropia per concentrare le augmentazioni su previsioni incerte, possiamo ottimizzare ulteriormente le prestazioni riducendo i costi. Anche se LLM-TTA offre chiari vantaggi, è necessario continuare a lavorare per garantire che i modelli possano adattarsi completamente ai cambiamenti nella distribuzione dei dati.
Titolo: Improving Black-box Robustness with In-Context Rewriting
Estratto: Machine learning models for text classification often excel on in-distribution (ID) data but struggle with unseen out-of-distribution (OOD) inputs. Most techniques for improving OOD robustness are not applicable to settings where the model is effectively a black box, such as when the weights are frozen, retraining is costly, or the model is leveraged via an API. Test-time augmentation (TTA) is a simple post-hoc technique for improving robustness that sidesteps black-box constraints by aggregating predictions across multiple augmentations of the test input. TTA has seen limited use in NLP due to the challenge of generating effective natural language augmentations. In this work, we propose LLM-TTA, which uses LLM-generated augmentations as TTA's augmentation function. LLM-TTA outperforms conventional augmentation functions across sentiment, toxicity, and news classification tasks for BERT and T5 models, with BERT's OOD robustness improving by an average of 4.48 percentage points without regressing average ID performance. We explore selectively augmenting inputs based on prediction entropy to reduce the rate of expensive LLM augmentations, allowing us to maintain performance gains while reducing the average number of generated augmentations by 57.74\%. LLM-TTA is agnostic to the task model architecture, does not require OOD labels, and is effective across low and high-resource settings. We share our data, models, and code for reproducibility.
Autori: Kyle O'Brien, Nathan Ng, Isha Puri, Jorge Mendez, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi, Thomas Hartvigsen
Ultimo aggiornamento: 2024-08-04 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2402.08225
Fonte PDF: https://arxiv.org/pdf/2402.08225
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://huggingface.co/facebook/wmt19-en-de
- https://huggingface.co/facebook/wmt19-de-en
- https://www.reuters.co.uk/financeQuoteLookup.jhtml?ticker=MDT.N
- https://huggingface.co/princeton-nlp/sup-simcse-roberta-large
- https://huggingface.co/datasets/Kyle1668/LLM-TTA-Augmentation-Logs
- https://github.com/Kyle1668/In-Context-Domain-Transfer-Improves-Out-of-Domain-Robustness
- https://github.com/Kyle1668/LLM-TTA
- https://huggingface.co/collections/Kyle1668/
- https://github.com/goodfeli/dlbook_notation
- https://openreview.net/forum?id=XXXX