Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Apprendimento automatico

Migliorare i modelli linguistici tramite tecniche di potatura dei dati

Nuovi metodi si concentrano sul migliorare la qualità dei dati di addestramento per i modelli linguistici.

― 7 leggere min


Potatura dei Dati neiPotatura dei Dati neiModelli Linguisticiqualità del modello.potatura efficace dei dati migliora laNuove ricerche mostrano che una
Indice

I modelli di linguaggio di grandi dimensioni (LLMs) sono diventati super importanti negli ultimi anni e si basano su enormi quantità di dati testuali per l'addestramento. Questi dati vengono principalmente raccolti tramite scraping di internet, il che porta a set di dati che spesso contengono testi di bassa qualità. Per migliorare il processo di addestramento, i ricercatori stanno cercando modi per filtrare i dati di bassa qualità, concentrandosi su metodi che aiutano a mantenere contenuti di alta qualità.

Pratiche attuali nella raccolta dei dati

Quando si costruisce un set di dati per addestrare i LLM, i praticanti usano solitamente set di dati giganteschi come C4, RefinedWeb e The Pile. Questi set di dati sono generati estraendo pagine web grezze da internet, il che significa che una buona parte del testo è spesso rumoroso o di bassa qualità. Ci sono tecniche standard usate per pulire questi set di dati, che di solito coinvolgono regole semplici. Per esempio, alcune pratiche comuni includono rimuovere testi ripetitivi, eliminare caratteri speciali ed escludere contenuti non in inglese. Un altro approccio è ignorare i dati provenienti da un elenco prestabilito di siti problematici. Tuttavia, anche se questi metodi possono aiutare, non misurano efficacemente la qualità reale di ogni esempio di addestramento.

La necessità di migliori misure di qualità

Per migliorare la qualità dei dati di addestramento, è fondamentale avere un modo chiaro e affidabile per misurare la qualità degli esempi individuali. Questo ha portato all'idea del pruning dei dati, che implica selezionare un sottoinsieme di dati da un set di dati più grande. L'obiettivo è mantenere gli esempi più utili eliminando quelli meno efficaci per migliorare le prestazioni del modello. Anche se il pruning dei dati è stato studiato principalmente nell'apprendimento supervisionato, è meno esplorato nel contesto dei LLM.

Obiettivi della ricerca

Questa ricerca mira ad esplorare se possiamo effettivamente eliminare esempi meno impattanti da un set di dati di addestramento senza perdere prestazioni. Si cerca anche di determinare se metodi più semplici per stimare la qualità dei dati, come l'uso della perplexity, possano superare tecniche più complesse. Inoltre, la ricerca si propone di identificare le dinamiche di addestramento che indicano meglio la qualità dei dati.

Panoramica della metodologia

Tre metriche di pruning automatico vengono valutate: perplexity, Error L2-Norm (EL2N) e Memorizzazione. Queste metriche si basano sull'output del modello per valutare la qualità degli esempi di addestramento senza bisogno di un set di dati di alta qualità definito manualmente. Questo aspetto rende i metodi promettenti per la selezione automatica dei dati di addestramento.

Esperimenti e risultati

Vari modelli di diverse dimensioni sono stati addestrati su numerosi set di dati potati. Attraverso esperimenti estesi, è stato trovato che usare la perplexity per classificare i dati funziona meglio di metodi più complessi come la memorizzazione. Infatti, i modelli addestrati con solo il 30% del set di dati originale, potati usando la perplexity, hanno mostrato miglioramenti significativi nelle prestazioni rispetto ai modelli addestrati con più dati usando metodi di scoring complessi.

Metodologia di pruning

Per dimostrare il processo di pruning, un algoritmo di scoring viene applicato a ogni istanza di dati. Viene presa una decisione su quale sottogruppo di punteggi mantenere, che si tratti dei campioni con i punteggi più bassi, medi o alti. Un nuovo modello viene quindi pre-addestrato utilizzando solo questi dati potati.

Il ruolo della perplexity

La perplexity serve come metrica che indica quanto bene il modello prevede un dato pezzo di testo. Un punteggio di perplexity più basso suggerisce che il modello trova il testo più probabile, indicando contenuti di qualità superiore. Questa misura semplice ma efficace influisce significativamente sulle prestazioni complessive dei modelli linguistici.

Valutazione di altre metriche

Il punteggio EL2N, originariamente ideato per compiti di visione computerizzata, misura l'importanza di ciascun campione basandosi su segnali di apprendimento iniziali dal modello. I campioni con punteggi EL2N bassi sono di solito più facili da apprendere per il modello, mentre punteggi più alti indicano che il modello ha ancora difficoltà con quegli esempi.

La memorizzazione è un'altra metrica valutata in questa ricerca. Si riferisce alla capacità del modello di riprodurre il testo esattamente come è stato visto durante l'addestramento. L'ipotesi è che gli elementi che richiedono più apprendimento avranno punteggi di memorizzazione più alti. Vari esperimenti hanno mostrato che, sebbene la memorizzazione possa indicare la qualità dei dati, la sua efficacia varia rispetto a misure più semplici come la perplexity.

Pruning casuale

Come confronto di base, viene anche impiegato il pruning casuale per valutare l'efficacia dei metodi proposti rispetto a una selezione casuale di campioni. Questo aiuta a capire se le nuove strategie di pruning producono prestazioni migliori rispetto a una semplice selezione casuale.

Impostazione dell'addestramento del modello

I modelli utilizzati nello studio sono modelli transformer autoregressivi che si concentrano sull'apprendimento dai token precedenti per generare sequenze coerenti. L'addestramento implica minimizzare l'errore di previsione su un set di dati di addestramento che è stato meticolosamente filtrato per mantenere la qualità.

Risultati impressionanti

Gli esperimenti dimostrano che il pruning semplice basato sulla perplexity supera costantemente approcci più complessi. Inoltre, i modelli addestrati con set di dati potati mostrano miglioramenti rispetto a quelli addestrati sul set di dati completo. I risultati suggeriscono che selezionare attentamente gli esempi di addestramento può portare a modelli linguistici migliori, anche utilizzando un set di dati complessivo più piccolo.

Importanza delle dimensioni del modello di riferimento

La dimensione del modello di riferimento utilizzato per calcolare i punteggi gioca anche un ruolo importante nell'efficacia del processo di pruning. Modelli più grandi possono catturare meglio la complessità del linguaggio, il che si traduce in segnali di pruning migliori per selezionare istanze di dati di alta qualità.

Impatto della qualità dei dati di addestramento

La ricerca esamina anche come i dati di addestramento del modello di riferimento influenzano la sua capacità di classificare i dati in modo efficace. I risultati indicano che utilizzare un set di dati di riferimento più pulito e di maggiore qualità porta a segnali di pruning migliori, risultando infine in prestazioni migliorate del modello.

Checkpoint di addestramento precoci

Un altro aspetto chiave esplorato è l'efficacia dell'uso di checkpoint di addestramento precoci dai modelli di riferimento. Questi checkpoint precoci offrono intuizioni prima che l'addestramento completo sia completato, il che può essere vantaggioso per chi non desidera investire nell'addestramento completo di un nuovo modello.

Generalizzazione dei risultati a modelli più grandi

Gli studi si estendono ulteriormente a modelli più grandi, mostrando che i successi visti con modelli più piccoli si ripetono bene. I risultati suggeriscono un miglioramento delle prestazioni consistente quando si impiegano metodi di pruning efficaci, indipendentemente dalle dimensioni del modello.

Valutazione a valle

Infine, si analizza l'impatto delle strategie di pruning sui compiti a valle. I risultati indicano che i modelli pre-addestrati con set di dati potati sono generalmente più efficaci in vari compiti. Anche se nessun metodo spicca come universalmente superiore, i miglioramenti evidenziano il valore di impiegare tecniche di pulizia dei dati efficaci durante il pre-addestramento.

Conclusione

La ricerca presenta un caso convincente per implementare metodi di pruning dei dati efficaci nell'addestramento di modelli di linguaggio di grandi dimensioni. Utilizzando metriche semplici ma efficaci come la perplexity, i ricercatori possono migliorare le prestazioni del modello riducendo al contempo la quantità di dati di bassa qualità utilizzati. Questa comprensione della qualità dei dati aprirà la strada a futuri progressi nello sviluppo dei LLM.

Fonte originale

Titolo: When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

Estratto: Large volumes of text data have contributed significantly to the development of large language models (LLMs) in recent years. This data is typically acquired by scraping the internet, leading to pretraining datasets comprised of noisy web text. To date, efforts to prune these datasets down to a higher quality subset have relied on hand-crafted heuristics encoded as rule-based filters. In this work, we take a wider view and explore scalable estimates of data quality that can be used to systematically measure the quality of pretraining data. We perform a rigorous comparison at scale of the simple data quality estimator of perplexity, as well as more sophisticated and computationally intensive estimates of the Error L2-Norm and memorization. These metrics are used to rank and prune pretraining corpora, and we subsequently compare LLMs trained on these pruned datasets. Surprisingly, we find that the simple technique of perplexity outperforms our more computationally expensive scoring methods. We improve over our no-pruning baseline while training on as little as 30% of the original training dataset. Our work sets the foundation for unexplored strategies in automatically curating high quality corpora and suggests the majority of pretraining data can be removed while retaining performance.

Autori: Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker

Ultimo aggiornamento: 2023-09-08 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.04564

Fonte PDF: https://arxiv.org/pdf/2309.04564

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili