Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale

Ottimizzare i Grandi Modelli Linguistici con SlimPajama

Uno studio su come migliorare l'efficienza dell'addestramento per i modelli linguistici usando il dataset SlimPajama.

― 8 leggere min


L'impatto di SlimPajamaL'impatto di SlimPajamasui modelli di linguaggiomodelli linguistici.dati diversi nell'addestramento deiUno studio mostra i vantaggi di avere
Indice

L'obiettivo principale di questo studio è vedere come diverse fonti di dati influenzano l'addestramento di modelli di linguaggio grandi usando SlimPajama. Abbiamo un nuovo dataset chiamato SlimPajama, fatto di fonti selezionate e pulite, con meno ripetizioni rispetto a un dataset più grande chiamato RedPajama. Il nostro lavoro, chiamato SlimPajama-DC, esamina le caratteristiche chiave e i modi efficaci per usare SlimPajama nell'addestramento di modelli di linguaggio grandi.

Osservazioni Chiave

Durante la nostra ricerca, abbiamo fatto due osservazioni importanti:

  1. Deduplicazione Globale vs. Locale: Abbiamo confrontato il modo in cui rimuovere i duplicati da tutte le fonti di dati (deduplicazione globale) si confronta con la rimozione dei duplicati all'interno di ogni singola fonte (deduplicazione locale) e come questo influisce sulle Prestazioni del Modello.

  2. Qualità dei Dataset: Abbiamo studiato come il mix di dataset di alta qualità e ben duplicati impatta il processo di addestramento complessivo. Abbiamo creato sei configurazioni diverse del dataset SlimPajama e addestrato modelli usando queste configurazioni. Dai nostri test, abbiamo scoperto che la nostra migliore configurazione funziona decisamente meglio rispetto al dataset RedPajama.

Importanza dei Dati di addestramento

I modelli di linguaggio grandi si basano molto sui dati di addestramento. Non si tratta solo di avere tanto testo; si tratta di avere una varietà di testi provenienti da fonti diverse. Questo assicura che i modelli imparino bene la lingua e comprendano una vasta gamma di argomenti e prospettive. Vari domini, come Github, Wikipedia, libri e testi web, sono cruciali per le prestazioni complessive di questi modelli.

Nel nostro studio, ci siamo concentrati su due aree principali: gli effetti della rimozione dei duplicati attraverso diversi dataset e l'efficacia delle varie combinazioni di dataset ben organizzati. Usando SlimPajama, volevamo incoraggiare i modelli ad apprendere da tutte le fonti senza sovrapposizioni, mentre cercavamo anche di capire come bilanciare e gestire diverse fonti di informazione.

Processo di Deduplicazione

Cos'è la Deduplicazione?

La deduplicazione rimuove i punti dati ripetuti per aiutare il modello a concentrarsi su informazioni uniche. Questo è fondamentale per l'efficienza dell'addestramento. Se un modello continua a vedere le stesse informazioni, potrebbe impiegare più tempo ad apprendere e potrebbe non performare bene in compiti diversi. Avere un dataset altamente deduplicato rende l'addestramento più fluido e migliora le prestazioni del modello.

Deduplicazione Globale vs. Locale

  • Deduplicazione Globale: Questo metodo rimuove i dati duplicati tra tutti i dataset. Cattura le sovrapposizioni da diverse fonti, assicurandosi che il modello impari da un'ampia gamma di dati unici.

  • Deduplicazione Locale: Questo metodo rimuove solo i duplicati all'interno di ogni dataset. Se due dataset condividono informazioni simili, quella sovrapposizione potrebbe ancora essere presente dopo il trattamento.

Le nostre osservazioni indicano che la deduplicazione globale tende a favorire migliori risultati di addestramento, in particolare quando si usano dati provenienti da più fonti.

Il Ruolo delle Combinazioni di Dati

Un modello che si allena su dati diversificati e ben deduplicati tende a generalizzare meglio su vari compiti. Ad esempio, se le fonti di dati riflettono culture e prospettive diverse, il modello potrebbe diventare più bilanciato e meno fazioso. Tuttavia, se le fonti sono troppo simili, il modello potrebbe amplificare pregiudizi comuni.

Combinare dati tecnici con notizie generali o altre forme di testo può fornire al modello una comprensione ampia, applicando conoscenze dettagliate a vari compiti. La qualità conta più della quantità, quindi abbiamo voluto sottolineare l'importanza di combinazioni ponderate in SlimPajama.

Specializzazione vs. Generalizzazione

Quando combiniamo molti dataset specializzati, ci troviamo di fronte alla sfida di creare un modello che potrebbe non essere abile in compiti specifici come un modello addestrato su un singolo dataset specializzato. Abbiamo esplorato questo equilibrio tra specializzazione e generalizzazione con varie configurazioni dei nostri dataset.

Dettagli del Dataset

SlimPajama contiene un totale di 627 miliardi di token raccolti da più fonti. Questo dataset è suddiviso in set di addestramento, validazione e test. Ogni configurazione che abbiamo testato include circa 330 miliardi di token dopo il trattamento.

Abbiamo utilizzato diverse strategie di campionamento per i nostri dataset. Alcune fonti, come CommonCrawl, sono state addestrate solo una volta, mentre altre, come Wikipedia e Github, sono state addestrate più volte per garantire completezza.

Proporzioni delle Fonti di Dati

Per bilanciare i dati di addestramento, abbiamo definito le proporzioni delle varie fonti nelle configurazioni del nostro dataset. Questo variava assegnando pesi diversi a diversi tipi di fonti in base alla loro importanza e unicità.

Analisi della Somiglianza dei Dataset

Per vedere come i diversi dataset si confrontano, abbiamo calcolato la somiglianza tra le distribuzioni dei token. Abbiamo esaminato vari tipi di token, comprese lettere, numeri e simboli non comuni, per capire quanto fossero distinti o simili.

Dalla nostra analisi, abbiamo scoperto che, mentre molti dataset condividevano somiglianze, c'erano anche chiare distinzioni in alcune aree, come i token non alfanumerici.

Elaborazione del Dataset

SlimPajama è nato filtrando testi di bassa qualità e duplicati dal dataset originale RedPajama. Abbiamo rimosso documenti molto brevi che mancavano di informazioni utili, assicurandoci che il nostro intero dataset fosse robusto e pertinente.

Filtraggio dei Documenti di Bassa Qualità

Abbiamo applicato un filtro per eliminare documenti più corti di 200 caratteri. Questo passaggio ci ha aiutati a evitare di includere frammenti brevi che non avrebbero contribuito in modo significativo all'addestramento.

Processo di Deduplicazione Globale

Ogni dataset incluso in SlimPajama aveva duplicati, con i tassi più alti trovati in fonti come CommonCrawl e Github. Abbiamo effettuato deduplicazione globale per garantire una combinazione efficiente dei dati, il che porta a un miglior addestramento senza sovrapposizioni inutili.

Combinazioni di Dataset per l'Addestramento

Abbiamo creato e testato sei configurazioni per SlimPajama per vedere come i cambiamenti nella combinazione dei dati influenzavano i risultati:

  1. Solo CommonCrawl
  2. CommonCrawl + Github
  3. CommonCrawl + Github + Libri + Wikipedia
  4. CommonCrawl + Github (con proporzioni di campionamento adattate)
  5. CommonCrawl + Wikipedia (con proporzioni di campionamento adattate)
  6. Solo RefinedWeb CommonCrawl

Ogni configurazione mirava a esaminare come le diverse fonti di dati e proporzioni influenzassero le prestazioni del modello.

Architettura del Modello e Impostazione dell'Addestramento

Architettura Cerebras-GPT

La nostra architettura assomiglia a quella dei modelli esistenti ma utilizza un meccanismo di attenzione consistente, che differisce dai modelli che combinano approcci densi e sparsi. Ogni modello è stato costruito per gestire una lunghezza massima di sequenza di 2.048 token.

Dettagli dell'Addestramento

Abbiamo utilizzato un tokenizer basato su GPT-NeoX e abbiamo addestrato i modelli per circa 2,5 giorni. L'ottimizzatore AdamW è stato impiegato per aiutare a perfezionare le prestazioni del modello.

Valutazione delle Prestazioni del Modello

La nostra analisi ha incluso l'esame di come i modelli addestrati su diverse configurazioni hanno performato su vari benchmark. Abbiamo testato per ragionamento, inferenza di buon senso, abilità multitasking e affidabilità del modello su informazioni imprecise.

I risultati indicano che le nostre configurazioni spesso hanno superato i modelli originali di RedPajama, con alcune configurazioni che hanno raggiunto punteggi massimi in specifici benchmark.

Punteggio di Indovinare Casualmente

Per comprendere meglio le prestazioni del modello su test come MMLU, abbiamo introdotto una metrica per misurare quanto spesso le previsioni somigliassero a indovinare casualmente. Un punteggio più alto indica che le previsioni del modello sono più affidabili del caso.

Analisi della Perdita di Addestramento

Abbiamo analizzato le curve di perdita per il processo di addestramento di diverse configurazioni. Sono emerse alcune osservazioni chiave:

  1. La configurazione con la migliore accuratezza media aveva la perdita media più alta, indicando che una perdita più bassa non significa necessariamente migliori risultati.
  2. Una configurazione principalmente composta da dati di codice aveva la perdita di addestramento più bassa, mostrando una connessione tra tipo di dati e prestazioni di perdita.

Addestramento con Batch Size Grande sul Modello 7B

Per un modello più grande di 7 miliardi di parametri, abbiamo adattato le nostre combinazioni di dati per includere più testo web, incorporando anche fonti aggiuntive per aumentare la diversità. Volevamo bilanciare la possibilità di ottenere alte prestazioni garantendo un addestramento efficiente.

Configurazione di Addestramento per il Modello 7B

L'architettura è stata modificata per adattarsi al modello più grande, mantenendo una lunghezza di sequenza di 2.048 token. Abbiamo utilizzato un tokenizer diverso e seguito uno schema di ottimizzazione di addestramento distinto per adattarsi a questa scala più grande.

Addestramento Veloce con Batch Grandi

Addestrare con batch size più grandi ci ha permesso di raggiungere una convergenza più rapida, migliorando l'efficienza dell'addestramento. Tuttavia, abbiamo anche notato che batch più grandi potevano portare a overfitting in alcuni casi. Pertanto, abbiamo sviluppato una nuova strategia che utilizzava il decay del peso per mitigare questi rischi.

Addestramento Progressivo sul Decay del Peso

Abbiamo introdotto un nuovo metodo chiamato Addestramento Progressivo sul Decay del Peso (PTWD). Questo approccio applicava diversi livelli di decay del peso durante varie fasi di addestramento, risultando in una migliore convergenza e una gestione migliore delle prestazioni del modello.

Risultati dall'Addestramento Preliminare e dal Tuning delle Istruzioni

Dopo il nostro addestramento iniziale, abbiamo condotto il tuning delle istruzioni, il che ha portato a punteggi migliori in alcuni benchmark ma prestazioni leggermente inferiori in altri. Complessivamente, l'accuratezza media è aumentata significativamente dopo questo ulteriore tuning.

Lavoro Correlato e Conclusioni

Il nostro lavoro evidenzia l'importanza di usare dataset diversificati e ben gestiti nell'addestramento di modelli di linguaggio grandi. Concentrandoci sulla combinazione efficace delle fonti di dati e su una deduplicazione accurata, abbiamo mostrato una via verso processi di addestramento più efficienti. Questo può portare a prestazioni migliori in vari compiti e plasmare la ricerca futura in metodi incentrati sui dati per l'addestramento dei modelli di linguaggio.

Con SlimPajama-DC, speriamo di ispirare ulteriori esplorazioni su come le diverse combinazioni di dati possano migliorare l'efficienza dell'addestramento dei modelli di linguaggio grandi.

Fonte originale

Titolo: SlimPajama-DC: Understanding Data Combinations for LLM Training

Estratto: This paper aims to understand the impacts of various data combinations (e.g., web text, Wikipedia, GitHub, books) on the pretraining of large language models using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source dataset, which has been refined and further deduplicated to 627B tokens from the extensive 1.2T token RedPajama dataset contributed by Together. We have termed our research as SlimPajama-DC, an empirical analysis designed to uncover fundamental characteristics and best practices associated with employing SlimPajama in the training of large language models. During our research with SlimPajama, two pivotal observations emerged: (1) Global deduplication vs. local deduplication. We analyze and discuss how global (across different sources of datasets) and local (within the single source of dataset) deduplications affect the performance of trained models. (2) Proportions of highly-deduplicated multi-source datasets in the combination. To study this, we construct six configurations on SlimPajama dataset and train individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best configuration outperforms the 1.3B model trained on RedPajama using the same number of training tokens by a significant margin. All our 1.3B models are trained on Cerebras 16$\times$ CS-2 cluster with a total of 80 PFLOP/s in bf16 mixed precision. We further extend our discoveries (such as increasing data diversity is crucial after global deduplication) on a 7B model with large batch-size training. Our SlimPajama-DC models are available at: https://huggingface.co/MBZUAI-LLM/SlimPajama-DC and the separate SlimPajama-DC datasets are available at: https://huggingface.co/datasets/MBZUAI-LLM/SlimPajama-627B-DC.

Autori: Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Zhengzhong Liu, Hongyi Wang, Bowen Tan, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing

Ultimo aggiornamento: 2024-05-09 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.10818

Fonte PDF: https://arxiv.org/pdf/2309.10818

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili