Migliorare il ragionamento matematico nei modelli linguistici più piccoli
Un nuovo metodo migliora le abilità di risoluzione dei problemi matematici in modelli linguistici più piccoli usando DPO e autoformazione.
― 6 leggere min
Indice
- Il Problema dei Metodi Tradizionali
- Panoramica dell'Auto-Allenamento
- Ottimizzazione delle Preferenze Dirette (DPO)
- Il Framework di Auto-Allenamento Aumentato da DPO
- Utilizzo di Calcolatori Esterni
- Impostazione dell'Esperimento
- Risultati Principali
- L'Importanza dell'Allenamento Iterativo
- L'Impatto della DPO sull'Auto-Allenamento
- Il Ruolo dei Calcolatori Esterni
- Conclusione
- Fonte originale
- Link di riferimento
Allenare i modelli linguistici a gestire problemi di matematica è un obiettivo sfidante ma importante. Un buon allenamento richiede dati di alta qualità che mostrino come risolvere questi problemi. Anche se parte di questi dati può provenire da esperti, un altro metodo comune è utilizzare informazioni da modelli linguistici più grandi e potenti. Tuttavia, fare affidamento su questi modelli più grandi può risultare costoso e a volte imprevedibile.
In questo articolo, parliamo di un nuovo metodo che aiuta i modelli linguistici più piccoli a migliorare le loro capacità di Ragionamento matematico. Questo metodo prevede l'auto-allenamento, dove i modelli imparano dai loro stessi output. Introdurremo anche una tecnica chiamata Ottimizzazione delle Preferenze Dirette (DPO) che aiuta a guidare i modelli a produrre risposte migliori.
Il Problema dei Metodi Tradizionali
Allenare i modelli linguistici a risolvere problemi di matematica è spesso dipeso da dati costosi provenienti da modelli più grandi. Questi modelli grandi, pur essendo bravi nel ragionamento, possono avere costi elevati e essere meno affidabili. Ad esempio, modelli come GPT-4 possono fornire annotazioni utili, ma il loro utilizzo non è sempre pratico.
Ricerche precedenti hanno dimostrato che i modelli più piccoli possono migliorare il loro ragionamento imparando dai modelli più grandi. Anche se questo metodo è efficace, può essere costoso in termini di risorse computazionali. Il nostro approccio mira a ridurre questi costi mantenendo comunque alte le Prestazioni.
Panoramica dell'Auto-Allenamento
L'auto-allenamento è una tecnica in cui un modello addestrato funge da insegnante per aiutare se stesso a imparare da nuovi dati. Il modello genererà risposte per nuovi problemi di matematica e poi utilizzerà queste per migliorare se stesso. L'obiettivo è creare dati etichettati migliori che possano migliorare le sue prestazioni. Questo metodo è stato utilizzato con successo in vari campi, incluso l'elaborazione del linguaggio naturale.
Ottimizzazione delle Preferenze Dirette (DPO)
La DPO è una tecnica che migliora il processo di auto-allenamento. Invece di fare affidamento solo su un modello di ricompensa, la DPO consente una regolazione diretta del modello linguistico basata sulle preferenze umane. Il processo inizia con un modello che genera varie risposte per un prompt. Queste risposte vengono poi ordinate in base a se sono buone o cattive secondo il feedback umano.
Utilizzando questi dati, il modello viene addestrato a fornire risposte ancora migliori in futuro. La DPO aiuta specificamente il modello a concentrarsi sui compiti di ragionamento, specialmente in matematica. Poiché le risposte matematiche possono essere facilmente verificate per correttezza, è più semplice creare set di dati per la DPO.
Il Framework di Auto-Allenamento Aumentato da DPO
Il nostro metodo proposto inizia con una fase di riscaldamento in cui il modello viene addestrato su dati etichettati. Dopo questo allenamento iniziale, il modello utilizza i passaggi di auto-allenamento e DPO per perfezionare le sue prestazioni.
Durante il passaggio DPO, il modello genera un insieme di spiegazioni per domande date. Queste spiegazioni vengono etichettate come corrette o incorrette in base a se forniscono le risposte giuste. Il modello poi si allena su questi dati etichettati per migliorare le sue prestazioni.
Nella fase successiva di SFT, il modello migliorato genera nuove spiegazioni basate sulla comprensione affinata dal passo DPO. Questo processo continua iterativamente, permettendo al modello di migliorare gradualmente.
Utilizzo di Calcolatori Esterni
Un'altra sfida con i modelli linguistici più piccoli è che spesso faticano con l'Aritmetica di base. Per affrontare questo problema, integriamo un calcolatore esterno nei nostri modelli. Questo strumento aiuta a migliorare le abilità aritmetiche dei modelli, portando a prestazioni migliori nei compiti di matematica.
Molte tecniche esistenti limitano l'elaborazione a una domanda alla volta quando si utilizza un calcolatore, il che rallenta le prestazioni. Il nostro metodo consente di elaborare molte domande simultaneamente, migliorando la velocità e l'efficienza complessive.
Impostazione dell'Esperimento
Per capire come si comporta il nostro metodo, abbiamo utilizzato una varietà di modelli, in particolare due versioni di Flan-T5, come modelli di base. Abbiamo utilizzato questi modelli su un benchmark popolare per problemi di parole matematiche chiamato GSM8K. Inoltre, abbiamo creato un set di dati di validazione separato selezionando una parte degli esempi di addestramento.
Nei nostri esperimenti, abbiamo confrontato il nostro metodo con metodi tradizionali di fine-tuning supervisionato e metodi standard di auto-allenamento. Questo confronto mirava a mostrare quanto bene funziona il nostro processo aumentato da DPO rispetto alle tecniche consolidate.
Risultati Principali
I nostri risultati indicano che i metodi di auto-allenamento, incluso il nostro approccio aumentato da DPO, superano significativamente i metodi tradizionali di fine-tuning supervisionato. Questo successo dimostra che l'auto-allenamento può migliorare efficacemente le capacità di ragionamento dei modelli linguistici.
Sebbene entrambi i metodi di auto-allenamento abbiano migliorato i modelli iniziali supervisionati, il nostro approccio aumentato da DPO ha dimostrato prestazioni superiori sia in compiti familiari (in-dominio) che nuovi (out-of-domain).
Vale la pena notare che il nostro metodo sfrutta i vantaggi dell'auto-allenamento minimizzando i costi. Generando dati di alta qualità attraverso il passaggio DPO, abbiamo scoperto che i modelli possono produrre risposte migliori senza richiedere più risorse.
L'Importanza dell'Allenamento Iterativo
Abbiamo osservato che il nostro metodo di allenamento iterativo porta a miglioramenti costanti. I primi risultati hanno mostrato che entrambi i metodi di auto-allenamento sono partiti in modo simile. Eppure, man mano che l'allenamento progrediva, il nostro approccio aumentato da DPO ha costantemente mostrato risultati migliori ad ogni passo.
Questo miglioramento evidenzia l'efficacia del nostro metodo nel perfezionare le prestazioni dei modelli linguistici. Anche modelli più grandi hanno mostrato guadagni solidi nel corso delle iterazioni.
L'Impatto della DPO sull'Auto-Allenamento
Il passo DPO nel nostro processo gioca un ruolo cruciale nel migliorare il framework di auto-allenamento. Le valutazioni iniziali hanno dimostrato che mentre il passo DPO forniva miglioramenti limitati per soluzioni singole, ha migliorato significativamente la capacità del modello di generare più razionali.
Campionando più soluzioni per problema, abbiamo scoperto che l'addestramento DPO incoraggia il modello a produrre output diversificati e di alta qualità. Questa abilità di generare una gamma più ampia di soluzioni migliora le prestazioni complessive.
Il Ruolo dei Calcolatori Esterni
Come già detto, i modelli più piccoli spesso faticano con i problemi aritmetici. Il nostro metodo utilizza un calcolatore esterno per affrontare questo problema. Senza di esso, i modelli tendono a produrre molti output errati anche se la risposta finale sembra corretta. Questa limitazione riduce l'accuratezza complessiva.
Nei nostri studi di ablation, abbiamo scoperto che i modelli che utilizzano il calcolatore hanno performato meglio in varie iterazioni. Questa scoperta illustra l'importanza di integrare strumenti che supportano le capacità di ragionamento del modello.
Conclusione
In sintesi, abbiamo introdotto un nuovo metodo per migliorare le capacità di ragionamento matematico nei modelli linguistici più piccoli attraverso l'auto-allenamento aumentato da DPO. Questa tecnica non solo migliora le capacità di apprendimento di questi modelli, ma lo fa anche in modo efficiente in termini di risorse. Utilizzando sia l'auto-allenamento che la DPO, i nostri modelli hanno raggiunto miglioramenti significativi nelle loro performance, affrontando anche le sfide presentate da scale più piccole e ragionamento aritmetico.
I nostri risultati suggeriscono che la ricerca futura dovrebbe concentrarsi sull'espansione di questo approccio ad altri compiti di ragionamento, identificando set di dati adatti ed esplorando modi per raccogliere dati non etichettati di alta qualità. Questo lavoro apre nuove vie per migliorare i modelli linguistici e le loro applicazioni in vari campi.
Titolo: Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
Estratto: Effective training of language models (LMs) for mathematical reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling from larger and more powerful LMs. However, this knowledge distillation approach can be costly and unstable, particularly when relying on closed-source, proprietary LMs like GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate that the reasoning abilities of small-scale LMs can be enhanced through self-training, a process where models learn from their own outputs. We also show that the conventional self-training can be further augmented by a preference learning algorithm called Direct Preference Optimization (DPO). By integrating DPO into self-training, we leverage preference data to guide LMs towards more accurate and diverse chain-of-thought reasoning. We evaluate our method across various mathematical reasoning tasks using different base models. Our experiments show that this approach not only improves LMs' reasoning performance but also offers a more cost-effective and scalable solution compared to relying on large proprietary LMs.
Autori: Tianduo Wang, Shichen Li, Wei Lu
Ultimo aggiornamento: 2024-07-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.18248
Fonte PDF: https://arxiv.org/pdf/2407.18248
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.