Valutare le vere abilità dei modelli linguistici nella matematica
La ricerca ha svelato preoccupazioni riguardo le capacità matematiche dei grandi modelli linguistici.
― 6 leggere min
Indice
I grandi modelli di linguaggio (LLM) sono diventati popolari per la loro capacità di affrontare tanti compiti, compresi i problemi di matematica. Ma ci sono preoccupazioni su quanto funzionano davvero, specialmente con la matematica. Alcuni pensano che gli LLM potrebbero non essere bravi a ragionare come sembrano. Questa preoccupazione nasce dal fatto che alcuni dati usati per addestrare questi modelli potrebbero includere domande che assomigliano ai test a cui vengono sottoposti.
Per approfondire questa questione, i ricercatori hanno creato un nuovo set di problemi di matematica chiamato Grade School Math 1000. Questo dataset è simile per stile e difficoltà a un benchmark noto chiamato GSM8K, che viene spesso usato per misurare quanto bene i modelli riescono a fare la matematica delle scuole elementari. Confrontando i due dataset, i ricercatori volevano capire se i modelli capiscono davvero la matematica o se stanno solo ripetendo ciò che hanno imparato dai dati di addestramento.
L'importanza del test
Quando hanno testato questi modelli, i ricercatori hanno guardato come si comportavano sia su GSM8k che su GSM1000. Hanno scoperto che molti modelli non hanno fatto altrettanto bene su GSM1000 rispetto a GSM8k, con alcuni modelli che mostrano un calo di accuratezza fino al 13%. Questo indicava che alcuni modelli potrebbero aver memorizzato esempi da GSM8k invece di capire effettivamente come risolvere nuovi problemi.
In particolare, modelli di certi gruppi, come Phi e Mistral, spesso non si comportavano bene sul nuovo dataset. Tuttavia, modelli di punta come Gemini, GPT e Claude mostravano pochi o nessun segno di aver memorizzato domande specifiche da GSM8k, il che significava che riuscivano a generalizzare meglio su nuovi problemi di matematica.
Creare un confronto equo
Per assicurarsi che i problemi in GSM1000 fossero comparabili a quelli in GSM8k, i ricercatori hanno seguito passi accurati. Volevano tassi di correttezza simili tra i risolutori umani, simili numeri di passaggi necessari per trovare una risposta e dimensioni simili delle risposte. Hanno usato annotatori umani per scrivere nuovi problemi di matematica, assicurandosi che tutti i problemi utilizzassero solo aritmetica di base e non coinvolgessero concetti avanzati.
Questo design attento era necessario per evitare bias che potrebbero emergere dai modelli che semplicemente riconoscono problemi simili a quelli che avevano già visto in addestramento. La Contaminazione dei dati, dove i dati di addestramento includono esempi troppo simili alle domande del test, era una preoccupazione importante per i ricercatori.
Valutazione dei risultati
Mentre i ricercatori confrontavano vari modelli con il nuovo dataset GSM1000, hanno confermato molte delle sospetti nel campo riguardanti la contaminazione dei dati. I modelli più colpiti tendevano a mostrare un chiaro schema: si comportavano significativamente meglio nel set di test GSM8k rispetto ai nuovi problemi.
Ma anche i modelli che mostravano segni di overfitting, cioè che potrebbero aver memorizzato parti dei dati di addestramento, riuscivano comunque a risolvere alcuni nuovi problemi. Ad esempio, anche se un Modello come Phi-3 ha avuto un calo di quasi il 10% nelle prestazioni, è riuscito comunque a risolvere correttamente oltre il 68% dei problemi di GSM1000.
Questa scoperta suggeriva che, mentre l'overfitting è una preoccupazione, anche quei modelli potrebbero ancora mostrare capacità di Ragionamento in alcuni casi.
Imparare dai benchmark
I ricercatori hanno notato che un buon benchmarking è essenziale. Affidarsi a set pubblici come GSM8k, MATH e altri comporta dei rischi, specialmente se i dati di addestramento includono domande che potrebbero infiltrarsi nel materiale di addestramento dei modelli. Alcuni modelli sembrano forti nell'aritmetica di base, ma le prestazioni nei test reali possono essere fuorvianti se i modelli sono stati esposti a domande simili.
È anche importante riconoscere la differenza tra memorizzazione e ragionamento. Solo perché un modello ha difficoltà con nuovi problemi non significa necessariamente che non abbia capacità di ragionamento. Invece, potrebbe semplicemente essere che i modelli si sono abituati troppo a vedere tipi simili di domande.
Il percorso da seguire
Guardando al futuro, i ricercatori sono impegnati a valutare continuamente gli LLM e ad aggiornare le loro scoperte. Continueranno a lavorare per ridurre il rischio di contaminazione dei dati nei futuri benchmark. Vogliono anche garantire che i nuovi dataset siano costruiti con attenzione, usando solo input umani.
Per ora, i ricercatori hanno deciso di non rilasciare pubblicamente il dataset GSM1000, poiché vogliono evitare di creare problemi simili che potrebbero sorgere dalla contaminazione dei dati vista in altri dataset. Tuttavia, hanno in programma di rendere open-source l'intero processo di valutazione in modo che altri possano riprodurre i loro risultati.
La necessità di qualità
Per garantire la qualità del nuovo dataset creato, ogni domanda è passata attraverso più fasi di revisione. Questo ha incluso il controllo della correttezza e assicurarsi che tutti i problemi rientrassero nei criteri di matematica delle scuole elementari. Hanno anche valutato quanto bene gli annotatori umani potessero risolvere i problemi sotto vincoli di tempo, confermando che le nuove domande erano di difficoltà simile a quella del set originale.
I revisori umani sono stati in grado di identificare con successo le domande e risolverle senza vedere le risposte previste in anticipo. Questo ha dimostrato che il nuovo dataset era stato costruito con cura e corrispondeva strettamente alla difficoltà di GSM8k.
Analizzare il rischio di contaminazione dei dati
Con la consapevolezza che la contaminazione dei dati è un problema comune, i ricercatori hanno notato che i creatori di LLM spesso prendono misure per minimizzare questo rischio. Ad esempio, potrebbero rimuovere dati simili a quelli del benchmark per evitare sovrapposizioni. Eppure, nonostante questi sforzi, rimangono prove che alcuni modelli potrebbero ancora essere soggetti a overfitting a causa di sottili influenze dai loro dataset di addestramento.
Alcuni ricercatori hanno proposto modi per rilevare l'overfitting attraverso vari test e valutazioni. Questi includono la creazione di nuovi tipi di benchmark che non sono facilmente adattabili agli LLM, rendendo più difficile per i modelli semplicemente memorizzare le risposte.
Guardando ai dati raccolti, i ricercatori hanno stabilito che avere una chiara separazione tra dataset di addestramento e test è fondamentale. Credono sia essenziale continuare a creare nuovi e unici dataset che aiutino a valutare le vere capacità di ragionamento di questi modelli.
Conclusione
I risultati mostrano che, mentre molti grandi modelli di linguaggio eccellono in vari compiti, compresa la matematica delle scuole elementari, ci sono significative preoccupazioni riguardo alla loro affidabilità. Il potenziale per la contaminazione dei dati solleva domande su quanto bene questi modelli possano generalizzare a nuovi problemi.
Una valutazione attenta attraverso nuovi set di benchmark come GSM1000 può aiutare a rivelare le vere capacità di questi modelli. I prossimi passi comportano un'ulteriore analisi delle prestazioni dei modelli, garantendo miglioramenti continui nel processo di valutazione e lavorando per una migliore comprensione di come i modelli apprendono dai dati.
Minimizzando il rischio di contaminazione dei dati e concentrandosi sulla qualità della creazione dei problemi, i ricercatori possono contribuire allo sviluppo continuo degli LLM. Man mano che il campo progredisce, è fondamentale garantire che i progressi siano basati su prove solide di vera capacità di ragionamento, non solo sulla memorizzazione di esempi precedenti.
Titolo: A Careful Examination of Large Language Model Performance on Grade School Arithmetic
Estratto: Large language models (LLMs) have achieved impressive success on many benchmarks for mathematical reasoning. However, there is growing concern that some of this performance actually reflects dataset contamination, where data closely resembling benchmark questions leaks into the training data, instead of true reasoning ability. To investigate this claim rigorously, we commission Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and complexity of the established GSM8k benchmark, the gold standard for measuring elementary mathematical reasoning. We ensure that the two benchmarks are comparable across important metrics such as human solve rates, number of steps in solution, answer magnitude, and more. When evaluating leading open- and closed-source LLMs on GSM1k, we observe accuracy drops of up to 8%, with several families of models showing evidence of systematic overfitting across almost all model sizes. Further analysis suggests a positive relationship (Spearman's r^2 = 0.36) between a model's probability of generating an example from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that some models may have partially memorized GSM8k. Nevertheless, many models, especially those on the frontier, show minimal signs of overfitting, and all models broadly demonstrate generalization to novel math problems guaranteed to not be in their training data.
Autori: Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Charlotte Zhuang, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele Lunati, Summer Yue
Ultimo aggiornamento: 2024-11-22 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2405.00332
Fonte PDF: https://arxiv.org/pdf/2405.00332
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.