Valutare i modelli linguistici sull'esame ENEM del Brasile
Questo studio valuta GPT-3.5 e GPT-4 nell'esame di ammissione ENEM.
― 5 leggere min
I modelli di linguaggio stanno diventando sempre più bravi a gestire compiti complessi. Questo articolo analizza quanto siano bravi i modelli di linguaggio recenti, in particolare GPT-3.5 e GPT-4, nell'affrontare l'Exame Nacional do Ensino Médio (ENEM), un importante esame di ammissione utilizzato dalle università brasiliane. L'esame ENEM valuta gli studenti su vari argomenti, tra cui lingue, scienze e Matematica, rendendolo un compito impegnativo per questi modelli.
L'Esame ENEM
L'ENEM consiste in domande a scelta multipla e un saggio. L'esame copre quattro aree principali: lingue e tecnologie, scienze umane, scienze naturali e matematica. Gli studenti devono avere una comprensione ampia di diversi argomenti e saper integrare conoscenze da questi campi diversi. Questo rende l'esame un utile punto di riferimento per capire quanto bene i modelli di linguaggio possano affrontare sfide complesse e multidisciplinari.
Panoramica sui Modelli di Linguaggio
I modelli di linguaggio sono un tipo di intelligenza artificiale che può analizzare e generare testo simile a quello umano. Gli sviluppi recenti in questo campo hanno dimostrato che questi modelli possono svolgere vari compiti in modo efficace, tra cui traduzione, sintesi di testi e risposta a domande. Tuttavia, gran parte della ricerca esistente si è concentrata su come questi modelli si comportano in inglese, con meno studi sulle loro capacità in portoghese. Questo studio mira a colmare quella lacuna valutando GPT-3.5 e GPT-4 nell'esame ENEM.
Descrizione del Dataset
Per questa valutazione, sono stati utilizzati due dataset: l'ENEM Challenge e il dataset ENEM 2022. L'ENEM Challenge consiste in domande degli esami tenuti tra il 2009 e il 2017, mentre il dataset ENEM 2022 contiene le domande più recenti. Entrambi i dataset sono stati elaborati per escludere domande che richiedevano l'interpretazione di immagini, equazioni matematiche o simboli chimici, per concentrarsi sulla comprensione del testo e su domande di conoscenza generale.
Il dataset ENEM Challenge consiste in 1754 domande, e, dopo il filtraggio, abbiamo usato 916 domande. Il dataset del 2022 conteneva 118 domande dopo aver applicato filtri simili.
Progettazione dei Prompt per i Modelli di Linguaggio
Per valutare i modelli, sono stati progettati tre tipi di prompt: zero-shot, few-shot e few-shot con Chain-of-Thought (CoT).
- Prompt zero-shot forniscono al modello una domanda senza esempi precedenti. Questo tipo è diretto ma può portare a formati di risposta variabili.
- Prompt few-shot includono alcuni esempi per guidare il modello su come rispondere. Ad esempio, sono state scelte domande specifiche per presentare diversi argomenti e livelli di difficoltà.
- Prompt few-shot con CoT vanno oltre chiedendo al modello di spiegare il proprio ragionamento prima di dare una risposta finale. Questo metodo incoraggia il modello a scomporre il problema in parti più piccole, rendendo più facile arrivare alla risposta corretta.
Valutazione delle Performance
I modelli sono stati valutati su entrambi i dataset, concentrandosi su quanto bene rispondevano alle domande. I risultati hanno mostrato che GPT-4 ha raggiunto una precisione media del 87% nell'esame del 2022 utilizzando prompt few-shot con CoT, superando notevolmente GPT-3.5.
Quando il modello ha risposto alle domande senza esempi, ha ottenuto una precisione più bassa, in particolare in aree difficili come la matematica. Tuttavia, quando sono stati forniti alcuni esempi o utilizzando i prompt CoT, la precisione è migliorata notevolmente. Ad esempio, nel caso delle domande di matematica, le performance sono aumentate significativamente, dimostrando il valore dell'approccio CoT.
Analisi dei Risultati
Nel dataset ENEM 2022, i modelli hanno mostrato livelli di accuratezza diversi in base all'area tematica:
- Lingue e Codici: I modelli si sono comportati bene nel complesso, con diverse domande che hanno restituito alta accuratezza.
- Scienze Umane: I modelli hanno eccelso, con tassi di accuratezza che hanno raggiunto quasi il 95% in alcune occasioni.
- Scienze Naturali: L'accuratezza variava, con alcune domande più impegnative di altre.
Implicazioni
I risultati di questo studio hanno diverse implicazioni. Prima di tutto, evidenziano il potenziale dei modelli di linguaggio per aiutare gli studenti a capire argomenti complessi. La capacità di questi modelli di fornire spiegazioni può migliorare l'apprendimento rendendo più chiare le nozioni difficili.
Inoltre, i risultati suggeriscono che i modelli di linguaggio possono essere strumenti efficaci in contesti educativi. Potrebbero contribuire a creare esperienze di apprendimento personalizzate adattando i contenuti per soddisfare i ritmi e gli stili di apprendimento individuali.
Le performance di GPT-4 indicano che può fornire risposte accurate, dando anche alle persone maggiore comprensione del ragionamento dietro quelle risposte. Questa trasparenza potrebbe essere utile sia in aula che in altri ambienti educativi.
Direzioni per la Ricerca Futura
Ci sono numerosi percorsi per la ricerca futura basati sui risultati di questo studio. Una direzione potrebbe riguardare lo sviluppo di applicazioni educative che utilizzano i modelli di linguaggio per esperienze di apprendimento personalizzate. Queste applicazioni potrebbero analizzare i progressi di uno studente e adattare domande e argomenti per migliorare la comprensione.
Un altro ambito di esplorazione potrebbe concentrarsi su quanto bene i modelli di linguaggio possano generare le proprie domande e valutare i loro livelli di difficoltà. Questa capacità consentirebbe test adattivi, dove gli esami si adattano in tempo reale per corrispondere all'abilità di uno studente.
Inoltre, integrare modelli multimodali-quelli che possono elaborare sia testo che immagini-potrebbe fornire una valutazione più completa delle capacità di uno studente. Questo aiuterebbe a rispondere a domande che richiedono analisi visive, rendendo le valutazioni più complete.
Conclusione
La valutazione di GPT-3.5 e GPT-4 sull'esame ENEM fornisce preziose informazioni sulle capacità dei modelli di linguaggio nei contesti educativi. I risultati dimostrano che questi modelli possono affrontare efficacemente domande complesse e multidisciplinari. Con ulteriori ricerche e sviluppi, hanno un grande potenziale per migliorare le esperienze educative e promuovere migliori risultati di apprendimento per gli studenti.
Riconoscendo i punti di forza e di debolezza di questi modelli, educatori e ricercatori possono lavorare per creare strumenti e risorse più efficaci che soddisfino le diverse esigenze di apprendimento.
Titolo: Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams
Estratto: The present study aims to explore the capabilities of Language Models (LMs) in tackling high-stakes multiple-choice tests, represented here by the Exame Nacional do Ensino M\'edio (ENEM), a multidisciplinary entrance examination widely adopted by Brazilian universities. This exam poses challenging tasks for LMs, since its questions may span into multiple fields of knowledge, requiring understanding of information from diverse domains. For instance, a question may require comprehension of both statistics and biology to be solved. This work analyzed responses generated by GPT-3.5 and GPT-4 models for questions presented in the 2009-2017 exams, as well as for questions of the 2022 exam, which were made public after the training of the models was completed. Furthermore, different prompt strategies were tested, including the use of Chain-of-Thought (CoT) prompts to generate explanations for answers. On the 2022 edition, the best-performing model, GPT-4 with CoT, achieved an accuracy of 87%, largely surpassing GPT-3.5 by 11 points. The code and data used on experiments are available at https://github.com/piresramon/gpt-4-enem.
Autori: Desnes Nunes, Ricardo Primi, Ramon Pires, Roberto Lotufo, Rodrigo Nogueira
Ultimo aggiornamento: 2023-03-29 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.17003
Fonte PDF: https://arxiv.org/pdf/2303.17003
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/piresramon/gpt-4-enem
- https://www.gov.br/inep/pt-br/areas-de-atuacao/avaliacao-e-exames-educacionais/enem
- https://collegereadiness.collegeboard.org/sat
- https://www.ime.usp.br/~ddm/project/enem
- https://platform.openai.com
- https://platform.openai.com/docs/model-index-for-researchers
- https://platform.openai.com/docs/models
- https://porumavidasimples.blogspot.com.br
- https://www.youtube.com/watch?v=gAvyffWAqxg
- https://g1.globo.com/educacao/enem/video/enem-2022-correcao-da-questao-de-filosofia-sobre-politica-e-linguagem-11122067.ghtml
- https://g1.globo.com/educacao/enem/video/enem-2022-correcao-da-questao-de-portugues-sobre-urgencia-emocional-11122141.ghtml
- https://descomplica.com.br/gabarito-enem/questoes/2022/segundo-dia/o-projeto-que-o-casal-devera-escolher-sera-o/