Testare i modelli linguistici con l'esame GAOKAO
Uno studio sui modelli linguistici usando le difficili domande dell'esame GAOKAO cinese.
― 5 leggere min
I modelli di linguaggio grandi sono programmi per computer che possono capire e generare il linguaggio umano. Questi modelli hanno dato buoni risultati in molte attività, ma non sappiamo ancora quanto bene funzionano in compiti difficili e specifici. Questo articolo parla di un nuovo modo di testare quanto bene questi modelli funzionano usando domande dell'esame di ammissione all'università in Cina, noto come GAOKAO.
Il GAOKAO è un test tosto che gli studenti delle superiori devono affrontare per iscriversi alle università in Cina. Copre molti argomenti, tra cui cinese, matematica, inglese, fisica, chimica, biologia, scienze politiche, storia e geografia. Siccome l'esame è così impegnativo, è un buon test per vedere quanto bene possono funzionare i modelli di linguaggio in situazioni reali.
Con questo nuovo benchmark, possiamo capire meglio cosa possono fare i modelli e dove potrebbero aver bisogno di miglioramenti. Questo avviene osservando come rispondono a diversi tipi di domande dell'esame. Le domande possono essere divise in due categorie principali: domande oggettive, dove c'è una risposta chiara giusta o sbagliata, e domande soggettive, che richiedono più spiegazioni e ragionamenti.
Impostare il GAOKAO Benchmark
Per creare il GAOKAO-Benchmark, abbiamo preso domande d'esame degli ultimi 13 anni del GAOKAO. Queste domande sono state messe in un formato che facilita il confronto tra le risposte del modello e quelle corrette. Il processo ha incluso la conversione dei problemi matematici in un formato specifico e l'assicurarsi che tutte le domande fossero catalogate correttamente.
Questo benchmark ha due obiettivi principali. Primo, serve come modo per misurare quanto bene i modelli di linguaggio possono funzionare in compiti simili a un esame reale. Secondo, fornisce una raccolta di dati di alta qualità che riflette le condizioni di test reali. Questo aiuta i ricercatori a vedere dove i modelli potrebbero avere difficoltà e pensare a modi migliori per migliorarli.
Domande Oggettive
Le domande oggettive sono quelle che danno risposte chiare. Ad esempio, una domanda a scelta multipla dove uno studente deve scegliere la risposta giusta da un elenco rientra in questa categoria. Nella nostra valutazione, il modello ha fatto molto bene sulle domande oggettive, specialmente in inglese. I risultati hanno mostrato che il modello è riuscito a rispondere correttamente a una grande percentuale di queste domande.
Tuttavia, il modello non ha fatto altrettanto bene in altri argomenti come fisica, chimica e matematica. Questo indica che ci sono ancora aree in cui il modello deve crescere. Le domande oggettive sono state analizzate in dettaglio e ordinate per argomento. Ad esempio, tra i vari tipi di domande in inglese, quelle focalizzate sulla comprensione del testo hanno avuto il punteggio più alto.
Domande Soggettive
Le domande soggettive richiedono più che semplicemente scegliere una risposta; spesso chiedono spiegazioni o coinvolgono la risoluzione di problemi. I punteggi per le domande soggettive erano generalmente più bassi rispetto a quelli delle domande oggettive. Il modello ha mostrato di nuovo i suoi punti di forza in inglese ma ha avuto più difficoltà con materie come matematica e fisica.
Gli valutatori umani sono stati coinvolti per valutare le risposte alle domande soggettive. Hanno fornito feedback prezioso che ha evidenziato aree specifiche in cui il modello ha bisogno di miglioramenti. Ad esempio, gli valutatori hanno notato che il modello aveva difficoltà a capire problemi matematici complessi, commettendo spesso errori nei calcoli e utilizzando formule sbagliate. Ha anche mostrato una mancanza di comprensione quando leggeva testi più lunghi, dove ha perso dettagli importanti.
Performance del Modello
I punteggi raccolti hanno mostrato differenze chiare tra gli argomenti. Mentre il modello era efficace per molte domande in inglese, la sua performance è calata notevolmente in materie che richiedono abilità più analitiche, come fisica e chimica. La capacità del modello di risolvere problemi che richiedono ragionamenti e calcoli deve essere migliorata.
Per le domande oggettive, i punteggi più alti si trovavano nella comprensione del testo in inglese. Al contrario, il modello ha faticato in altre aree che avevano tassi di punteggio più bassi, come domande di matematica e scienze.
Intuizioni e Lavoro Futuro
I risultati dei test del modello di linguaggio contro le domande del GAOKAO forniscono intuizioni utili su come funzionano questi modelli e dove possono essere migliorati. Dimostrano che mentre i modelli attuali mostrano potenzialità, ci sono lacune significative che devono essere affrontate.
Ad esempio, il modello può funzionare bene su domande di conoscenza semplici ma ha margini di crescita quando si tratta di rispondere a problemi complessi che richiedono un ragionamento profondo e una comprensione di testi più lunghi. Il feedback degli valutatori umani è stato cruciale per evidenziare difetti e aree di sviluppo.
Le future ricerche potrebbero concentrarsi sullo sviluppo di strategie per migliorare le Prestazioni del Modello in queste aree difficili. Ad esempio, insegnare al modello a capire meglio i passaggi di testo più lunghi migliorerebbe le sue capacità di comprensione. Inoltre, migliorare le sue abilità di ragionamento logico potrebbe aiutarlo ad affrontare problemi matematici complessi e concetti scientifici più intricati.
Conclusione
In conclusione, il GAOKAO-Benchmark è uno strumento importante per valutare i grandi modelli di linguaggio. Usando un esame noto e impegnativo come il GAOKAO, i ricercatori possono ottenere intuizioni preziose su cosa possono fare questi modelli oggi e cosa devono raggiungere in futuro. Il benchmark offre un quadro chiaro per misurare le prestazioni in domande sia oggettive che soggettive in vari argomenti.
Man mano che la tecnologia dietro i modelli di linguaggio continua a migliorare, testarli contro esami reali come il GAOKAO sarà vitale per determinare la loro prontezza per applicazioni nel mondo reale, inclusi l'istruzione e la valutazione linguistica. Anche se ci sono ancora sfide da superare, i progressi fatti finora indicano un futuro luminoso per questi strumenti potenti.
Titolo: Evaluating the Performance of Large Language Models on GAOKAO Benchmark
Estratto: Large Language Models(LLMs) have demonstrated remarkable performance across various natural language processing tasks; however, how to comprehensively and accurately assess their performance becomes an urgent issue to be addressed. This paper introduces GAOKAO-Bench, an intuitive benchmark that employs questions from the Chinese GAOKAO examination as test samples, including both subjective and objective questions. To align with human examination methods, we design a method based on zero-shot settings to evaluate the performance of LLMs. With human evaluation, we obtain the converted total score of LLMs, including GPT-4, ChatGPT and ERNIE-Bot.Our findings reveal that LLMs have achieved competitive scores in Chinese GAOKAO examination, while they exhibit significant performance disparities across various subjects. We also use LLMs to grade the subjective questions, and find that model scores achieve a moderate level of consistency with human scores. In conclusion, this research contributes a robust evaluation benchmark for future large language models and offers valuable insights into the advantages and limitations of such models.
Autori: Xiaotian Zhang, Chunyang Li, Yi Zong, Zhengyu Ying, Liang He, Xipeng Qiu
Ultimo aggiornamento: 2024-02-24 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.12474
Fonte PDF: https://arxiv.org/pdf/2305.12474
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/OpenLMLab/GAOKAO-Bench
- https://github.com/OpenLMLab/GAOKAO-Bench/blob/main/data/Multiple-choice_Questions/2010-2022_English_Reading_Comp.json
- https://github.com/OpenLMLab/GAOKAO-Bench/blob/main/data/Multiple-choice_Questions/2010-2013_English_MCQs.json
- https://github.com/OpenLMLab/GAOKAO-Bench/blob/main/data/Multiple-choice_Questions/2010-2022_English_Fill_in_Blanks.json
- https://github.com/OpenLMLab/GAOKAO-Bench/blob/main/data/Multiple-choice_Questions/2010-2022_Math_I_MCQs.json
- https://github.com/OpenLMLab/GAOKAO-Bench/blob/main/data/Multiple-choice_Questions/2010-2022_Physics_MCQs.json
- https://github.com/OpenLMLab/GAOKAO-Bench/blob/main/data/Multiple-choice_Questions/2010-2022_Chemistry_MCQs.json